Haddebyer Brücke und AI

Titelbild von DALL.E nach einem Foto von M.Ehret, 2002

In diesem Blog wurden bisher schon 6 Varianten eines virtuellen Nachbaus der Haddebyer Noorbrücke präsentiert. (Weitere folgen.) Diese Brücke hat eine einfache geometrische Gestalt, sodass sie sich als Motiv für einen 3D-Kurs gut anbietet. Doch ist die Topologie nicht nur einfach − sondern auch schön, die Konstruktion wirkt anmutig und leicht. Sie verbindet 2 Ufer des Noors und ist weithin sichtbar. Sie ist von viel Wasser, Ufer aus Sand und Uferbefestigungen aus Beton, viel Schilf und Bäumen umgeben. Diese große Wasserfläche rechts und links sowie die nahezu natürliche Umgebung macht sie einzigartig. Die Brücke wurde für einen Wanderweg eingerichtet, früher war dort eine Furt; ein bedeutender Handelsweg aus der Wikingerzeit führte hier entlang.

Mit verschiedenen Ansichten der Brücke soll die Leistungsfähigkeit des AI-Programms DALL.E getestet werden. Das Programm verspricht, Varianten eines Motivs zu liefern, wobei sowohl semantische Informationen als auch stilistische Elemente beibehalten und nicht wesentliche Details variiert werden, siehe DALL.E on arxiv.org, S. 5, Fig. 3. Was sind bei uns semantische Informationen, stilistische Elemente und nicht wesentliche Details? Mir scheint, DALL.E erkennt, klassifiziert „wesentliche“ als auch „weniger wesentliche“ Objekte wie auch den Stil. DALL.E formuliert alle Informationen in einer formalen Sprache. Unsere Beispiele zeigen, dass die „wesentlichen“ Objekte modifiziert und in die Umgebung, die aus den „weniger wichtigen“ Objekten besteht, eingebettet werden. Das geschieht überraschend gut, das ganze Umfeld, das sich hier gut in Vorder-, Hintergrund und Mittelteil gliedern lässt, wird also als solches erkannt und variiert, behält aber doch eine hohe Wiedererkennung. Die „wesentlichen“ Objekte werden klassifiziert, modifiziert, möglicherweise durch Motive aus einer Datenbank, die an die originalen angepasst werden, ersetzt. Die Autoren schreiben, dass sie das Gausssche Diffusionsmodell dafür benutzen. Diese neuen Objekte sind dann fiktional. Manchmal gibt es geomerische Probleme der Brücken selbst und bei der projektiven Dartsellung. So entstehen einige völlig unrealistische Objekte: Brücken, die mechanisch nicht funktionieren, nicht begehbar sind, die das andere Ufer nicht erreichen oder Aussichtstürme statt Brücken sind.

Die generierten Bilder haben ihren Reiz durch ihre Ästhetik und Wiederkennung der Gegend, sie sind intelligent erzeugt, eine einfache 2D-Bildbearbeitung kann dies nicht leisten. Die Anwendung läuft im Browser (openai.com). Nach dem Upload der Vorlage wurden jeweils 4 Bilder innerhalb von ca. 1 Minute generiert. Das ist schon beachtlich, die Studierenden benötigen dafür ca. 100 Stunden, jedenfalls sieht es die Modulbeschreibung so vor…

Die Brücke in der Landschaft

ehret_bruecke_original-fuer_AI_DSC_3887 — Fotovorlage für DALL.E

Von DALL.E generiertes Bild, Brücke mit unklarer,, instabilder Ständerkonstruktion

DALL_E_2022-09-21_18_31_18 — Von DALL.E generiertes Bild, Brücke mit unklarem Geländer, Schilf auf den Stufen und einem Absperrgitter

Hier wurden Vordergrund (Schilf), Brücke, Wasser, Himmel und 2 Personen erkannt und variiert. Dabei werden die Personen anonymisiert oder sogar als Personen unkenntlich gemacht. Das gelingt mehr oder weniger gut. Die neuen „Brücken“ greifen die geometrische Gestalt der nach oben führenden Stufen und Teile im Wesentlichen auf, das Material, die Holzgeländer und die Gestalt im Ganzen aber nicht.

Brücke von links

ehret_bruecke_original-fuer_AI_DSC_4079 — Fotovorlage für DALL.E

DALL_E_2022-09-02_14_14_46 — Von DALL.E generiertes Bild

DALL_E_2022-09-02_14_15_03 — Von DALL.E generiertes Bild

DALL_E_2022-09-02_14_15_11 — Von DALL.E generiertes Bild, Brücke ohne Stufen und oben nur mit Geländer vorn. Die zweite Leiste von oben des vorderen Geländers geht in eine Leiste des hinteren Geländers über.

DALL_E 2022-09-02_14_15_22 — Von DALL.E generiertes Bild, Brücke mit unklarer Geländerkonstruktion, die vorderen und hinteren Handläufe sind nicht unterscheidbar

Das Holz der Holzbrücke wird besonders herausgestellt, offensichtlich durch ein Motiv einer anderen Holzbrücke. Die Uferbefestigung aus Beton aus dem Vordergrund wird variiert, Wasser und Natur werden sehr ähnlich beibehalten. Bei genauerem Hinsehen entdeckt man, dass der Hintergrund in der Farbigkeit sehr genau stimmt, in der semantischen Information allerdings nicht: statt Bäume und Schilf werden städtische Elemente gezeigt. Möglicherweise stellt die oben geschilderte Einzigartigkeit der Haddebyer Brücke DALL.E vor große Herausforderungen. Vielleicht ist der Pool von ähnlichen Brückenfotos doch recht klein?

Es werden Ansichten generiert, die die neue Brücke sowohl von links als auch von rechts zeigen, es wäre gut, wenn das kontrollierbar wäre.

Die Spiegelungen im Wasser sind sehr gut ausgeführt.

Das Originalbild wurde mit einer digitalen Vollformatkamera fotografiert, die von DALL.E erzeugten Bilder ähneln in ihrer (etwas übertriebenen Farbigkeit) dem Look von Amateur- und Handyfotos.

Brücke von rechts

ehret_bruecke_original-fuer_AI_DSC_4078 — Fotovorlage

DALL_E_2022-09-02_14_17_27 — Von DALL.E generiertes Bild. Der obere vordere Handlauf geht in den hinteren Handlauf über.

DALL_E_2022-09-02_14_17_32 — Von DALL.E generiertes Bild, merkwürde Handläufe nur einseitig, die Brücke ist abgebrochen und nicht gesichert.

DALL_E_2022-09-02_14_17_45 — Von DALL.E generiertes Bild. Die Brücke hat nur einseitige Geländer und ist durch ihre Lage weg vom Ufer und hohen Wasserstand nicht begehbar.

Die Ergebnisse ähneln denen von der linken Ansicht. Die Hintergründe bleiben in ihrer semantischen Information erhalten, sie sind hier natürlich: Schilf und Bäume.

Plan der Brücke

ehret_bruecke_original-fuer_AI_bruecke_front_31 — Original für DALL.E, quadratischer Ausschnitt aus der seitlichen Ansicht

DALL_E_2022-09-02_14_25_24 — Von DALL.E generiertes Bild

DALL_E_2022-09-02_14_25_12 — Von DALL.E generiertes Bild

DALL_E_2022-09-02_14_25_03 — Von DALL.E generiertes Bild

DALL_E_2022-09-02_14_24_56 — Von DALL.E generiertes Bild

Der technische Stil wird aufgegriffen, Bezeichnungen werden in nichtlesbare, nicht interpretierbare umgewandelt, die wesentlichen geometrischen Eigenschaften der Brücke bleiben erhalten, die Geländer variieren. Statt der ursprünglichen orthografischen seitlichen Ansicht werden jetzt auch perspektivische Ansichten generiert. Doch eines Tages wird man die Brücke in 3 Dimensionen kreieren, begehbar, in die Umwelt eingepasst, so wie wir das tun, aber viel schneller und automatisiert.

Bildgenereation aus Text

Last but not least startete ich den Versuch, die Haddebyer Brücke mit Worten zu beschreiben:

photography of a wooden bridge over a ford

DALL_E_2022-09-02_14_27_55_-_photography_of_a_wooden_bridge_over_a_ford — Von DALL.E generiertes Bild. Bei den Handläufen vorn und hinten geht etwas durcheinander, sie scheinen übereinander angebracht zu sein. Das Diffusionsmodell der AI ist wohl verantwortlich für den merkwürdigen und nicht umsetzbaren Übergang zwischen Längs- und Querbalken des begehbaren Teils.

DALL_E_2022-09-02_14_28_02_-_photography_of_a_wooden_bridge_over_a_ford — Von DALL.E generiertes Bild

Es wurden verschiedene fotorealistische Bilder generiert, die jeweils die Holzbrücke aufgreifen, die Furt allerdings nicht. Nur in einem Fall wurde eine typische Brückengeometrie mit Geländern erzeugt, bei den anderen 3 Bildern scheinen die Projektionen der Handläufe und Pfosten an die richtige Stelle im Raum nicht zu klappen.

Der Look entspricht wieder dem einer Amateur- und Handyfotografie.

Links

Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text-Conditional Image Generation with CLIP Latents, 2022, https://arxiv.org/pdf/2204.06125.pdf, 21.09.2022

Stanislas Polu, Jesse Michael Han, Kunhao Zheng, Mantas Baksys, Igor Babuschkin, Ilya Sutskever: Formal Mathematics Statement Curriculum Learning, 2022, https://arxiv.org/pdf/2204.06125.pdf, 21.09.2022

CGI, Fotografie, Video

Studentische Arbeiten aus der Medienproduktion der Technischen Hochschule OWL