Titelbild von DALL.E nach einem Foto von M.Ehret, 2002
In diesem Blog wurden bisher schon 6 Varianten eines virtuellen Nachbaus der Haddebyer Noorbrücke präsentiert. (Weitere folgen.) Diese Brücke hat eine einfache geometrische Gestalt, sodass sie sich als Motiv für einen 3D-Kurs gut anbietet. Doch ist die Topologie nicht nur einfach − sondern auch schön, die Konstruktion wirkt anmutig und leicht. Sie verbindet 2 Ufer des Noors und ist weithin sichtbar. Sie ist von viel Wasser, Ufer aus Sand und Uferbefestigungen aus Beton, viel Schilf und Bäumen umgeben. Diese große Wasserfläche rechts und links sowie die nahezu natürliche Umgebung macht sie einzigartig. Die Brücke wurde für einen Wanderweg eingerichtet, früher war dort eine Furt; ein bedeutender Handelsweg aus der Wikingerzeit führte hier entlang.
Mit verschiedenen Ansichten der Brücke soll die Leistungsfähigkeit des AI-Programms DALL.E getestet werden. Das Programm verspricht, Varianten eines Motivs zu liefern, wobei sowohl semantische Informationen als auch stilistische Elemente beibehalten und nicht wesentliche Details variiert werden, siehe DALL.E on arxiv.org, S. 5, Fig. 3. Was sind bei uns semantische Informationen, stilistische Elemente und nicht wesentliche Details? Mir scheint, DALL.E erkennt, klassifiziert „wesentliche“ als auch „weniger wesentliche“ Objekte wie auch den Stil. DALL.E formuliert alle Informationen in einer formalen Sprache. Unsere Beispiele zeigen, dass die „wesentlichen“ Objekte modifiziert und in die Umgebung, die aus den „weniger wichtigen“ Objekten besteht, eingebettet werden. Das geschieht überraschend gut, das ganze Umfeld, das sich hier gut in Vorder-, Hintergrund und Mittelteil gliedern lässt, wird also als solches erkannt und variiert, behält aber doch eine hohe Wiedererkennung. Die „wesentlichen“ Objekte werden klassifiziert, modifiziert, möglicherweise durch Motive aus einer Datenbank, die an die originalen angepasst werden, ersetzt. Die Autoren schreiben, dass sie das Gausssche Diffusionsmodell dafür benutzen. Diese neuen Objekte sind dann fiktional. Manchmal gibt es geomerische Probleme der Brücken selbst und bei der projektiven Dartsellung. So entstehen einige völlig unrealistische Objekte: Brücken, die mechanisch nicht funktionieren, nicht begehbar sind, die das andere Ufer nicht erreichen oder Aussichtstürme statt Brücken sind.
Die generierten Bilder haben ihren Reiz durch ihre Ästhetik und Wiederkennung der Gegend, sie sind intelligent erzeugt, eine einfache 2D-Bildbearbeitung kann dies nicht leisten. Die Anwendung läuft im Browser (openai.com). Nach dem Upload der Vorlage wurden jeweils 4 Bilder innerhalb von ca. 1 Minute generiert. Das ist schon beachtlich, die Studierenden benötigen dafür ca. 100 Stunden, jedenfalls sieht es die Modulbeschreibung so vor…
Die Brücke in der Landschaft
Hier wurden Vordergrund (Schilf), Brücke, Wasser, Himmel und 2 Personen erkannt und variiert. Dabei werden die Personen anonymisiert oder sogar als Personen unkenntlich gemacht. Das gelingt mehr oder weniger gut. Die neuen „Brücken“ greifen die geometrische Gestalt der nach oben führenden Stufen und Teile im Wesentlichen auf, das Material, die Holzgeländer und die Gestalt im Ganzen aber nicht.
Brücke von links
Das Holz der Holzbrücke wird besonders herausgestellt, offensichtlich durch ein Motiv einer anderen Holzbrücke. Die Uferbefestigung aus Beton aus dem Vordergrund wird variiert, Wasser und Natur werden sehr ähnlich beibehalten. Bei genauerem Hinsehen entdeckt man, dass der Hintergrund in der Farbigkeit sehr genau stimmt, in der semantischen Information allerdings nicht: statt Bäume und Schilf werden städtische Elemente gezeigt. Möglicherweise stellt die oben geschilderte Einzigartigkeit der Haddebyer Brücke DALL.E vor große Herausforderungen. Vielleicht ist der Pool von ähnlichen Brückenfotos doch recht klein?
Es werden Ansichten generiert, die die neue Brücke sowohl von links als auch von rechts zeigen, es wäre gut, wenn das kontrollierbar wäre.
Die Spiegelungen im Wasser sind sehr gut ausgeführt.
Das Originalbild wurde mit einer digitalen Vollformatkamera fotografiert, die von DALL.E erzeugten Bilder ähneln in ihrer (etwas übertriebenen Farbigkeit) dem Look von Amateur- und Handyfotos.
Brücke von rechts
Die Ergebnisse ähneln denen von der linken Ansicht. Die Hintergründe bleiben in ihrer semantischen Information erhalten, sie sind hier natürlich: Schilf und Bäume.
Plan der Brücke
Der technische Stil wird aufgegriffen, Bezeichnungen werden in nichtlesbare, nicht interpretierbare umgewandelt, die wesentlichen geometrischen Eigenschaften der Brücke bleiben erhalten, die Geländer variieren. Statt der ursprünglichen orthografischen seitlichen Ansicht werden jetzt auch perspektivische Ansichten generiert. Doch eines Tages wird man die Brücke in 3 Dimensionen kreieren, begehbar, in die Umwelt eingepasst, so wie wir das tun, aber viel schneller und automatisiert.
Bildgenereation aus Text
Last but not least startete ich den Versuch, die Haddebyer Brücke mit Worten zu beschreiben:
photography of a wooden bridge over a ford
Es wurden verschiedene fotorealistische Bilder generiert, die jeweils die Holzbrücke aufgreifen, die Furt allerdings nicht. Nur in einem Fall wurde eine typische Brückengeometrie mit Geländern erzeugt, bei den anderen 3 Bildern scheinen die Projektionen der Handläufe und Pfosten an die richtige Stelle im Raum nicht zu klappen.
Der Look entspricht wieder dem einer Amateur- und Handyfotografie.
Links
Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen: Hierarchical Text-Conditional Image Generation with CLIP Latents, 2022, https://arxiv.org/pdf/2204.06125.pdf, 21.09.2022
Stanislas Polu, Jesse Michael Han, Kunhao Zheng, Mantas Baksys, Igor Babuschkin, Ilya Sutskever: Formal Mathematics Statement Curriculum Learning, 2022, https://arxiv.org/pdf/2204.06125.pdf, 21.09.2022