Wie klingt ein Bild? Ein von japanischen Forschern entwickeltes KI-System sucht mittels maschinellem Lernen aus 52.000 Soundschnipseln eine passende Geräuschkulisse aus.

Auf der Web-Plattform “Imaginary Soundscape” können Nutzer Bilder und Gemälde verlinken oder hochladen. Ein KI-System analysiert das Bild, erkennt Objekte darin und sucht eine zum Inhalt passende Soundlandschaft aus. In der Audiodatenbank stehen 52.000 Soundschnipsel zur Verfügung, die in einer Schleife abgespielt werden.

Die Objekterkennung funktioniert bei eindeutigen Motiven recht gut: Beispielsweise hört man Blätterrauschen, wenn Wald im Bild ist, Gespräche bei vielen Menschen oder Wellen, wenn das Meer das Motiv ist. Umso detaillierter und abstrakter das Bild ist, desto unpassender wird die Tonauswahl – aber deshalb ist sie nicht unbedingt weniger interessant.

Im Gegenteil, es ist recht faszinierend, den – je nach Definition – kreativen Prozess einer Künstlichen Intelligenz zu beobachten und sich zu fragen, wie dieses oder jenes Ergebnis wohl zustande kam.

Entwickelt wurde der Algorithmus und die Web-Plattform von Yuma Kajihara, Shoya Dozono und  Nao Tokui von der Universität Tokio. Anfang des Jahres veröffentlichten sie eine Version, die Bilder aus Google Maps mit passenden Hintergrundgeräuschen unterlegt. Hintergrundinfos zum Projekt stehen hier, die wissenschaftliche Publikation ist hier einsehbar.

Das folgende Video zeigt die Google-Maps-Variante des Algorithmus im Einsatz.


Tagesaktuelle und redaktionell ausgewählte Tech- und VR-Deals: Zur Übersicht
VRODO-Podcast #120: Cebit-Erinnerungen, Duplex-Menschen und KI-Vorurteile | Alle Podcast-Folgen


Unsere Artikel enthalten vereinzelt sogenannte Affiliate-Links. Bei einem Kauf über einen dieser Links erhalten wir eine kleine Provision. Der Kaufpreis bleibt gleich.