Wer gute Trainingsdaten für eine KI will, muss mitunter erfinderisch sein.

Wenn man mit dem Google-Smartphone Pixel 3 ein Portrait schießt, muss es erst noch in die Entwicklung. Die dauert allerdings nur ein paar Sekunden: Ein für Mobilgeräte optimiertes neuronales Netz (TensorFlow Lite) nimmt das Ursprungsbild, erkennt darin das Gesicht, löst es vom Hintergrund und legt auf eben diesen einen Unschärfeeffekt, wie man ihn von teuren Profikameras kennt.

Andere Smartphones erzielen optisch ein ähnliches Ergebnis, haben dafür aber zwei oder mehr Linsen auf der Rückseite verbaut. Den Pixel-Smartphones reicht dank KI-Nachbearbeitung eine einzelne Linse.

Ein linkes und ein rechtes Bild werden aus den Sensordaten gefiltert und mit einem Algorithmus präzisiert. Der minimale Unterschied zwischen der linken und rechten Sensorhälfte soll für die Tiefenschätzung und damit die Hintergrunderkennung schon ausreichen.

Der Stereo-Algorithmus, der anfangs für das Pixel 2 eingesetzt wurde, war allerdings untrainiert.

Für das Pixel 3 setzt Google auf maschinelles Lernen mit einem neuen, von Grund auf entwickelten Algorithmus für die Tiefenerkennung. Trainiert wurde er mit den Aufnahmen des “Frankenphone”: einer Smartphone-Halterung mit fünf Pixel-3-Geräten, die dieselbe Szene via Wi-Fi-Synchronisierung aus fünf jeweils leicht versetzten Blickwinkeln fotografieren.

Durch die perspektivische Verschiebung kann die Entfernung zwischen Objektiv und Objekt berechnet und so Vorder- von Hintergrund gelöst werden. Die Aufnahmen des Frankenphone dienten der Foto-KI des Pixel 3 als Trainingsmaterial.

GIF

Laut Google bietet die neue KI-Methode eine präzisere Hintergrunderkennung, als sie anfangs mit dem untrainierten Stereo-Algorithmus des Pixel 2 gelang (siehe GIF, Learned = Pixel 3, Stereo = Pixel 2). Kombiniert wird die Foto-KI mit einer weiteren KI-Software für die Gesichtserkennung.

GIF

Der mit dem Frankenphone trainierte Algorithmus unterscheidet deutlich besser zwischen Vorder- und Hintergrund als der untrainierte Stereo-Algorithmus. Bild: Google

Der mit dem Frankenphone trainierte Algorithmus unterscheidet deutlich besser zwischen Vorder- und Hintergrund als der untrainierte Stereo-Algorithmus. Bild: Google

Der mit dem Frankenphone trainierte Algorithmus (rechte Seite) unterscheidet deutlich besser zwischen Vorder- und Hintergrund als der untrainierte Stereo-Algorithmus (linke Seite). Bild: Google

Zahlreiche weitere Beispielbilder gibt es in diesem Album und im Google Blog.


Tagesaktuelle und redaktionell ausgewählte Tech- und VR-Deals: Zur Übersicht
VRODO-Podcast #120: Cebit-Erinnerungen, Duplex-Menschen und KI-Vorurteile | Alle Podcast-Folgen


Unsere Artikel enthalten vereinzelt sogenannte Affiliate-Links. Bei einem Kauf über einen dieser Links erhalten wir eine kleine Provision. Der Kaufpreis bleibt gleich.