Forscher der Facebook Reality Labs wollen präzises Hand- und Fingertracking ohne aufwendiges Kamera-Setup ermöglichen. In einer wissenschaftlichen Publikation stellen sie einen Lösungsansatz vor, der sich maschinelles Lernen zunutze macht.

Den menschlichen Körper in Echtzeit mittels Marker zu erfassen, stellt kein technisches Problem mehr dar. Kommerzielle Motion-Capturing-Systeme werden seit vielen Jahren in der Film- und Spieleindustrie eingesetzt. Anders sieht es bei der Echtzeiterfassung von Händen und Fingern aus.

Eine Hand besitzt 26 Freiheitsgrade und eine unüberschaubare Zahl möglicher Posen. Um sie korrekt zu erfassen, bedarf es zahlreicher Marker. Das eigentliche Problem ist jedoch die maschinelle Verarbeitung dieser Punkte, da sie den Händen korrekt zugeordnet werden müssen

Das ist schwierig, weil sie auf engstem Raum zu liegen kommen. Sind es zu viele oder zu wenige Punkte, kann der Computer aus dem Punktehaufen die Hand- und Fingerstellung nicht richtig ableiten. Zudem kommt es selbst bei natürlichen Handposen zu Verdeckungen, zum Beispiel, wenn man eine Faust macht.

Facebooks VR/AR-Forschungsabteilung stellt nun einen neuen Lösungsansatz für das Echtzeit-3D-Tracking von Händen und Fingern mittels Marker vor, der auf Künstliche Intelligenz setzt.

3D-Rekonstruktion von Gesten aus Bildern

Die Forscher entwarfen fünf Handschuhe in verschiedenen Größen, wobei jeder Handschuhe mit jeweils 19 Markern versehen ist. Im nächsten Schritt nahmen die Wissenschaftler mittels 16 Optitrack-Kameras eine große Bandbreite an Gesten auf (siehe Video unten) und kodierten die einzelnen Marker farblich, sodass die Pose maschinell rekonstruiert werden kann.

Mit dieser Datenbank wurde anschließend ein auf Bildanalyse spezialisiertes künstliches neuronales Netz (Convolutional Neural Network, kurz: CNN) trainiert.

Reality_Labs_Handschuhe

Die Handschuhe mit jeweils 19 Markern. BILD: Facebook Reality Labs

Der immense Vorteil dieses Systems: Die KI kann, ausreichend trainiert, die räumliche Position der Hände und Finger aus 2D-Bildern herleiten. Dadurch wird ein teures Motion-Capturing-Studio wie das der Facebook-Labore überflüssig.

Das künstliche neuronale Netz kommt laut den Forschern mit unterschiedlichen Handgrößen und selbst mit Verdeckungen zurecht. Und es kann Gesten herleiten, die nicht vorab aufgenommen wurden. Das Echtzeit-Tracking soll auf einer modernen Grafikkarte problemlos mit 120 Hertz laufen.

Reality_Labs_Handtracking_3

In diesem Studio wurden die Gesten in 3D aufgenommen. BILD: Facebook Reality Labs

Die Forscher schreiben, dass die Technologie nicht auf ein Endkundenprodukt ausgelegt ist. Sie ermögliche jedoch einen Blick in die Zukunft und erlaube es, mit neuen Formen der Interaktion in VR/AR zu experimentieren.

Die entwickelten KI-Algorithmen könnten zudem für die Bewegungserfassung anderer Körperteile oder des ganzen Körpers genutzt werden und somit bestehende Motion-Capturing-Verfahren sinnvoll ergänzen.

Die Forscher geben sich auffällig zurückhaltend bei der Frage, welche kommerziellen VR-Produkte daraus entstehen könnten. Für die nächste Generation VR-Brillen wären womöglich einfache Trackinghandschuhe denkbar.

Die dafür benötigte RGB-Kamera dürfte bereits im Gehäuse der Geräte verbaut sein: Die autarke VR-Brille Santa Cruz hat vier solcher Kameras verbaut und Oculus Rift 2 könnte ebenfalls mit einer oder mehreren Kameras ausgestattet werden.

Wer sich in die Forschungsarbeit einlesen möchte, kann dies hier tun.

| Featured Image and Source: Shangchen Han et al. (Facebook Reality Labs)

Tagesaktuelle und redaktionell ausgewählte Tech- und VR-Deals: Zur Übersicht
VRODO-Podcast #115: Oculus Rift 2, Pimax Vorbestellstart, AWE 2018 | Alle Folgen anhören


Unsere Artikel enthalten vereinzelt sogenannte Affiliate-Links. Bei einem Kauf über einen dieser Links erhalten wir eine kleine Provision. Der Kaufpreis bleibt gleich.