Diese KI-Hand macht VR endlich alltagstauglich

Diese KI-Hand macht virtuelle Realität endlich alltagstauglich – sie greift, räumt auf und gehorcht aufs Wort

Eine neue KI-Hand steuert virtuelle Räume per Sprache: Sie greift, bewegt Objekte und macht VR dank Sprachsteuerung deutlich zugänglicher.

Virtuelle Realität gilt seit Jahren als Zukunftsversprechen – faszinierend, aber oft umständlich in der Bedienung. Viele Anwendungen funktionieren nur mit speziellen Controllern oder komplizierten Handgesten. Wer nicht geübt ist oder körperliche Einschränkungen hat, stößt schnell an Grenzen. Ein Forschungsteam der University of Michigan arbeitet daher an einer Lösung.

Die Wissenschaftler haben ein System entwickelt, das Sprache und Bewegung auf neue Weise verbindet. Statt komplizierte Kommandos auswendig zu lernen oder exakte Gesten auszuführen, reicht künftig ein einfacher Satz: „Heb das Glas auf“, „räum den Tisch ab“ oder „mach das Fenster größer“. Eine KI-gesteuerte Hand übernimmt die Aufgabe im virtuellen Raum – präzise, schnell und ohne Controller.

Wie die KI-Hand gesprochene Befehle in echte Aktionen umwandelt

Das System heißt HandProxy. Es funktioniert wie ein Übersetzer zwischen Sprachbefehlen und Handlung. Sobald ein Nutzer spricht, analysiert ein Sprachmodell die Anweisung, zerlegt sie in einzelne Schritte und setzt sie als Bewegung um. Das kann ein Griff, eine Drehung oder eine Geste sein.

Die Software erkennt vier grundlegende Aktionen, die sich beliebig kombinieren lassen:

Gestensteuerung: etwa greifen, drehen, schneiden oder drücken
Zielsteuerung: die Auswahl des richtigen Objekts – beispielsweise „den Apfel“ oder „den Knopf links“
Raumsteuerung: Bewegungen und Drehungen im virtuellen Raum
Zeitsteuerung: Befehle wie „stopp“, „halte“ oder „mach es nochmal“

Das Besondere: Die Befehle müssen nicht perfekt formuliert sein. Das System versteht auch Varianten oder umgangssprachliche Wendungen. Aus „Leg den Apfel in den Korb“ wird automatisch eine Abfolge aus greifen, bewegen und loslassen – so, wie eine echte Hand handeln würde.

In Tests reagierte das System präzise und erstaunlich schnell

In einer Studie mit 20 Teilnehmern erreichte HandProxy eine beeindruckende Quote: 91,8 Prozent der gesprochenen Befehle wurden korrekt ausgeführt. Alle Aufgaben konnten am Ende erfolgreich erledigt werden – oft schon beim ersten Versuch. Im Durchschnitt benötigte das System 1,09 Versuche pro Aufgabe, also kaum Wiederholungen.

Die Sprachverarbeitung läuft nahezu in Echtzeit. Die Erkennung selbst dauerte rund 0,18 Sekunden, die Umsetzung im System etwa 1,4 Sekunden. Selbst komplexe Anweisungen – etwa „Öffne alle Fenster und ordne sie nebeneinander“ – setzte die KI-Hand zuverlässig um.

„Wir wollten zeigen, dass sich Sprachsteuerung und Handbewegung verbinden lassen, ohne dass Nutzer komplizierte Befehle auswendig lernen müssen“, erklärt der Informatiker Anhong Guo von der University of Michigan. „HandProxy soll es ermöglichen, zwischen Sprache, Gesten und klassischen Controllern fließend zu wechseln.“

Neue Möglichkeiten für Alltag, Arbeit und Barrierefreiheit

Die Idee ist nicht nur bequem, sondern auch inklusiv. Viele Menschen können herkömmliche VR-Systeme gar nicht nutzen – etwa bei eingeschränkter Beweglichkeit, chronischen Schmerzen oder fehlender Feinmotorik. Auch wer in beengten Räumen arbeitet oder schlicht die Hände voll hat, könnte von einer sprachgesteuerten virtuellen Hand profitieren.

Gerade in Bildung, Medizin oder Industrie entstehen dadurch neue Möglichkeiten. Chirurgen könnten im virtuellen OP trainieren, ohne die Hände zu bewegen. Architekten könnten Modelle verändern, während sie sprechen. Und im Gaming-Bereich wird die Steuerung natürlicher und zugänglicher.

„Unsere virtuelle Hand kann mit jeder Umgebung interagieren, die physikalische Regeln berücksichtigt“, sagt Chen Liang, Erstautor der Studie. „Das heißt, sie kann Dinge stoßen, aufheben oder verschieben – ganz wie eine echte Hand.“

Kleine Schwächen bleiben – das Team arbeitet an Verbesserungen

Noch ist HandProxy ein Prototyp. In manchen Situationen interpretiert die KI Befehle falsch. Wenn etwa jemand „den braunen Gegenstand“ meinte, erkannte das System nicht, dass es sich um einen Korb handelte. Auch bei unklaren Formulierungen wie „Mir gefällt das Bild“ wusste die KI nicht, dass sie eigentlich einen Herz-Button drücken sollte.

Insgesamt scheiterten 64 von 781 Befehlen beim ersten Versuch. Die Entwickler arbeiten bereits an einer Lösung: Die KI soll künftig Rückfragen stellen können, etwa: „Meinst du den Korb oder das Buch?“

Solche Nachfragen könnten das System alltagstauglicher machen – und das Risiko verringern, dass Missverständnisse Aktionen auslösen, die der Nutzer gar nicht wollte.

Eine sprachgesteuerte digitale Hand zeigt, wie sich virtuelle Realität künftig ganz ohne Controller bedienen lässt. © Michigan Engineering via YouTube

Warum die Technik mehr als nur Spielerei ist

HandProxy könnte zum Baustein einer neuen Generation von Schnittstellen werden. Statt Controller, Menüs oder Klicks rückt das natürliche Sprechen in den Mittelpunkt. Das verändert, wie Menschen mit Maschinen umgehen – intuitiver, körpernäher, menschlicher.

Das System lässt sich laut den Forschern problemlos in bestehende VR- oder AR-Umgebungen einbauen, weil es dieselben Signale sendet wie eine echte Hand. Entwickler müssen ihre Anwendungen kaum anpassen.

Mögliche Einsatzbereiche:

Lernumgebungen: Interaktive Schulungen oder Simulationen ohne Controller
Medizinische Trainings: Gesten und Eingriffe per Sprache steuern
Barrierefreie Anwendungen: Virtuelle Räume für Menschen mit motorischen Einschränkungen
Produktivität: Sprachsteuerung in 3D-Workspaces oder Designprogrammen

KI-Hand macht den Zugang zur virtuellen Realität menschlicher

Die Erfinder haben HandProxy bereits Patentschutz beantragt und suchen Partner, um die Technik zur Marktreife zu bringen. Ihr Ziel: eine virtuelle Welt, die niemanden ausschließt – unabhängig von körperlichen Fähigkeiten oder technischem Wissen.

Kurz zusammengefasst:

HandProxy ist eine neue KI-Technologie, die virtuelle Handbewegungen allein durch Sprache steuert – ganz ohne Controller oder Gesten.
In Tests erkannte die KI-Hand rund 92 Prozent aller Befehle korrekt und führte sie fast fehlerfrei in Echtzeit aus.
Das System soll virtuelle Realität einfacher, inklusiver und auch für Menschen mit eingeschränkter Beweglichkeit zugänglich machen.

Übrigens: Forscher aus Frankfurt haben ein KI-Modell entwickelt, das wie das Gehirn denkt – und dabei bis zu 80 Prozent weniger Energie verbraucht. Mehr dazu in unserem Artikel.