In einem Bereich ist der Mensch der KI haushoch überlegen

Selbst die besten KI-Modelle haben Probleme, menschliche Absichten einzuschätzen. Menschen bleiben darin nach wie vor unschlagbar.

Selbstfahrende Autos, smarte Roboter, kluge Sprachassistenten – Künstliche Intelligenz scheint alles zu können. Doch in einem entscheidenden Punkt bleibt sie dem Menschen weit unterlegen: beim Erkennen und Einschätzen sozialer Interaktionen. Eine neue Studie der Johns Hopkins University zeigt eindrucksvoll, wie schlecht mehr als 350 getestete KI-Modelle dabei abschneiden.

Das Ziel der Forscher war es, herauszufinden, wie gut Künstliche Intelligenz (KI) soziale Szenen verstehen und menschliches Verhalten einschätzen kann. Die Ergebnisse präsentierte das Forschungsteam auf der International Conference on Learning Representations (ICLR) – einer der wichtigsten Konferenzen für KI-Forschung. Die ICLR fand 2025 in Singapur statt und lief vom 24. bis zum 28. April.

Forscher testen 350 KI-Modelle anhand von Kurzvideos

Die Wissenschaftler baten Menschen, sich kurze Videos anzuschauen. Daraufhin sollten sie wichtige Merkmale sozialer Interaktionen auf einer Skala von eins bis fünf bewerten, etwa Gespräche oder gemeinsames Handeln. Gleichzeitig sollten KI-Modelle aus den Bereichen Sprache, Video und Bild die gleiche Aufgabe erfüllen.

Dabei zeigte sich: Menschen lagen bei ihren Einschätzungen nah beieinander, die KIs hingegen lieferten unzuverlässige Ergebnisse. Sprachmodelle kamen den menschlichen Bewertungen noch am nächsten. Bild- und Videomodelle hingegen hatten große Schwierigkeiten, die soziale Dynamik richtig einzuordnen.

KI erkennt Absichten von Menschen oft nicht korrekt

Leyla Isik ist Assistenzprofessorin für Kognitionswissenschaft an der Johns Hopkins University und die leitende Autorin der Studie. Sie erklärte: „Jedes Mal, wenn eine KI mit Menschen interagieren soll, muss sie erkennen können, was Menschen tun.“ Ihre Ergebnisse führen sie zu dem Schluss, dass KI noch nicht in der Lage dazu ist.

Soziale Interaktionen richtig zu beschreiben und zu interpretieren ist eine Fähigkeit, die KIs für komplexere Anwendungen lernen müssen – etwa, wenn sie ein Autos steuern oder als Assistenz-Roboter dienen sollen. So muss ein zuverlässiger Autopilot erkennen, ob jemand einen Fußgängerweg überqueren möchte oder nur mit jemandem spricht.

Stärke künstlicher Intelligenz liegt in statischen Bildern

Heutige KI-Systeme sind besser im Erkennen von Einzelbildern als von dynamischen Szenen. Laut den Forschern der Johns Hopkins University liegt das daran, dass ihre neuronalen Netzwerke an den Teil des Gehirns angelehnt sind, der statische Bilder verarbeitet – nicht an den Bereich für soziale, bewegte Szenen.

Es reicht nicht, nur ein Bild zu sehen und Objekte oder Gesichter zu erkennen. Das war der erste Schritt, der die KI weit gebracht hat. Aber das echte Leben ist nicht statisch. Wir brauchen KIs, die die Geschichte verstehen, die sich in einer Szene entfaltet.
Kathy Garcia, Co-Erstautorin und Doktorandin an der Johns Hopkins University

Sprachmodelle und Videomodelle schneiden unterschiedlich ab

Die Untersuchung zeigte auch, dass jede KI ihre eigenen Stärken hat: Während Sprachmodelle besser voraussagen konnten, wie Menschen auf eine Szene reagieren, waren Videomodelle stärker darin, die neuronale Aktivität des menschlichen Gehirns beim Betrachten vorherzusagen. Beim Lesen sozialer Situationen scheiterten allerdings alle getesteten Systeme – unabhängig von ihrer Größe oder Trainingsbasis.

Das Ziel der KI-Forschung bleibt daher, Systeme so weiterzuentwickeln, dass sie komplexe soziale Szenen zuverlässig erfassen und angemessen reagieren können.

Kurz zusammengefasst:

Der Mensch kann soziale Interaktionen in bewegten Szenen deutlich besser erkennen und bewerten als aktuelle KI-Modelle.
Eine Untersuchung der Johns Hopkins University mit über 350 KI-Systemen zeigte, dass Maschinen menschliches Verhalten bislang nur unzureichend einschätzen können.
Ein Grund dafür ist, dass heutige KI-Modelle an Gehirnstrukturen für statische Bilder angelehnt sind und dynamische soziale Abläufe kaum erfassen.

Übrigens: Obwohl KI bei sozialen Interaktionen oft kläglich versagt, kann sie inzwischen Gedanken in Sprache verwandeln – und gibt so Schlaganfall-Patienten ihre Stimme zurück. Mehr dazu in unserem Artikel.