KI beginnt erstmals, menschliche Sprachfähigkeiten zu entwickeln
Bestimmte LLMs analysieren Sprache ähnlich wie Linguisten – und erkennen Strukturen, die früher nur Menschen beherrschten.

Menschliches Denken und maschinelle Sprachverarbeitung nähern sich an: Neue KI-Modelle zeigen erstmals menschliche Sprachfähigkeiten bei der Satzanalyse. © DALL-E
KI-Chatbots wie ChatGPT gelten weithin als hochentwickelte Vorhersagemaschinen. Trainiert anhand riesiger Inhaltsmengen – von Nachrichtenartikeln und Büchern bis hin zu Drehbüchern und Reddit-Posts – antizipieren sie auf Nachfrage die nächsten wahrscheinlichsten Buchstaben und Wörter. Ihre Antworten können zwar den Eindruck erwecken, sie seien empfindsame Denker, doch dieses Science-Fiction-Szenario hat sich bisher nicht bewahrheitet. Bis jetzt vielleicht.
Neue Forschungsergebnisse der UC Berkeley zeigen jedoch erstmals, dass KI-Chatbots Sätze wie ein ausgebildeter Linguist analysieren können – und dabei Fähigkeiten zeigen, die bisher als typisch menschlich galten.
KI geht den nächsten Schritt – LLMs zeigen erstmals menschliche Sprachfähigkeiten bei Tests
Im Zentrum der Studie steht ein Aspekt, der für viele auf den ersten Blick abstrakt wirkt – aber große Auswirkungen haben kann: KI beginnt, über Sprache nachzudenken. Dabei geht es nicht mehr nur um den richtigen nächsten Satz, sondern um ein tieferes Verständnis der grammatischen Struktur.
Dazu testete das Forschungsteam vier bekannte Large-Language-Modelle (LLM) – GPT-3.5, GPT-4, Llama 3.1 und das neue OpenAI-Modell o1 – auf ihre Fähigkeit, komplexe sprachliche Phänomene zu erkennen. Bewertet wurden die Ergebnisse von drei unabhängigen Experten.
Testdesign auf einen Blick:
- 4 Modelle, 4 Aufgabenarten: doppeldeutige Sätze (Ambiguität), verschachtelte Strukturen (Rekursion), Umstellungen im Satz (syntaktische Bewegung), Regeln für Lautveränderungen (Phonologie)
- Pro Aufgabe: 30 Sätze × 4 Modelle = 120 Modellantworten
- Insgesamt 1.920 Modellantworten, von Menschen in 3.600 Einzelurteilen bewertet
- Testdaten wurden eigens erstellt, um auswendig gelerntes Wissen auszuschließen
Neues OpenAI-Modell „o1“ sticht alle anderen deutlich aus
Das Modell o1 von OpenAI schnitt in allen vier Kategorien klar am besten ab – besonders bei Aufgaben, die bisher selbst für GPT-4 eine Herausforderung darstellten. Ein Beispiel: Der Satz „Eliza wanted her cast out“ lässt sich doppeldeutig verstehen. Ging es um eine Person oder um einen Gipsverband? Nur o1 erkannte beide Möglichkeiten und erstellte einen passenden Strukturbauplan – einen sogenannten syntaktischen Baum.
In Zahlen:
- Wenn es darum ging, doppeldeutige Sätze zu erkennen, traf o1 in 63 Prozent der Fälle die richtige Entscheidung – GPT-4 kam nur auf etwa 31 Prozent.
- Bei verschachtelten Satzkonstruktionen lag o1 mit 87 Prozent vorn, während die anderen Modelle meist unter 40 Prozent blieben.
- Auch bei umgestellten Satzteilen, wie sie etwa in Fragen vorkommen, überzeugte o1 mit 93 Prozent – GPT-4 kam hier nur auf 20 Prozent.
- Und selbst bei feinen Lautregeln der Sprache zeigte o1 ein gutes Gespür: Es lag bei 63 Prozent, die anderen Modelle blieben deutlich darunter – meist unter 14 Prozent.
„Wir zeigen, dass OpenAI o1 andere Modelle bei Aufgaben zur syntaktischen Baumstruktur und phonologischer Generalisierung deutlich übertrifft“, so Berkeley-Linguistikprofessor Gašper Beguš.
Menschliche Sprachfähigkeiten – KI erfasst Satzstruktur wie Linguisten
Besonders beeindruckte die Forscher, wie das Modell mit sogenannten rekursiven Strukturen umging – also verschachtelten Sätzen wie „Der Hund, der die Katze jagte, die auf den Baum kletterte, bellte laut.“
o1 erkannte diese Struktur, analysierte sie korrekt und erweiterte sie sogar sinnvoll: Aus dem Satz „Unbekannte Flugobjekte können widersprüchliche Merkmale aufweisen“ wurde etwa „Unbekannte, kürzlich gesichtete Flugobjekte können widersprüchliche Merkmale aufweisen“.
„Das Ketten-zu-Ketten-Denken von o1 ähnelt der menschlichen Art des logischen Arbeitens bei linguistischen Problemen“, sagt Beguš. Gerade in diesem Punkt zeigt sich, wie groß der Fortschritt bei metalinguistischen Fähigkeiten von LLMs mittlerweile ist.
Bewertung liefert neue Werkzeuge für Forschung und Alltag
Den Forschern zufolge könnten solche Tests künftig dabei helfen, Fortschritte bei Sprachmodellen objektiv und nachvollziehbar zu bewerten. Das hilft nicht nur in der Wissenschaft, sondern auch für den Einsatz im Alltag – etwa im Bildungsbereich oder bei der Entwicklung sprachsensibler Anwendungen.
„Diese Studie schafft eine schöne Vergleichsgrundlage für die Leistungsbewertung neuer Modelle“, so Beguš. „Es ist wichtig, das wissenschaftlich einzuordnen – und nicht bloß dem Hype zu folgen.“
Damit wird auch klar: Während viele Systeme Sprache imitieren, beginnt ein Modell wie o1, sie tatsächlich zu verstehen – zumindest in einzelnen Aspekten. Perfekt ist es nicht. Aber das, was bisher als rein menschlich galt, bekommt technische Konkurrenz.
Kurz zusammengefasst:
- Bestimmte KI-Sprachmodelle, insbesondere OpenAIs o1, zeigen erstmals menschliche Sprachfähigkeiten. Eines dieser Modelle konnte Sprache so strukturieren und analysieren, wie es sonst nur menschliche Linguisten tun.
- In vier Testkategorien (Ambiguität, Rekursion, Satzumstellung, Lautregeln) schnitt o1 deutlich besser ab als GPT-4 oder Llama 3.1.
- Die Studie liefert belastbare Hinweise darauf, dass große Sprachmodelle zunehmend metalinguistische Fähigkeiten entwickeln – also über Sprache nachdenken können.
Übrigens: Wer beim Schreiben ständig auf KI zurückgreift, spart zwar Zeit – verliert aber unbemerkt an Denkfähigkeit. Eine neue MIT-Studie zeigt, wie sich unser Gehirn verändert, wenn Maschinen das Denken übernehmen. Mehr dazu in unserem Artikel.
Bild: © DALL-E