„Ungebildet“ und „ländlich“ – KI übernimmt Stereotype und bewertet deutsche Dialekte als weniger kompetent
KI ordnet Dialektsprechern häufiger negative Eigenschaften zu und verstärkt damit unbewusst alte Sprachklischees.
Die KI bewertete Dialekte wie Bairisch deutlich negativer als Hochdeutsch. Sie verknüpfte Mundart mit „ländlich“ und „ungebildet“, Hochdeutsch hingegen mit „professionell“ und „gebildet“. © Unsplash
Wer „Moin“ schreibt oder „Grüß Gott“ sagt, wirkt für viele sofort vertraut. Dialekt schafft Nähe, manchmal sogar Vertrauen. Doch sobald KI-Modelle Texte bewerten, kippt diese Wärme oft ins Gegenteil: Dialekt landet schneller in der Schublade „weniger kompetent“ – mit möglichen Folgen für Schule und Job. Zu diesem Ergebnis kommt ein Informatik-Team der Gutenberg-Universität Mainz, das mehrere große Sprachmodelle mit Dialekttexten getestet hat.
KI bewertet Sprache nicht neutral
Das Forscherteam wollte wissen, wie KI mit Dialekten umgeht. Dafür testeten sie zehn große Sprachmodelle – darunter GPT-5, Llama und Gemma – mit Texten aus sieben deutschen Dialekten. In zwei Aufgaben prüften sie, welche Begriffe und Berufe die Programme mit Dialekt und welche mit Standardsprache verbinden.
Das Ergebnis ist deutlich: KI-Systeme stufen Dialektsprecher oft als „ungebildet“, „ländlich“ oder „aufbrausend“ ein. Hochdeutsche Texte bekommen dagegen Etiketten wie „professionell“, „gebildet“ oder „vertrauenswürdig“. Selbst das Attribut „freundlich“, das laut Sprachforschung traditionell mit Dialekten verbunden ist, taucht in den Bewertungen seltener auf.
Größere KI-Modelle urteilen härter
Je größer das Sprachmodell, desto stärker die Verzerrung. Laut den Forschern zeigten Varianten mit mehreren Milliarden Parametern die ausgeprägtesten Vorurteile. „Größere Modelle zeigen nicht weniger, sondern stärkere Vorurteile“, heißt es in der Analyse. Offenbar erkennen sie feine sprachliche Unterschiede besser und übernehmen dadurch gesellschaftliche Stereotype besonders genau.
In einem zweiten Test sollten die Systeme fiktiven Personen bestimmte Berufe, Wohnorte oder Charaktereigenschaften zuordnen. Dialektsprechern wiesen sie häufiger einfache Jobs auf dem Land zu, Hochdeutschsprechern dagegen akademische Berufe in Städten.
In mehreren Fällen bekam die Dialektversion eines Texts die Empfehlung für einen „Workshop gegen aufbrausendes Verhalten“, während die hochdeutsche Variante als „geeignet für Führungsaufgaben“ bewertet wurde.
KI stuft Dialekte fast immer negativer ein
Für die Untersuchung nutzten die Forscher 350 Texte in Dialekt und 350 in standarddeutscher Übersetzung – alle aus Wikipedia-Artikeln. So ließ sich genau vergleichen, wie die Programme reagieren, wenn Inhalt und Bedeutung gleich bleiben, sich aber die Sprache ändert. Die Unterschiede waren deutlich messbar:
- In 95 Prozent der Fälle bewerteten die Modelle Dialektvarianten schlechter als Hochdeutsch.
- Der Bias-Wert für „ungebildet“ lag bei einzelnen Modellen wie GPT-5 Mini bei 1,0 – das entspricht der maximal möglichen Verzerrung.
- Selbst beim neutralen Merkmal „freundlich“ traten in neun von 14 Fällen negative Umkehrungen auf.
Die Wissenschaftler kontrollierten zusätzlich, ob die KI Dialekte womöglich als „fehlerhafte“ Texte behandelt. Doch auch bei künstlich verfremdeten Proben – etwa mit Tippfehlern – blieb der Bias gegen Dialekte stärker.
Hinweise auf Dialekte verstärken Vorurteile der KI
Wenn die Programme ausdrücklich darauf hingewiesen wurden, dass ein Text in Dialekt verfasst ist, verschärften sich die Vorurteile. „Explizit markierte Dialekttexte verstärken die Verzerrung, statt sie zu mindern“, erklären die Forscher in der Studie.
Das steht im Gegensatz zu bisherigen Beobachtungen, etwa bei Geschlecht oder ethnischer Zugehörigkeit. Dort helfen offene Kennzeichnungen oft, Diskriminierung zu reduzieren. Bei Sprache scheint das Gegenteil zu passieren: Die KI bewertet bewusste Dialektkennzeichnungen strenger.
KI-Vorurteile beeinflussen Chancen auf dem Arbeitsmarkt
Dialekte gelten in Deutschland vielen als sympathisch, aber wenig prestigeträchtig. Laut früheren Untersuchungen verdienen Dialektsprecher im Durchschnitt weniger und werden bei Bewerbungen häufiger übergangen. Die neue Studie macht deutlich, dass KI-Systeme diese Ungleichheit weiter verstärken könnten. „Das ist problematisch, weil Sprachmodelle zunehmend in Bildung oder Bewerbungsverfahren eingesetzt werden“, sagt Studienautorin Katharina von der Wense von der Gutenberg-Universität und gibt zu Bedenken:
Wenn Sprache als Indikator für Kompetenz gilt, können solche Systeme gesellschaftliche Ungleichheiten festschreiben.
Ihr Kollege Minh Duc Bui ergänzt: „Vorurteile gegenüber regionalen Sprachvarianten sind kein deutsches Phänomen. Auch in anderen Sprachen, etwa im Englischen, gibt es sie.“
Wie KI künftig fairer werden kann
In Deutschland sprechen laut der Studie rund 40 Prozent der Bevölkerung regelmäßig einen Dialekt. Die Experten fordern daher, dass Trainingsdaten für Sprachmodelle sprachliche Vielfalt besser abbilden müssen. Nur so lasse sich verhindern, dass Dialekte zu einem Nachteil werden.
Kurz zusammengefasst:
- Große Sprachmodelle zeigen deutliche Vorurteile: Die KI bewerte Dialekte häufiger als „ungebildet“ oder „ländlich“, während hochdeutsche Texte als „gebildet“ und „professionell“ gelten.
- Forscher der Gutenberg-Universität Mainz beobachteten, dass größere Systeme wie GPT-5 oder Llama besonders stark auf Dialekte reagieren – und die Vorurteile sogar zunehmen, wenn der Dialekt ausdrücklich genannt wird.
- Da rund 40 Prozent der Deutschen regelmäßig Dialekt sprechen, warnen die Wissenschaftler vor Benachteiligungen im Alltag und fordern, dass künftige KI-Modelle sprachliche Vielfalt gerechter abbilden.
Übrigens: Auch im Bewerbungsgespräch mischt KI längst mit – sie entscheidet, wer überzeugt und wer durchs Raster fällt. Ob dabei faire Chancen oder digitale Vorurteile überwiegen, erforscht ein Team der Rice University. Mehr dazu in unserem Artikel.
Bild: © Unsplash
