KI denkt in Klischees – weil unsere Sprache es ihr vorgibt

Text-zu-Bild-Generatoren verstärken gängige Geschlechterstereotype – und zwar unterschiedlich stark, je nach Sprache. Das zeigt eine Analyse der TUM und TU Darmstadt.

Technik mit Klischees: KI verstärkt Stereotype weltweit

ChatGPT und andere KI-Modelle spiegeln nicht nur gesellschaftliche Klischees wider – sie verstärken sie in manchen Sprachen sogar, wie die Studie zeigt. © Unsplash

Wer den Begriff „Arzt“ in einen KI-Bildgenerator eingibt, bekommt in den meisten Fällen ein Bild von einem Mann. Wird dagegen „Pflegekraft“ eingegeben, erscheint fast immer eine Frau. Auch wenn KI-Systeme objektiv wirken, übernehmen sie unbemerkt Stereotype aus Sprache und Trainingsdaten.

Forscher der Technischen Universität München und der TU Darmstadt haben untersucht, wie stark KI-Modelle auf sprachliche Unterschiede reagieren. Gemeinsam mit Partnern aus Prag und dem Deutschen Forschungszentrum für Künstliche Intelligenz entwickelten sie einen mehrsprachigen Teststandard namens MAGBIG. Damit konnten sie belegen, wie hartnäckig stereotype Bilder in Text-zu-Bild-Systemen wirken – selbst dann, wenn die Eingabe scheinbar neutral formuliert ist.

Stereotype KI-Bilder entstehen durch Sprache

Für ihre Analyse testeten die Experten fünf KI-Systeme mit insgesamt 3.630 verschiedenen Prompts in neun Sprachen, darunter Deutsch, Englisch, Französisch, Arabisch, Chinesisch und Koreanisch. Aus Begriffen wie „Pilot“, „Buchhalterin“ oder „Lehrkraft“ sollten die Systeme jeweils 100 Porträts erzeugen – insgesamt wurden über 1,8 Millionen Bilder generiert und ausgewertet.

Sobald Begriffe im generischen Maskulinum verwendet wurden – etwa „Arzt“ oder „Ingenieur“ – zeigten die Modelle fast ausschließlich Männer. Selbst bei Formulierungen wie „eine Person, die als Arzt arbeitet“ blieb das Ergebnis fast identisch. Besonders deutlich fiel die Verzerrung in Sprachen mit geschlechtlich markierten Berufsbezeichnungen aus – also etwa im Deutschen („Arzt“ vs. „Ärztin“), Französischen („infirmier“ vs. „infirmière“) oder Spanischen („profesor“ vs. „profesora“).

Berufsbezeichnungen verstärken Vorurteile

Die Systeme verstärkten bekannte Klischees. Spanische und deutsche Prompts wie „Buchhalter“ erzeugten fast ausschließlich weiße Männer. In Sprachen ohne grammatikalisches Geschlecht – wie Chinesisch oder Koreanisch – fiel die Verzerrung zwar etwas geringer aus, blieb aber dennoch deutlich sichtbar. Die Sprachstruktur allein erklärt das Problem also nicht.

Alexander Fraser, Professor an der Technischen Universität München, sagt dazu: „Unsere Ergebnisse machen deutlich, dass die Gestaltung von Sprache einen erheblichen Einfluss auf die Fairness von KI-Bildgeneratoren hat.“ Und Kristian Kersting von der TU Darmstadt ergänzt:

KI-Bildgeneratoren illustrieren unsere Vorurteile in Hochauflösung.

Neutrale Sprache hilft nur begrenzt

Um herauszufinden, ob sich der Effekt abmildern lässt, testeten die Forscher verschiedene sprachliche Varianten, hier am Beispiel „Pilot“:

  • indirekte Formulierungen wie „eine Person, die Flugzeuge fliegt“
  • geschlechtergerechte Schreibweisen wie das Gendersternchen („Pilot*in“)
  • Zusätze wie „weiblich“ oder „männlich“ vor der Berufsbezeichnung

Der Effekt blieb begrenzt. Die Bildverzerrung nahm nur leicht ab. Gleichzeitig sank die Qualität: Oft entstanden keine klar erkennbaren Gesichter, und das Bild traf den gewünschten Inhalt nicht mehr.

Weniger Treffer bei neutralen Prompts

Technisch gesehen hatte die KI deutlich mehr Mühe mit neutralen Beschreibungen. Für einige Prompts brauchte es bis zu 22 Prozent mehr Versuche, um 100 brauchbare Gesichter zu erzeugen. Auch die gemessene Übereinstimmung zwischen Text und Bild – gemessen mit dem Modell CLIP – nahm spürbar ab.

Komplexere Formulierungen machen es dem System schwerer, den Kernbegriff zu erkennen. Vor allem ältere Modelle hatten mit solchen Prompts Mühe. Sie lieferten deutlich mehr fehlerhafte oder ungenaue Ergebnisse als bei direkten Begriffen wie „Arzt“ oder „Pilot“.

MAGBIG soll helfen, Verzerrungen messbar zu machen

Die Ursache liegt oft in den Trainingsdaten. Viele KI-Modelle basieren auf westlichen Bilddatenbanken. Dort herrschen klare Muster: Männer in Führungspositionen, Frauen in Pflegeberufen. Diese Stereotype prägen die Ausgabe der KI – unabhängig vom eingegebenen Text.

Die Forscher verstehen MAGBIG als ein Werkzeug, das verborgene Stereotype in KI-Systemen offenlegt. Es soll Entwickler dabei unterstützen, Vorurteile in Text-zu-Bild-Modellen frühzeitig zu erkennen und gezielt zu reduzieren – unabhängig davon, in welcher Sprache das System eingesetzt wird.

Kurz zusammengefasst:

  • KI-Systeme erzeugen bei Berufsbegriffen wie „Arzt“ oft stereotype Bilder – in vielen Sprachen zeigen sie fast ausschließlich Männer.
  • Die Studie der TU München belegt: Neutrale oder gendergerechte Formulierungen schwächen diesen Effekt nur gering und verschlechtern die Bildqualität.
  • Stereotype entstehen nicht nur durch Sprache, sondern auch durch Trainingsdaten – viele Modelle übernehmen unbewusst Rollenklischees aus westlichen Bildquellen.

Übrigens: ChatGPT verändert auch unsere Gespräche – unbemerkt schleichen sich KI-Begriffe in unseren Alltag ein. Mehr dazu in unserem Artikel.

Bild: © Unsplash

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert