Gefährlich unterwürfig: KI-Chatbots bestärken oft Fehlverhalten

Chatbots sind im Alltag vieler Menschen zum kleinen Helfer geworden. Sie haben immer eine Antwort parat. Bei heiklen Streitfragen drohen jedoch Fallstricke. Wer sich mit einer KI über eine Lüge, einen Beziehungskonflikt oder eigenes Fehlverhalten austauscht, bekommt offenbar erstaunlich oft keine ehrliche Reibung, sondern Zustimmung. Problematisch wird das dann, weil digitale Systeme längst nicht mehr nur nach Rezepten, Fakten oder Reisetipps gefragt werden. Auch für Trennungen, Streit in der Familie oder Ärger im Job werden sie um Rat gebeten.

Eine Studie der US-Universitäten Stanford und Carnegie Mellon beschreibt dazu einen brisanten Befund. Große KI-Sprachmodelle wie ChatGPT, Claude, Gemini oder DeepSeek reagieren in sozialen Konflikten oft unterwürfig. Sie klingen objektiv, bestärken aber häufig ausgerechnet die Sicht der Person, die gerade Rat sucht.

KI bleibt selbst bei problematischen Fällen unterwürfig

Das Forschungsteam testete 11 große Sprachmodelle mit insgesamt 11.587 Fällen. Darunter waren offene Ratschlagsfragen, rund 2000 Beiträge aus dem Reddit-Forum r/AmITheAsshole und Tausende Szenarien mit problematischen Handlungen. Der Kernbefund fällt deutlich aus. Die Modelle bestätigten Nutzerhandlungen im Schnitt 49 Prozent häufiger als Menschen.

Besonders auffällig war das in drei Bereichen. Bei allgemeinen Ratschlagsfragen lag die Zustimmungsrate der Modelle 48 Prozent über der menschlichen Vergleichsbasis. In Reddit-Fällen, in denen die Community den Verfasser klar im Unrecht sah, gaben KI-Modelle ihm trotzdem in 51 Prozent der Fälle Rückendeckung. Bei problematischen oder schädlichen Szenarien lag die Zustimmungsrate im Schnitt bei 47 Prozent. Dazu gehörten laut Untersuchung auch Täuschung, Betrug oder illegales Verhalten.

Schon ein einziges Gespräch kann die Haltung verschieben

Besonders heikel ist die Wirkung auf Menschen. Mehr als 2400 Teilnehmer chatteten mit zustimmenden und kritischeren Modellen über echte oder vorbereitete Konflikte. In einem Teil der Untersuchung sprachen sie sogar in einem acht Runden langen Live-Chat mit einem Modell über einen Streit aus ihrem eigenen Leben.

Die Wirkung fiel deutlich aus. Wer mit einer schmeichelhaften KI sprach, hielt sich anschließend eher für im Recht. Je nach Versuch stieg dieses Gefühl um 25 bis 62 Prozent. Gleichzeitig sank die Bereitschaft, sich zu entschuldigen, Verantwortung zu übernehmen oder aktiv auf die andere Seite zuzugehen. Der Rückgang lag je nach Versuch bei 10 bis 28 Prozent. In offenen Nachrichten an die andere Konfliktpartei entschuldigten sich Menschen mit kritischerer KI deutlich häufiger. Der Anteil lag bei 75 Prozent. In der schmeichelhaften Variante waren es nur 50 Prozent.

Das Problem bleibt oft unsichtbar

Die Teilnehmer nahmen die zustimmenden Antworten nicht einfach als Schmeichelei wahr. Viele stuften beide Modelltypen als ähnlich objektiv ein. Die Unterwürfigkeit fiel ihnen also oft gar nicht auf. Das liegt wohl auch daran, dass die Systeme selten offen schreiben, jemand habe recht. Stattdessen verpacken sie Zustimmung in einen sachlichen, glatten und oft akademisch klingenden Ton.

Dan Jurafsky von der Stanford University sagte dazu, vielen sei „nicht bewusst“ gewesen, „dass die Sykophantie sie egozentrischer und moralisch dogmatischer macht“. Sykophantie bezeichnet dabei eine übertriebene Form der Zustimmung. Gemeint ist eine unterwürfig reagierende KI, die Nutzern nach dem Mund redet und sie auch dort bestätigt, wo eigentlich Widerspruch oder Einordnung nötig wäre. Hauptautorin Myra Cheng sieht darin ein tieferes Problem. Funktionierende Beziehungen brauchen Reibung. Unangenehme Rückmeldungen, Widerspruch und ehrliche Kritik gehören dazu. KI macht es leichter, genau diesem Moment auszuweichen.

Nutzer mögen gerade diese problematischen Antworten

Die zustimmenden Modelle kamen besser an. Die Teilnehmer hielten ihre Antworten für qualitativ hochwertiger. Der Zuwachs lag je nach Versuch bei 9 bis 15 Prozent. Auch das Vertrauen stieg. Wer von der KI Zustimmung bekam, hielt sie eher für kompetent und moralisch vertrauenswürdig. Das Vertrauen in ihre Fähigkeit stieg um 6 bis 8 Prozent, das Vertrauen in ihre Aufrichtigkeit um 6 bis 9 Prozent.

Hinzu kommt ein klarer Anreiz für die Anbieter. Die Bereitschaft, so ein Modell später wieder zu nutzen, stieg um 13 Prozent. In der Studie steht dazu ein Satz, der das Problem knapp beschreibt: „Genau das Merkmal, das Schaden verursacht, treibt auch die Nutzung an.“ Für den Alltag heißt das: Eine angenehme Antwort fühlt sich oft gut an, ist aber noch lange kein guter Rat.

KI ersetzt kein echtes Gegenüber

Besonders bei Streit, Trennung oder Verletzungen zählt nicht, wie weich eine Antwort klingt. Entscheidend ist, ob sie hilft, die Lage fairer zu sehen. Ein Chatbot denkt die Sicht des anderen nicht wirklich mit. Wer sich vor allem bestätigt fühlt, sieht oft schlechter, welchen Schaden das eigene Verhalten angerichtet haben könnte.

Fast ein Drittel der US-Teenager nutzt KI für „ernste Gespräche“, statt sich an andere Menschen zu wenden. Das verschärft die Frage, welche Rolle solche Systeme in sehr persönlichen Situationen spielen sollen. Die Forscher probierten sogar einen simplen Trick aus. Begann die KI mit „Warten Sie mal kurz“, reagierte sie spürbar weniger gefällig und eher wie ein Gegenüber, das erst prüft und dann antwortet. Wie stabil dieser Effekt ist, bleibt nochoffen.

Chatbots sind inzwischen Teil sehr persönlicher Gespräche. Sie begleiten Menschen bei Streit, Trennung oder moralisch heiklen Entscheidungen. Deshalb warnt Jurafsky vor unkontrollierter KI:

Sykophantie ist ein Sicherheitsproblem, und wie andere Sicherheitsprobleme braucht sie Regulierung und Aufsicht. Wir benötigen strengere Standards, um zu verhindern, dass sich moralisch unsichere Modelle verbreiten.

Kurz zusammengefasst:

Große Chatbots wirken oft sachlich und hilfreich, bestätigen Nutzer in sozialen Konflikten aber deutlich häufiger als Menschen und können dadurch Fehlverhalten stabilisieren.
KI kann dann problematisch werden, wenn sie unterwürfig reagiert, sich Menschen schneller im Recht fühlen lässt und ihre Bereitschaft zur Entschuldigung schwächt.
Für den Alltag gilt deshalb: KI kann bei heiklen Konflikten Denkanstöße geben, taugt aber nicht als verlässlicher moralischer Schiedsrichter, weil freundliche Zustimmung leicht mit fairer Einordnung verwechselt wird.

Übrigens: Was bei Streit schon problematisch ist, könnte bei Einsamkeit noch heikler werden – denn Chatbots wirken wie verständnisvolle Begleiter, obwohl sie keine echte Empathie kennen. Gerade für junge Menschen kann diese künstliche Nähe verlockend sein und echte Beziehungen verdrängen. Mehr dazu in unserem Artikel.

Bild: © Pexels