Bei Gesundheitsfragen schickt ChatGPT viele unnötig zum Arzt

Ein Ziehen im Bauch, leichter Schwindel oder seit Tagen Rückenschmerzen – viele Menschen suchen heute zuerst online nach einer Einschätzung, bevor sie einen Arzttermin vereinbaren. Oft landet diese Suche bei ChatGPT. Die Hoffnung dahinter ist simpel: schnell herausfinden, ob Ruhe und Hausmittel reichen oder ob ein Arztbesuch nötig ist. Gerade bei Gesundheitsfragen wirkt ChatGPT für viele wie eine unkomplizierte erste Orientierung.

Doch diese Hilfe hat Grenzen. Eine aktuelle Studie der Technischen Universität Berlin kommt zu dem Schluss: ChatGPT rät bei Beschwerden häufig eher zu einem Arztbesuch, obwohl medizinisch oft Selbstversorgung ausreichen würde. Die Antworten wirken damit vorsichtig und sicher, verlieren aber oft ihren praktischen Nutzen im Alltag.

Die Forscher prüften 22 verschiedene ChatGPT-Modelle mit 45 echten Fallbeispielen. Darunter waren harmlose Verdauungsprobleme, leichte Überlastungen nach dem Sport oder Beschwerden, bei denen tatsächlich schnelle Hilfe nötig war. Jedes Modell bekam jeden Fall zehnmal vorgelegt. So entstanden insgesamt 9.900 Bewertungen. Die Modelle mussten jeweils einschätzen, ob ein Fall ein Notfall ist, zeitnah ärztlich abgeklärt werden sollte oder ob zunächst Selbstversorgung ausreicht.

Warum einen ChatGPT bei Gesundheitsfragen oft lieber zum Arzt schickt

Das beste getestete Modell erreichte eine Trefferquote von 74 Prozent. Es handelte sich um o1-mini. Das schwächste Modell, gpt-4.1-nano, kam nur auf 44 Prozent. Überraschend war vor allem: Neuere Modelle waren nicht automatisch besser als ältere.

„Aus besseren Testergebnissen wird schnell geschlossen, dass Modelle auch für Patientinnen und Patienten verlässliche medizinische Empfehlungen geben. Genau das stimmt laut unserer Studie nicht“, erklärt Studienleiter Marvin Kopka von der TU Berlin.

Besonders gut erkannte ChatGPT Fälle, bei denen tatsächlich medizinische Hilfe nötig war. Schwierigkeiten entstanden vor allem dort, wo Beschwerden harmlos waren – also in den Situationen, in denen Menschen wissen möchten, ob sie einfach abwarten können.

70 Prozent aller Fehler entfielen auf solche Fälle. Kein einziger Selbstversorgungsfall wurde von allen Modellen immer richtig eingeordnet. Drei von 13 Fällen erkannte kein Modell zuverlässig.

Das bedeutet: Wer mit einem einfachen Magen-Darm-Problem oder einer leichten Überlastung fragt, bekommt oft schneller den Rat zum Arztbesuch als nötig wäre.

Harmlos wirkt plötzlich wie ein medizinischer Fall

Typische Beispiele sind Durchfall seit einem Tag ohne weitere Beschwerden oder eine schmerzende Sehne nach ungewohnter Belastung. Medizinisch reicht hier oft Beobachtung, Flüssigkeit und etwas Geduld. ChatGPT empfahl trotzdem häufig eine ärztliche Abklärung.

Die Forscher sprechen von einem „konservativen Triagierungsverhalten“. Das Modell stuft Beschwerden vorsichtshalber ernster ein, als es medizinisch nötig wäre.

Die größten Schwächen lassen sich klar benennen:

harmlose Beschwerden werden oft zu ernst eingestuft
identische Fragen führen nicht immer zur gleichen Antwort
Selbstversorgung wird deutlich zu selten empfohlen

„Wenn ein System bei sehr vielen Beschwerden vorsorglich zur medizinischen Abklärung rät, wirkt das zunächst sicher – es bietet aber faktisch keine echte Entscheidungshilfe mehr“, erklärt Kopka.

Für Arztpraxen und Notaufnahmen kann das sogar ein Problem werden. Wer wegen jeder Kleinigkeit zur Abklärung geschickt wird, belastet ein ohnehin angespanntes Gesundheitssystem zusätzlich.

ChatGPT antwortet bei Gesundheitsfragen nicht immer gleich

Hinzu kommt ein zweites Problem: Die Antworten bleiben nicht immer stabil. Wer dieselbe Frage mehrmals stellt, bekommt nicht zwingend dieselbe Empfehlung.

Besonders auffällig war das bei GPT-5. Dort wechselte bei 42 Prozent aller Fälle die Einschätzung zwischen richtig und falsch. Mal war die Antwort passend, mal nicht – obwohl die Eingabe identisch war.

Für Nutzer entsteht dadurch Unsicherheit. Wer bei Gesundheitsthemen Rat sucht, erwartet Verlässlichkeit. Unterschiedliche Antworten auf dieselbe Frage sorgen eher für neue Zweifel als für Klarheit.

Was die Studie für Arztpraxen und Patienten bedeutet

Seit Jahren wird darüber diskutiert, wie Menschen besser durch das Gesundheitssystem geleitet werden können. Digitale Angebote gelten dabei oft als Lösung. Viele hoffen, dass KI unnötige Arztbesuche verhindern und Praxen entlasten kann.

Die Berliner Untersuchung bremst diese Erwartung. Ein allgemeines Sprachmodell wie ChatGPT reicht dafür derzeit nicht aus. Wenn die Empfehlung fast immer lautet, den Fall lieber ärztlich abklären zu lassen, entsteht kaum Entlastung.

Die Autoren sind sich daher einig, dass ChatGPT zwar helfen könne, Notfälle zu erkennen, aber nicht zuverlässig genug sei, um die Versorgung eigenständig zu steuern.

Besonders problematisch wird das bei Menschen mit hoher Gesundheitsangst, sogenannte Hypochonder. Wer ohnehin schnell Sorge vor ernsten Erkrankungen hat, kann durch solche Antworten zusätzlich verunsichert werden.

Mehrfach fragen verbessert das Ergebnis nur begrenzt

Im Versuch ließ sich die Genauigkeit etwas steigern. Wurde dieselbe Frage mehrfach gestellt und anschließend die niedrigste Dringlichkeitsstufe aus den Antworten gewählt, verbesserte sich die Gesamtgenauigkeit um vier Prozentpunkte.

Bei Fällen, in denen Selbstversorgung richtig gewesen wäre, stieg die Trefferquote sogar um 14 Prozentpunkte. Beim Modell o4-mini-high lag sie dann bei 77 Prozent.

Für den Alltag ist das trotzdem keine gute Strategie. Wer sich nur an der harmlosesten Antwort orientiert, könnte im schlimmsten Fall einen echten Notfall übersehen.

Mehr Potenzial sehen die Forscher deshalb in medizinisch kontrollierten Anwendungen wie Symptom-Checker-Apps. Dort könnten Sprachmodelle Informationen verständlich erklären und Patienten durch das System lotsen – während medizinische Fachleute im Hintergrund die Qualität absichern.

Kurz zusammengefasst:

ChatGPT erkennt ernste Gesundheitsprobleme oft recht gut, stuft harmlose Beschwerden aber häufig unnötig als Arztfall ein.
Besonders bei Fällen, in denen Selbstversorgung reichen würde, macht die KI viele Fehler und rät oft vorsichtshalber zur ärztlichen Abklärung.
Für eine verlässliche Steuerung im Gesundheitssystem reicht das derzeit nicht aus; sinnvoller ist der Einsatz in medizinisch geprüften Anwendungen wie Symptom-Checker-Apps.

Übrigens: Nicht nur bei körperlichen Beschwerden, auch in seelischen Krisen kann ChatGPT problematisch reagieren. Psychologen fanden 15 grobe Ethikverstöße. Mehr dazu in unserem Artikel.

Bild: © Pexels