KI schlägt Ärzte im Test klar – was das für Patienten bedeutet

KI schneidet im Medizin-Test deutlich besser ab als Ärzte. Doch zwischen richtiger Antwort und guter Behandlung liegt mehr als Wissen.

Wer im Krankenhaus behandelt wird, verlässt sich darauf, dass Entscheidungen schnell und richtig fallen. In einem Wissenstest zur akuten Nierenschädigung hängt KI Ärzte und Medizinstudierende deutlich ab. Moderne Sprachmodelle lieferten häufiger die richtigen Antworten – und das in einem Bruchteil der Zeit.

Hinter dem Vergleich steht ein Team der Philipps-Universität Marburg und des Universitätsklinikums Gießen und Marburg. Getestet wurden 13 öffentlich verfügbare Sprachmodelle und 123 Teilnehmer des Jahreskongresses der Deutschen Gesellschaft für Innere Medizin. Rund 9.000 Fachleute waren dort im Mai 2025 in Wiesbaden versammelt.

KI beantwortet Medizinfragen im Test besser als Ärzte

In der Untersuchung bearbeiteten alle Teilnehmenden denselben Test. Zwei typische Patientenfälle und 15 Fragen mussten gelöst werden. Die Aufgaben orientierten sich an medizinischen Leitlinien. Es ging um klare Entscheidungen und gesichertes Wissen. Das Ergebnis zeigt einen deutlichen Abstand. Die Sprachmodelle erreichten im Schnitt 90 Prozent der Punkte. Die menschlichen Teilnehmer kamen auf rund 49 Prozent. Mehrere Systeme beantworteten alle Fragen korrekt. Kein Mensch schaffte die volle Punktzahl.

Auch beim Tempo gab es große Unterschiede:

KI brauchte rund 30 Sekunden
Menschen benötigten im Schnitt über 7 Minuten

Die Systeme liefern die Antworten sofort. Sie greifen auf gespeichertes Leitlinienwissen zurück. Müdigkeit oder Unsicherheit spielen bei Maschinen bekanntermaßen keine Rolle.

KI punktet bei Wissen, Ärzte bei Entscheidungen

Der Test bildet nur einen Teil der Realität ab. Gefragt war reines Faktenwissen: Hier sind Sprachmodelle besonders stark. Sie erkennen Muster und geben passende Antworten aus. Im Klinikalltag sieht die Situation anders aus. Ärzte arbeiten oft unter Druck. Symptome sind nicht immer eindeutig. Krankheitsverläufe können sich schnell ändern. Entscheidungen entstehen aus Erfahrung und Einschätzung.

Prof. Ivica Grgic betont deshalb: „Menschliches Urteilsvermögen und klinische Erfahrung bleiben entscheidend.“ Ein Test kann Wissen prüfen. Eine Behandlung verlangt deutlich mehr.

Schneller Zugriff auf Wissen entlastet Ärzte

Trotz dieser Einschränkungen sehen Fachleute Vorteile der KI. Sprachmodelle können Wissen schnell verfügbar machen. Das kann den Alltag in Kliniken erleichtern. Typische Einsatzmöglichkeiten sind:

schnelles Nachschlagen von Leitlinien
Unterstützung bei Standardfragen
Orientierung bei seltenen Krankheitsbildern

„Große Sprachmodelle können medizinisches Faktenwissen sehr schnell bereitstellen. Das ist eine Chance für den klinischen Alltag“, sagt Studienleiter Philipp Russ. Für Ärzte entsteht dadurch mehr Zeit für andere Aufgaben. Gespräche, Aufklärung und Entscheidungen rücken stärker in den Fokus.

Befassen sich mit Chancen und Risiken von KI im medizinischen Kontext: Ivica Grgic, Martin Hirsch und Philipp Russ (v. l. n. r.). Foto: Thomas Stoll und Peter Michael Mross — Ivica Grgic, Martin Hirsch und Philipp Russ (v. l. n. r.) untersuchen, warum KI Ärzte im Test schlagen kann, im Klinikalltag aber klare Grenzen hat. © Thomas Stoll/Peter Michael Mross

Klare Grenzen: Fehler und kein Gespür für Patienten

So überzeugend die Ergebnisse wirken, so deutlich sind auch die Schwächen. Sprachmodelle können falsche Informationen liefern. Diese wirken oft plausibel und werden nicht immer erkannt. Die Studie weist ausdrücklich auf dieses Risiko hin. Fehlerhafte Inhalte können im schlimmsten Fall Folgen für Patienten haben.

Ein weiterer Kritikpunkt wiegt schwer: Technik versteht keine Gefühle. Sie erkennt keine Angst und keine Unsicherheit. Sie reagiert nicht auf Zwischentöne. Russ beschreibt das so:

Ein Sprachmodell sieht nicht, hört nicht und spürt nicht, worum es einem Menschen wirklich geht.

Gerade in sensiblen Situationen ist das entscheidend.

Ärzte behalten die Verantwortung – trotz starker KI

Die Ergebnisse sprechen nicht für einen Ersatz, sondern für eine neue Arbeitsteilung. KI liefert Informationen. Ärzte treffen Entscheidungen und tragen die Verantwortung. Das gilt besonders bei komplexen Fällen. Auch bei mehreren Erkrankungen oder unklaren Beschwerden braucht es Erfahrung.

Der Wissenstest zeigt vor allem, wie sich der Umgang mit Informationen verändert. Wissen steht jederzeit bereit. Entscheidend ist, wie es genutzt wird. Für Kliniken bedeutet das mehr digitale Unterstützung. Das heißt aber auch: Fähigkeiten gewinnen an Bedeutung, die Maschinen nicht leisten können:

Einordnung schwieriger Situationen
Kommunikation mit Patienten
verantwortliche Entscheidungen

Die Ergebnisse aus Marburg zeigen, wo Technik bereits stark ist. Und sie machen deutlich, wo der Mensch unersetzlich bleibt.

Kurz zusammengefasst:

KI erreicht in einem Wissenstest zur akuten Nierenschädigung rund 90 Prozent richtige Antworten und ist damit deutlich besser und schneller als Ärzte mit etwa 49 Prozent.
Die Stärke der Systeme liegt im schnellen Abruf von Leitlinienwissen, während ärztliche Erfahrung, Einordnung und Verantwortung im Alltag unverzichtbar bleiben.
In der Praxis ergänzt KI die Arbeit von Ärzten, übernimmt Informationssuche und schafft damit Zeit für Diagnostik, Gespräche und Entscheidungen.

Übrigens: Während KI im Medizin-Test Ärzte beim Wissen übertrifft, beeinflussen dieselben Systeme im Alltag oft unbemerkt, welche Argumente sichtbar werden und welche fehlen. Wie stark diese stillen Verzerrungen unsere Meinungen prägen können, zeigt eine neue Analyse. Mehr dazu in unserem Artikel.