So schwach schneidet ChatGPT gegen Pharmazie-Studierende ab

Mensch gegen Maschine: ChatGPT enttäuscht bei Wissensfragen – Pharmazie-Studierende schlagen die KI

Pharmazie-Studierende erzielten in Prüfungen 82 Prozent, ChatGPT nur 51. Besonders bei komplexen Fallfragen zeigte die KI Schwächen.

Künstliche Intelligenz kann Texte schreiben, Bilder erzeugen und Wissen in Sekundenschnelle abrufen. Doch wenn es darauf ankommt, das Gelernte in echten Fällen anzuwenden, stößt sie an ihre Grenzen. Eine neue Untersuchung im Bereich Pharmazie zeigt genau das: Während Studierende ihre Prüfungen mit soliden Ergebnissen bestehen, kommt ChatGPT 3.5 bei denselben Fragen ins Straucheln.

Das Ergebnis ist mehr als ein akademischer Vergleich. Es geht um die Frage, ob künstliche Intelligenz in Zukunft klinische Entscheidungen unterstützen oder gar ersetzen kann – und welche Risiken entstehen, wenn man sich zu sehr auf Maschinen verlässt.

Wie ChatGPT im Pharmazie-Studium getestet wurde

Für die Studie legten Forscher der University of Arizona sechs Prüfungen aus dem Doktorprogramm Pharmazie zugrunde. Insgesamt wurden 210 Fragen analysiert, die sich mit typischen Erkrankungen und Therapien beschäftigen.

164 der Aufgaben (78 Prozent) waren fallbasiert, also an echten Patientensituationen orientiert.
169 Fragen (81 Prozent) verlangten Anwendungswissen, nur 41 prüften reines Faktenabrufen.

Das Spektrum reichte von Herz-Kreislauf-Erkrankungen über neurologische Störungen bis hin zu alltäglichen Problemen wie Allergien oder Magenbeschwerden. Genau diese Mischung macht die Prüfungen so anspruchsvoll: Sie testen nicht nur das Auswendiglernen, sondern vor allem klinisches Denken.

KI verliert deutlich gegen Menschen

ChatGPT 3.5 schnitt in diesem Vergleich schwach ab. Die KI beantwortete im Schnitt nur 53 Prozent der Fragen korrekt. Besonders deutlich waren die Schwächen bei komplexen Fällen:

44 Prozent richtige Antworten bei Anwendungsfragen
80 Prozent bei reinen Erinnerungsfragen
45 Prozent bei Fallaufgaben
74 Prozent bei Fragen ohne Fallbezug

Die Studierenden lagen weit darüber. Sie erreichten im Mittel 82 Prozent richtige Lösungen – ein Unterschied, der statistisch hochsignifikant war.

Forscher warnen vor falschen Erwartungen

„KI wird im Gesundheitswesen und in der Ausbildung viele Anwendungen finden, und sie wird nicht verschwinden“, sagt Christopher Edwards, Professor für Pharmazie. „Ich wollte Daten haben, um den Studenten zu zeigen: Wer fleißig lernt, kann die Prüfungen bestehen – ganz ohne diese Tools.“

Für ihn ist klar: ChatGPT mag beim Faktenlernen helfen, doch wer auf die Maschine baut, entwickelt nicht die nötige Sicherheit für echte Patienten.

Auch Mitautor Brian Erstad sieht die Grenze deutlich: „Gerade dort, wo Beweise begrenzt sind und Urteilsvermögen gefragt ist – wie es oft in der klinischen Praxis vorkommt – haben wir gesehen, dass die Technik schwächelt.“

Warum die Ergebnisse für Patienten wichtig sind

Die Studie hat eine unmittelbare Relevanz für die Versorgung. Wenn Apotheker oder Ärzte Medikamente auswählen, reicht es nicht, nur Fakten zu kennen. Sie müssen abwägen, Nebenwirkungen berücksichtigen und den individuellen Zustand des Patienten einbeziehen. Genau diese Situationen gehören zu den größten Schwächen der KI.

Für Patienten bedeutet das: Entscheidungen über Therapien sollten nicht an ChatGPT ausgelagert werden. Menschliches Wissen und Erfahrung bleiben unverzichtbar, um Fehler zu vermeiden.

Was das für die Ausbildung bedeutet

Für angehende Pharmazeuten zeigt die Untersuchung, wie entscheidend kritisches Denken ist. KI kann den Lernalltag erleichtern – etwa beim Nachschlagen von Fachbegriffen oder als Trainingspartner für einfache Fragen. Doch beim Bearbeiten von komplexen Szenarien ist sie keine Hilfe.

Lehrende profitieren ebenfalls. Sie erkennen nun besser, welche Fragen Sprachmodelle zuverlässig beantworten können und wo die Grenzen liegen. Damit lassen sich Prüfungen so gestalten, dass der Unterschied zwischen bloßem Faktenwissen und echter klinischer Kompetenz sichtbar wird.

Chancen und Grenzen der KI im Studium

Künstliche Intelligenz kann Routineaufgaben übernehmen:

Faktenwissen abrufen: Definitionen, Arzneimittelwirkungen oder Interaktionen lassen sich schnell abfragen.
Informationen strukturieren: Studierende können große Textmengen zusammenfassen lassen.

Doch sobald Unsicherheit ins Spiel kommt, etwa bei widersprüchlichen Symptomen, kommt das System an seine Grenzen. Genau hier entscheidet sich jedoch, ob Patienten die richtige Behandlung erhalten.

Warum künftige KI-Modelle bessere Ergebnisse liefern könnten

Die Forscher sind der Meinung, dass sich die Ergebnisse mit neueren Mod e llen ändern könnten. Künftige KI-Versionen könnten besser auf komplexe Fälle reagieren. Dennoch bleibt der Abstand groß. Der Vergleich zeigt, wie viel Erfahrung und Urteilsvermögen in die Arbeit von Ärzten und Apothekern einfließen – Fähigkeiten, die Maschinen bisher nicht ersetzen können.

Für die Ausbildung heißt das: Studierende müssen lernen, mit KI umzugehen, ohne ihre eigene Kompetenz aus den Augen zu verlieren. Die Technik kann helfen, ersetzt aber nicht das Training im Denken und Entscheiden.

Kurz zusammengefasst:

ChatGPT 3.5 beantwortete in sechs Pharmazie-Prüfungen nur 53 Prozent der Fragen richtig, Studierende dagegen im Schnitt 82 Prozent.
Die KI konnte Fakten gut abrufen, versagte aber bei fall- und anwendungsbezogenen Aufgaben, die klinisches Denken erfordern.
Für Patienten bleibt menschliche Expertise entscheidend, für Studierende ist kritisches Lernen und eigenständiges Urteilen unersetzbar.

Übrigens: Immer mehr Menschen verlassen sich beim Lernen auf ChatGPT & Co. Google startet nun mit „Guided Learning“ einen eigenen KI-Tutor. Mehr dazu in unserem Artikel.

Bild: © Pexels