Uni-Prüfungen: ChatGPT bleibt unbemerkt und schneidet besser ab

ChatGPT bleibt unentdeckt: KI-Antworten erzielen bessere Noten in Uni-Prüfungen als Studenten

Eine Studie zeigt, dass 94 Prozent der ChatGPT-generierten Uni-Prüfungsantworten unentdeckt blieben und bessere Noten erzielten als die Arbeiten echter Studenten.

Eine aktuelle Studie der University of Reading in Großbritannien hat gezeigt, dass künstliche Intelligenz in Form von ChatGPT in der Lage ist, Prüfungsantworten zu generieren, die von menschlichen Prüfern kaum als solche erkannt werden. Diese von ChatGPT geschriebenen Uni-Prüfungen erzielten dabei sogar bessere Noten als die Arbeiten der realen Studenten. Das renommierte Magazin New Scientist berichtet über diese überraschenden Ergebnisse, die Fragen zur Integrität und Zuverlässigkeit akademischer Prüfungen aufwerfen.

Peter Scarfe und sein Forscherteam an der University of Reading nutzten ChatGPT, um Antworten zu 63 Prüfungsfragen in fünf verschiedenen Modulen des Psychologiestudiums zu erstellen. Diese Prüfungen wurden von den Studenten zu Hause geschrieben. Dadurch hatten sie Zugang zu ihren Notizen und theoretisch auch zu KI-Tools wie ChatGPT, obwohl deren Nutzung nicht gestattet war. Die von der KI generierten Antworten wurden anonym unter die realen Prüfungsarbeiten gemischt. Im Durchschnitt machten sie 5 Prozent der insgesamt bewerteten Arbeiten aus. Die Prüfer wussten nicht, dass sie die Arbeiten von 33 fiktiven Studenten bewerteten, deren Namen ebenfalls von ChatGPT generiert worden waren.

KI-Antworten schneiden besser ab

Insgesamt wurden nur 6 Prozent der von der KI erstellten Prüfungsantworten als potenziell nicht von Studenten stammend erkannt. In einigen Modulen wurde keine einzige KI-Arbeit als verdächtig eingestuft.

Im Durchschnitt erzielten die KI-Antworten höhere Noten als die Arbeiten unserer echten Studenten.
Peter Scarfe

Es gab jedoch Unterschiede zwischen den Modulen, wobei in einigen Bereichen die KI-Antworten deutlicher besser abschnitten. Insgesamt bestand eine 83,4-prozentige Wahrscheinlichkeit, dass die von der KI generierten Arbeiten besser bewertet wurden als die der Studenten.

Herausforderungen für den akademischen Sektor

Die Forscher betonen, dass ihre Arbeit die bisher größte und robusteste Studie dieser Art sei. Obwohl die Untersuchung nur die Prüfungsarbeiten des Psychologiestudiums an der University of Reading betrachtete, glaubt Scarfe, dass das Problem den gesamten akademischen Sektor betreffe. „Ich habe keinen Grund zu der Annahme, dass andere Fächer nicht das gleiche Problem haben würden“, sagte er.

Reaktionen aus der Wissenschaft

Thomas Lancaster vom Imperial College London äußerte sich ebenfalls zu den Ergebnissen: „Die Ergebnisse zeigen genau das, was ich erwartet habe. Wir wissen, dass generative KI vernünftig klingende Antworten auf einfache, begrenzte Textfragen produzieren kann.“ Er wies darauf hin, dass unbeaufsichtigte Prüfungen, einschließlich Kurzantworten, schon immer anfällig für Betrug gewesen seien. Lancaster betonte zudem, dass die hohe Arbeitsbelastung der Dozenten, die die Prüfungen korrigieren müssen, es zusätzlich erschwere, KI-Fälschungen zu erkennen. „Unter Zeitdruck stehende Korrektoren von Kurzantwortfragen werden höchstwahrscheinlich nicht aus einer Laune heraus Fälle von KI-Missbrauch melden“, sagte er.

Zukunft der Prüfungen in Zeiten der KI

Peter Scarfe betonte, dass es nahezu unmöglich sei, das Problem an der Wurzel zu bekämpfen, indem man versucht, den Einsatz von KI in Prüfungen vollständig zu unterbinden. Stattdessen müsse der akademische Sektor überlegen, wie er Prüfungen gestalten könne, die den Einsatz von KI berücksichtigen. „Ich denke, es wird den gesamten Sektor erfordern, anzuerkennen, dass wir KI in die Prüfungen einbeziehen müssen, die wir unseren Studenten geben“, sagte er.

Anpassungen in der Prüfungsbewertung erforderlich

Eine mögliche Lösung, die Scarfe und sein Team vorschlagen, sei die Anpassung der Prüfungsformate, um das abstrakte Denken und die Integration von Informationen stärker zu betonen – Bereiche, in denen die aktuelle KI-Technologie noch Schwächen aufweise. Dies könnte dazu beitragen, die Unterscheidung zwischen menschlicher und KI-generierter Arbeit zu erleichtern und die Integrität akademischer Bewertungen zu wahren.

Was du dir merken solltest:

Eine Studie der University of Reading zeigt, dass die Prüfer 94 Prozent der ChatGPT-generierten Antworten in Uni-Prüfungen nicht als solche erkannt haben. Oft erzielten diese Antworten sogar höhere Noten als die Arbeiten von realen Studenten.
Die KI-Antworten kamen in Psychologieprüfungen zum Einsatz, wobei die Prüfer nicht wussten, dass sie Arbeiten von fiktiven Studenten bewerteten.
Experten fordern nun eine Anpassung der Prüfungsformate, um den Einsatz von KI in akademischen Bewertungen angemessen zu berücksichtigen.