KI, die mit KI-generierten Daten trainiert, produziert Unsinn

Wenn man sich beim Trainieren einer KI auf KI-generierte Inhalte stützt, kommt dabei ganz schnell nur noch Unsinn heraus: So wie in diesem Bild. © M. Boháček & H. Farid

Forscher warnen vor den Risiken, die das Training von KI-Modellen mit wiederum von künstlicher Intelligenz generierten Trainingsdaten beherbergt: Diese führen nämlich recht schnell zu Unsinn.

Die Wissenschaftler nannten dieses Phänomen „Model Collapse“. Laut den Studienergebnissen, die in der Fachzeitschrift Nature veröffentlicht wurden, könnte es die Entwicklung großer Sprachmodellen stark beeinträchtigen.

Wichtig anzumerken ist, dass dieses Problem universell ist und daher alle Sprachmodelle betrifft, die nicht-kuratierte Daten verwenden. Diese Erkenntnis wurde durch eine mathematische Analyse von Forschern der Universität Cambridge und der Universität Oxford gewonnen. Aus diesem Grund spricht Zakhar Shumaylov, ein Co-Autor der Studie und Forscher an der Universität Cambridge, eine klare Warnung aus:

Die Lektion ist, wir müssen sehr vorsichtig sein, was in unsere Trainingsdaten gelangt… sonst werden die Dinge nachweisbar immer schiefgehen.

Von Architektur zu Hasen: Studienergebnisse erklärt

Die Forscher trainierten zuerst eine KI, um Wikipedia-ähnliche Einträge zu erstellen. Die von der KI generierten Texte verwendeten sie dann, um eine neue Iterationen des Modells zu schulen. Dieser Vorgang wurde neunmal wiederholt, immer mit dem Text des jeweiligen Vorgänger-Modells.

So sollte die KI zuerst einen Paragraphen aus dem Wikipedia-Eintrag zu „Grade I listed buildings in Somerset“ fortführen. Von ein paar Fehlern abgesehen gelang ihr das auch noch.

Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of per- pendicular churches : those.

In der neunten Iteration jedoch fing die KI plötzlich an, über Hasen zu schwadronieren. Genauer gesagt scheint es um die Populationen verschiedener Jackrabbit-Arten zu gehen.

architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-

Das Lernen aus von KI generierten Texten führte dazu, dass Modelle nicht mehr von der Wirklichkeit lernen, sondern anhand von Vorhersagen der Wirklichkeit, wie sie von einer anderen KI getroffen wurden. Dies führt schlussendlich dazu, dass Fehler unentdeckt bleiben und mit jedem Neudurchlauf sogar verstärkt werden.

Mit der Zeit stapeln sich die Fehler aufeinander, bis an den Punkt, an dem das Modell im Grunde nur Fehler lernt und sonst nichts.

Ilia Shumailov, Co-Author

Mögliche Auswirkungen auf die Gesellschaft

Das kann auch soziale Konsequenzen haben. Julia Kempe von der New York University spricht in diesem Zusammenhang von einem „Weckruf“. Der fortschreitende Mangel an von Menschen produzierten Inhalten und die zunehmende Verwendung von synthetischen Daten könnten die Fähigkeit der Modelle, alle sozialen Gruppen fair zu repräsentieren, beeinträchtigen, da Ereignisse mit geringer Wahrscheinlichkeit oft Randgruppen betreffen.

Um dem entgegenzuwirken, könnten Entwickler Methoden wie Wasserzeichen nutzen, um KI-generierte Daten von echten Daten zu trennen. Dies würde jedoch eine beispiellose Koordination von Technologiefirmen erfordern, so Shumaylov. Zudem könnten Anreize für Menschen geschaffen werden, um weiterhin menschengemachte Inhalte zu produzieren und nicht alles von einer KI generieren zu lassen.

Was du dir merken solltest:

  • Forscher haben herausgefunden, dass das Training von KI-Modellen mit KI-generierten Daten zu Unsinn führt, ein Phänomen bekannt als „Model Collapse“.
  • Die Studie zeigt, dass dieses Problem universell ist und alle Modelle betrifft, die nicht-kuratierte Daten verwenden.
  • Dies könnte die Entwicklung von großen Sprachmodellen stark beeinträchtigen und im gesellschaftlichen Kontext insbesondere die Fairness gegenüber Randgruppen gefährden.

Bild: © Boháček & H. Farid, CC BY 4.0

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert