KI droht „digitaler Rinderwahnsinn“ – Firmen setzen auf zweifelhafte Methoden, um ihn zu vermeiden
Der Mangel an qualitativ hochwertigen Trainingsdaten stellt die Entwicklung von KI-Technologie vor eine große Herausforderung.
Die rasante Entwicklung Künstlicher Intelligenz (KI) steht vor einem großen Problem: dem Mangel an hochwertigen Trainingsdaten. Die Modelle werden zwar immer leistungsfähiger, müssen aber auch mit immer mehr Daten gefüttert werden – und die gehen langsam zur Neige. Das beeinträchtigt die Qualität der KI-Ausgaben und könnte langfristig gravierende Folgen haben. Unternehmen suchen bereits nach Alternativen, die laut t3n jedoch kontrovers diskutiert werden.
Datenquellen nahezu ausgeschöpft
Für das Training von KI-Modellen waren bisher frei zugängliche Inhalte aus dem Internet entscheidend: Genutzt wurden Fachartikel, wissenschaftliche Publikationen und Community-Inhalte von Plattformen wie Reddit oder Stack Overflow. Um an exklusive Daten zu gelangen, haben Unternehmen wie Meta, OpenAI und andere bereits Verträge mit Verlagen wie Springer und Reuters abgeschlossen. Dennoch reicht diese Strategie nicht aus, um den wachsenden Datenhunger der KI-Modelle zu stillen.
Bereits 2021 warnten Experten laut t3n vor einer drohenden Datenknappheit. Sie prognostizierten, dass spätestens 2026 alle qualitativ hochwertigen Datenquellen ausgeschöpft sein könnten. Einigen Schätzungen zufolge könnten die Ressourcen sogar schon vorher erschöpft sein. Das zwingt Unternehmen, nach alternativen Datenquellen zu suchen.
Unternehmen setzen auf minderwertige Inhalte
Einige Firmen greifen auf minderwertige Daten zurück, um ihre Modelle weiterhin zu trainieren. Meta beispielsweise verwendet Inhalte von Plattformen wie Facebook und Instagram für die Llama-Modelle. Diese Daten gelten jedoch als weniger geeignet, da sie oft ungenau oder unvollständig sind. Solche Methoden könnten die Qualität von KI-Ausgaben negativ beeinflussen.
Weiterlesen zum Thema KI:
- The Great Pretender: KI-Modelle liefern immer häufiger Unsinn – und Nutzer merken es nicht
- Er verließ Google, um frei zu sprechen – Nobelpreisträger warnt vor düsterer KI-Zukunft
- Akademischer Abschluss verliert an Wert – Bringt KI die handschriftliche Prüfung zurück?
Neben minderwertigen Inhalten experimentieren Unternehmen auch mit synthetischen Daten. Dabei handelt es sich um Inhalte, die von anderen KI-Modellen generiert wurden. OpenAI soll diese Technik bei der Entwicklung von Modellen wie Orion anwenden. Auch das Start-up Anthropic setzt seit der Opus-Version seiner Modellreihe Claude auf synthetische Daten. Diese Herangehensweise stößt jedoch auf erheblichen Widerstand in der Forschung.
Synthetische Daten und ihre Gefahren
Die Verwendung synthetischer Daten bringt mehrere Risiken mit sich. Einerseits ist unklar, wie sich eine KI weiterentwickeln soll, wenn sie überwiegend mit Daten trainiert wird, die von anderen KI-Modellen erstellt wurden. Dieses sogenannte „Perpetuum Mobile“-Problem könnte die Innovationsfähigkeit neuer Modelle erheblich beeinträchtigen.
Andererseits gibt es Hinweise darauf, dass synthetische Daten die Modelle in eine Art „Walled Garden“ führen könnten. Sie würden dabei ihre eigenen Ausgaben imitieren, anstatt neue Ansätze zu entwickeln. Forschung der Stanford University hat gezeigt, dass dies zu gravierenden Fehlern führen kann. Dieser Effekt wird in der Fachwelt als „digitaler Rinderwahnsinn“ bezeichnet. Werden solche fehlerhaften Daten weiterhin genutzt, könnten die KI-Ausgaben vollständig unbrauchbar werden.
Strategien gegen die Datenkrise
Um der drohenden Datenkrise entgegenzuwirken, investieren Unternehmen in neue Ansätze. OpenAI hat ein Team ins Leben gerufen, das ausschließlich an Lösungen für den Umgang mit Datenknappheit arbeitet. Ziel ist es, auch unter begrenzten Ressourcen weiterhin qualitativ hochwertige Modelle zu entwickeln. Ob diese Bemühungen ausreichen, bleibt abzuwarten.
Was du dir merken solltest:
- Die Entwicklung leistungsstarker KI-Modelle benötigt qualitativ hochwertige Trainingsdaten, die inzwischen nahezu ausgeschöpft sind.
- Einige Unternehmen setzen zunehmend auf minderwertige Daten, was die Qualität der Modelle beeinträchtigen und langfristig gravierende Folgen haben könnte.
- Andere Ansätze wie die Nutzung von synthetischen Daten bergen ebenfalls Risiken, darunter gravierende Fehler, die als „digitaler Rinderwahnsinn“ bezeichnet werden.
Bild: © Vecteezy