Mensch schlägt KI: Studie zeigt klare Qualitätsunterschiede

Manuelle Transkriptionsdienste weisen im Vergleich zu KI-basierten Anbietern eine höhere Genauigkeit bei der Umwandlung von gesprochener Sprache in Text auf.

Bild: © Vecteezy

Trotz der Weiterentwicklung der KI-Technologie unterlaufen ihr noch immer mehr Fehler als Menschen. © Vecteezy

Im Vergleich zu automatisierten Systemen zeigen manuelle Transkriptionsdienste eine deutlich höhere Präzision bei der Umwandlung von gesprochener Sprache in Text. Dies ergab eine im Dezember 2022 durchgeführte Studie, geleitet von Rafael Mrowczynski und seinem Team vom CISPA Helmholtz-Zentrum für Informationssicherheit.

Untersucht wurden insgesamt elf Transkriptionsdienste, darunter fünf manuelle Anbieter – Amberscript, GoTransript, QualTranscribe, Rev und Scribble – sowie sechs KI-basierte Dienste, darunter Amazon Transcribe, AssemblyAI, Audiotranskription.de, Google Cloud, Microsoft Azure und Whisper AI von OpenAI.

Präzisionsprobleme bei KI-Diensten

Die Untersuchung zeigt, dass manuelle Dienste, die menschliche Transkribierer einsetzen, in der Regel genauer sind, besonders bei der Verwendung von Fachbegriffen und der korrekten Zuordnung von Sprechern. „Die meisten der manuellen Transkriptionsdienste haben ein lobenswertes Leistungsniveau, während KI-basierte Dienste häufig bedeutungsverzerrende Abweichungen zwischen Aufnahme und Transkription aufwiesen“, erklärte Mrowczynski laut FOCUS online. Ein bezeichnendes Beispiel für solche Fehler ist die Verwechslung von „hashes“ mit „ashes“.

Herausforderungen durch Hintergrundgeräusche

Ein weiterer Faktor, der die Qualität der Transkripte beeinflusst, sind Hintergrundgeräusche, die insbesondere die Leistung der KI-Systeme beeinträchtigen. Die Studie verdeutlicht, dass KI-basierte Transkriptionsdienste auch weiterhin Probleme damit haben, in Dialogen und Gruppengesprächen den gesprochenen Inhalt dem richtigen Sprecher zuzuordnen. Zudem benötigen die von KI-Systemen erstellten Transkripte oft eine nachträgliche Überarbeitung, bevor sie in Forschungssoftware verwendet werden können.

Die Erkenntnisse dieser Studie sind insbesondere für professionelle Anwender von Interesse, die in den Bereichen Journalismus und Forschung auf präzise Transkriptionen angewiesen sind. Es wird deutlich, dass trotz der Fortschritte in der Spracherkennung die Zuverlässigkeit manueller Transkriptionen noch nicht von Maschinen erreicht wird.

Was du dir merken solltest:

  • Eine Studie des CISPA zeigt, dass manuelle Transkriptionsdienste in der Umwandlung von gesprochener Sprache in Text präziser sind als KI-basierte Systeme. Dies gilt insbesondere bei der korrekten Verwendung von Fachbegriffen und der Zuordnung von Sprechern.
  • Während manuelle Dienste wie Amberscript und Rev eine hohe Genauigkeit erreichen, tendieren KI-Systeme wie Google Cloud und Whisper AI dazu, Fehler zu machen. Ein Beispiel ist die fehlerhafte Umwandlung des Fachbegriffs „hashes“ in „ashes“, was die Zuverlässigkeit ihrer Transkriptionen verringert.
  • Trotz fortschreitender Entwicklungen in der KI-Technologie bestehen weiterhin Herausforderungen, wie die Beeinträchtigung der Transkriptionsgenauigkeit durch Hintergrundgeräusche und die Notwendigkeit nachträglicher Bearbeitungen, was die direkte Verwendung von KI-Transkripten in Forschungssoftware erschwert.

Bild: © Vecteezy

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert