Täuschend echt – KI-Stimmen sind nicht mehr von menschlichen zu unterscheiden
70 Prozent getäuscht: KI-Stimmen klingen wie menschliche – das zeigt eine neue Studie mit beunruhigendem Ergebnis.

KI-Stimmen klingen täuschend echt – und machen es Betrügern leicht, per Phishing-Anruf vorzugeben, ein Familienmitglied oder Behördenvertreter zu sein. © Unsplash
Ein kurzer Anruf, eine bekannte Stimme – und trotzdem ist etwas anders. Künstliche Intelligenz kann heute Stimmen erzeugen, die sich kaum noch von echten unterscheiden. Wie überzeugend diese KI-Stimmen klingen, zeigt eine neue Studie der Queen Mary University of London: 70 Prozent der Teilnehmer hielten eine künstlich erzeugte Stimme für die eines echten Menschen. Die Technik ist längst alltagstauglich – und birgt Risiken, die viele unterschätzen.
Drei Tests, ein beunruhigendes Ergebnis
Die Wissenschaftler führten drei Experimente mit je 50 Personen durch. Sie hörten jeweils 120 kurze Sprachaufnahmen – darunter echte Stimmen, generische KI-Stimmen sowie sogenannte Voice Clones, also nachgeahmte Stimmen realer Menschen.
Die Unterschiede zwischen menschlich und künstlich waren minimal:
- Echte Stimmen wurden zu 72 Prozent als menschlich erkannt, Voice Clones lagen nur zwei Prozentpunkte dahinter.
- In einem anderen Versuch hielten 58 Prozent der Befragten eine Klon-Stimme für real, bei echten Stimmen waren es 62 Prozent.
Anders sah es bei generischen KI-Stimmen ohne konkretes Vorbild aus: Nur 39 bis 41 Prozent stuften sie als authentisch ein.
Täuschend einfach – und frei verfügbar
Die notwendige Technik ist nicht nur leistungsstark, sondern auch für jeden zugänglich. Ein paar Minuten Audiomaterial aus Podcasts oder Videos genügen. Die passende Software ist kostenlos im Netz zu finden.
„Der Prozess erfordert kaum Fachwissen, nur ein paar Minuten Sprachaufnahmen – und so gut wie kein Geld“, warnt Dr. Nadine Lavan, Mitautorin der Studie. Einmal erstellt, lassen sich solche Klon-Stimmen in beliebigen Kontexten einsetzen – das macht sie so gefährlich.
KI-Stimmen wirken glaubwürdiger als das Original
In den Tests reichte es nicht nur für eine Verwechslung mit realen Stimmen. Viele Probanden fanden die künstlichen Stimmen sogar dominanter und vertrauenswürdiger als die Originale.
Generische KI-Stimmen erzielten im Schnitt 58,1 von 100 Punkten auf der Dominanzskala – menschliche Stimmen kamen lediglich auf 40,4 Punkte. Besonders auffällig: In zwei von drei Tests lagen die KI-Stimmen beim Dominanzeindruck klar vorn.
Auch beim Vertrauensfaktor erreichten manche KI-Stimmen Spitzenwerte über 60 Punkte, während die realen Stimmen teils darunter lagen. In einzelnen Fällen bewerteten die Teilnehmer die künstliche Stimme als glaubwürdiger, stabiler und angenehmer als die Stimme eines echten Menschen.
Wenn die Stimme zur Waffe wird
Die Technik birgt enormes Missbrauchspotenzial – besonders dort, wo Stimmen bisher als verlässlicher Identitätsnachweis galten:
- Phishing-Anrufe: Kriminelle könnten sich mit gefälschten Stimmen als Familienangehörige, Kollegen oder Behörden ausgeben.
- Gefälschte Beweise: In Gerichtsverfahren könnten Deepfake-Audioaufnahmen als belastendes Material genutzt werden.
- Politische Manipulation: Öffentliche Personen könnten durch künstlich erzeugte Aussagen diskreditiert werden.
In allen Fällen wird Vertrauen zur Schwachstelle.
Wo KI-Stimmen wirklich helfen können
Trotz aller Risiken eröffnet die Technologie auch sinnvolle Möglichkeiten – vor allem für Menschen, die in ihrer Kommunikation eingeschränkt sind. „Es könnte Anwendungen zur besseren Barrierefreiheit, für Bildungszwecke und zur Unterstützung der Kommunikation geben“, erklärt Dr. Lavan.
Wer durch eine Krankheit oder einen Unfall seine Stimme verloren hat, hätte dank einer künstlicher Stimme wieder am Alltag teil – mit einem Klang, der der eigenen Stimme erstaunlich nahekommt. Auch im Bildungsbereich bieten sich neue Perspektiven: Blinde Menschen hören komplexe Inhalte in natürlicher Sprache.
Menschen mit Leseschwäche könnten Unterrichtsmaterialien und Lernhilfen besser nutzen, wenn KI-Stimmen Texte automatisch und verständlich vorlesen – angepasst an Tempo, Betonung und Bedarf. Voraussetzung sei allerdings, dass der Einsatz ethisch verantwortungsvoll und technisch zuverlässig erfolge, so die Expertin.
Echte oder KI-Stimme? Das Gehör erkennt den Unterschied kaum noch
In den Tests lagen die sogenannten Realness-Werte von Voice Clones mit 57 bis 63 Punkten fast auf dem Niveau echter Stimmen (64 Punkte). Selbst generische KI-Stimmen ohne konkretes Vorbild schnitten mit 44 bis 47 Punkten überraschend hoch ab.
Das bedeutet: Vertraute Stimmen gelten nicht länger als verlässlicher Identitätsnachweis – denn selbst bei bekannten Personen lässt sich kaum noch unterscheiden, ob tatsächlich der Mensch spricht oder eine KI. Das stellt unser Gehör als Sicherheitsfaktor infrage und macht neue Schutzmaßnahmen, technische Standards und gezielte Aufklärung dringend notwendig.
Kurz zusammengefasst:
- Künstlich erzeugte Stimmen sind kaum noch von echten zu unterscheiden – in Tests hielten bis zu 70 Prozent der Teilnehmer Voice Clones für menschlich, oft wirkten sie sogar dominanter und vertrauenswürdiger als reale Stimmen.
- Die nötige Technik ist frei verfügbar und leicht anzuwenden – wenige Minuten Audiomaterial und kostenlose Software reichen, um täuschend echte Fake-Stimmen zu erstellen, die sich missbrauchen lassen, etwa für Betrug oder Falschinformationen.
- Vertraute Stimmen sind kein verlässlicher Identitätsnachweis mehr – unser Gehör kann KI-Stimmen nicht sicher erkennen, was neue Sicherheitsstandards, Aufklärung und Schutzmaßnahmen dringend erforderlich macht.
Übrigens: Schon ein Gespräch mit dem KI-Chatbot Amanda kann die Beziehung und Kommunikation spürbar verbessern – das zeigt eine neue Studie mit echten Paaren. Mehr dazu in unserem Artikel.
Bild: © Unsplash