ChatGPT durch kreative Jailbreak-Angriffe manipulierbar

Sicherheitslücke: ChatGPT durch kreative Jailbreak-Angriffe manipulierbar

ChatGPT kann durch kreative Jailbreak-Angriffe manipuliert werden.

Forscher des CISPA Helmholtz Center for Information Security haben herausgefunden, dass der Sprachmodus von OpenAIs ChatGPT durch sogenannte Jailbreak-Angriffe ausgenutzt werden kann. Sie zeigen, dass kreative Erzähltechniken das System dazu bringen, verbotene Fragen zu beantworten.

VoiceJailbreak: Ein neuer Ansatz

Die Wissenschaftler des CISPA Helmholtz Center for Information Security untersuchten, wie GPT-4o auf direkte Fragen zu sechs verbotenen Themen reagiert. Diese Themen umfassen illegale Aktivitäten, Hassrede, körperliche Schäden, Betrug, Pornografie und Verletzung der Privatsphäre. Laut der Studie weist GPT-4o in den meisten Fällen eine hohe Widerstandsfähigkeit auf und beantwortet diese Fragen nicht.

Auch klassische Jailbreak-Prompts, die in Textform in Audiodateien umgewandelt wurden, führten nur zu einer geringen Erfolgsrate. Um diese Barriere zu umgehen, entwickelten die Forscher jedoch einen neuen Ansatz namens „VoiceJailbreak“. Dabei vermenschlichen sie GPT-4o und überreden es durch fiktives Storytelling zu unautorisierten Antworten.

Erfolg durch fiktives Storytelling

VoiceJailbreak nutzt die Elemente Setting, Charakter und Story, um verbotene Fragen in eine hörbare und effektive Jailbreak-Eingabe zu verwandeln. Die Forscher versetzten GPT-4o beispielsweise in die Rolle eines Hackers in einem Spiel. In diesem Kontext stellten sie dann die verbotenen Fragen. Diese Einbettung in eine fiktive Geschichte erhöhte die Erfolgsrate der Angriffe signifikant.

Durch Jailbreak-Angriffe stieg die durchschnittliche Erfolgsrate der Manipulation von ChatGPT von 3,3 Prozent auf 77,8 Prozent. Bei bestimmten Themen, wie Betrug, lag die Erfolgsquote sogar bei über 90 Prozent. Fortgeschrittene Erzähltechniken wie Perspektivwechsel und Foreshadowing (Vorausdeutung) steigerten die Erfolgsrate weiter. So führte etwa das Einbinden von BDSM-bezogenen Fragen dazu, dass GPT-4o später bereitwilliger auf pornografische Fragen einging. Die Erfolgsrate in diesem Szenario stieg von 40 Prozent auf 60 Prozent.

Multimodalität und Sprachen

Die Forscher führten auch Experimente mit unterschiedlichen Interaktionsschritten, Schlüsselelementen und Sprachen durch. Sie stellten fest, dass VoiceJailbreak auch in Chinesisch effektiv funktioniert. Laut the decoder reichen die Sicherheitsvorkehrungen von GPT-4o im Sprachmodus bisher nicht aus, um kreative Angriffsvektoren abzuwehren.

Einschränkungen der Studie

Die Studie hat jedoch Einschränkungen. Die Forscher führten die Experimente manuell durch, da der Sprachmodus bisher nur in der ChatGPT-App verfügbar ist. Zudem konzentrierten sie sich auf hörbare Angriffe und ließen unhörbare Varianten außer Acht.

ChatGPT selbst läuft seit Mitte Mai mit GPT-4o, aber die neuen multimodalen Audio-Fähigkeiten sollen erst später eingeführt werden. Diese müssen noch auf Sicherheit getestet werden.

Zukunft von ChatGPT Voice

Die aktuelle Version von ChatGPT Voice bleibt bisher unverändert, und es ist unklar, ob OpenAI bereits GPT-4o per Texteingabe oder andere Modelle verwendet. Die Forscher führen die Sicherheitsprobleme auf GPT-4o zurück. Die Studie von CISPA zeigt, dass die Sicherheitsvorkehrungen von ChatGPT Voice aus Nutzersicht noch verbessert werden müssen.

Was du dir merken solltest:

Forscher des CISPA Helmholtz Center for Information Security haben herausgefunden, dass der Sprachmodus von OpenAIs ChatGPT durch kreative Erzähltechniken ausgenutzt werden kann, um verbotene Fragen zu beantworten, was als „VoiceJailbreak“ bezeichnet wird.
Die Studie zeigt, dass durch die Einbettung verbotener Fragen in fiktive Geschichten die Erfolgsrate solcher Angriffe auf GPT-4o signifikant ansteigt, von 3,3 Prozent auf 77,8 Prozent, und bei bestimmten Themen wie Betrug sogar über 90 Prozent erreicht.
Die Forscher betonen, dass die Sicherheitsvorkehrungen von GPT-4o im Sprachmodus unzureichend sind, um kreative Angriffsvektoren abzuwehren, und dass weitere Sicherheitsmaßnahmen erforderlich sind, insbesondere da die multimodalen Audio-Fähigkeiten von ChatGPT noch auf Sicherheit getestet werden müssen.

Bild: © Pexels