Jailbreak & Safety-Bypass: Many-shot, Crescendo, Best-of-N — was wirklich durchkommt

Vektor 2 der Serie Fable 5 — war es da, ist es weg. Zurück zum Hub.

Genau diese Schutzschicht hat die Fable-5-Debatte ausgelöst. Anthropics Position: Fables Safeguards sind die stärksten je deployten, und ein universeller Jailbreak wurde trotz tausender Stunden Red-Teaming nicht gefunden. Die Kehrseite derselben Aussage: Non-universelle Jailbreaks existieren bei jedem Anbieter, und perfekte Resistenz hält Anthropic für keinen Anbieter für möglich. Wer ein Modell ins eigene Produkt holt, erbt genau diese Realität.

Was es ist

Der Jailbreak überlistet die Schutzschicht des Modells selbst. Die einfachen Tricks von 2023 — DAN, „Developer Mode”, plumpes Rollenspiel, triviales Base64 — sind gegen Frontier-Modelle weitgehend tot: gezielt ins Safety-Training aufgenommen und von Klassifikatoren erkannt. Neue Varianten werden binnen Tagen gepatcht. Was bleibt, nutzt strukturelle Schwächen aus und folgt meist einem Potenzgesetz: mehr Rechenaufwand, höhere Erfolgsrate.

Technik	Mechanik	Erfolgsrate (Forschung)
Many-shot (Anthropic, Anil et al., 2024)	Kontextfenster mit Hunderten gefälschter Dialoge fluten, in denen ein „Assistent” willig schädlich antwortet; das Modell folgt dem In-Context-Muster	Power-Law mit Shot-Zahl, skaliert mit Kontextgröße (4k → 1M+ Tokens); Anthropics Mitigation senkte ASR „from 61% to 2%“
Crescendo (Microsoft, USENIX 2025)	Multi-turn-Eskalation: harmlos starten, schrittweise auf eigene vorherige Antworten aufbauen („foot-in-the-door”)	Erfolg meist in unter 5 Turns; Crescendomation +29–61 % auf GPT-4, +49–71 % auf Gemini-Pro
Best-of-N (Hughes et al., 2024)	Viele augmentierte Prompt-Varianten (Zeichen-Shuffling, Großschreibung, Rauschen) erzeugen und sampeln, bis eine durchkommt	„89% on GPT-4o and 78% on Claude 3.5 Sonnet when sampling 10,000 augmented prompts”; multimodal, knackt auch Circuit Breaker
Fine-Tuning-Angriff (Qi et al., ICLR 2024)	Safety durch wenige Trainingsbeispiele aushebeln	~10 adversariale Beispiele kippen Safety mit >90 %; BadLlama entfernte Safety in 5 Min auf einer A100 für unter 0,50 $

Warum es funktioniert

Drei strukturelle Gründe. Erstens ist Safety-Training „flach” (Qi et al., ICLR 2025): Es betrifft primär die ersten Output-Tokens. Bringt man das Modell über die ersten Tokens hinaus, kippt das Verhalten — der Hebel hinter Many-shot und Crescendo. Zweitens vergrößern größere Kontextfenster und neue Modalitäten die Angriffsfläche, statt sie zu schließen: Many-shot skaliert direkt mit der Fenstergröße, die alle Anbieter aggressiv ausbauen. Drittens setzt Best-of-N schlicht auf Wahrscheinlichkeit — bei genug Samples kommt eine Variante durch, ganz ohne Modellgewichte.

Dass Fine-Tuning Safety kippt, hat dieselbe Wurzel: Die Ausrichtung sitzt dünn auf der Oberfläche und wird schon von wenigen Gegenbeispielen überschrieben — sogar von gut gemeintem, benignem Fine-Tuning.

Daneben existieren White-Box- und Format-Angriffe, die hier nur eine Randnotiz brauchen: GCG optimiert per Gradient einen Kauderwelsch-Suffix, der universell und transferierbar wirkt (braucht Modellgewichte). Policy Puppetry verpackt die Anfrage als XML/JSON-„Policy”, die das Modell als autoritativ fehlinterpretiert. ArtPrompt und Encoding-Tricks maskieren Trigger-Wörter. Gegen gut abgesicherte gehostete Modelle sind sie weniger zuverlässig als die vier Techniken oben, gegen selbst gehostete Open-Weight-Modelle wieder relevanter.

Wenn du KI in dein Produkt einbaust

Wenn dein AI-Feature an deine Marke gekoppelt ist, ist jeder erfolgreiche Jailbreak ein Reputations- und Haftungsproblem. Ein Customer-Support-Bot, der sich zu rechtlich verbindlichen Zusagen, beleidigenden Antworten oder Anleitungen außerhalb seines Zwecks überreden lässt, produziert Schäden, die auf dich zurückfallen.

Zwei Verschärfungen: Lange-Kontext-Features (Doc-Upload, RAG mit großen Fenstern) öffnen Many-shot Tür und Tor. Und öffentliche, ungedrosselte Endpoints laden zum Best-of-N-Brute-Force ein — wer beliebig oft sampeln darf, kommt irgendwann durch. Bei selbst gehosteten Modellen ohne Anbieter-Filter und bei Fine-Tuning auf Kunden- oder Drittdaten trägst du die volle Last der Absicherung.

Selbst ausprobieren

Erfolgsraten in einer Tabelle überzeugen niemanden, der nicht einmal selbst an einem Guardrail vorbei ist. Lakeras Gandalf macht genau das spielbar.

Hands-on (≈15 Min, Sandbox):

Öffne gandalf.lakera.ai. Die KI kennt ein Passwort und ist angewiesen, es nicht zu verraten. Deine Aufgabe: es trotzdem herausziehen.

Level 1 gibt es auf direkte Frage. Ab Level 4 brauchst du Umwege — nach dem ersten Buchstaben fragen, eine Übersetzung verlangen, das Passwort in einem Gedicht verstecken lassen.

Jedes Level legt eine härtere Filter-Schicht darüber. Du erlebst an einem Nachmittag, wie Guardrails greifen und an welcher Formulierung sie reißen.

Was bei Gandalf das Spielprinzip ist, steht als Crescendo-Technik dokumentiert: Microsoft-Forscher brachten ChatGPT und Gemini dazu, Verbotenes auszugeben, indem sie harmlos starteten und über mehrere Turns eskalierten. Die Transkripte liegen öffentlich, und kein einzelner Prompt darin sieht für sich verdächtig aus — genau das macht die Technik gegen Pro-Nachricht-Filter so wirksam.

Verteidigung

Nicht allein auf Modell-interne Guardrails verlassen, schon gar nicht bei selbst gehosteten Modellen. Eigenen Input-Klassifikator davorlegen (eigenes kleines Modell oder Managed Service wie Llama Guard, PromptGuard, Azure Content Safety, AWS Bedrock Guardrails).
Allowlist statt Blocklist: definieren, worüber dein Bot überhaupt redet, statt aufzuzählen, was er nicht darf — Blocklisten sind immer unvollständig.
Konversations-Monitoring statt Pro-Nachricht-Prüfung. Crescendo lebt im Bogen der Konversation; ein Klassifikator, der nur einzelne Nachrichten ansieht, übersieht ihn.
Rate-Limiting gegen Best-of-N-Sampling.
Fine-Tuning-Hygiene: Safety-Beispiele in jeden Datensatz mischen, gegen adaptive (nicht nur statische) Benchmarks re-evaluieren.
Wiederkehrendes Red-Teaming mit dem aktuellen Angriffskatalog — neue Techniken kommen schneller als Modell-Releases.

Die konkrete Umsetzung steht in der AI-Sicherheitsarchitektur selbst bauen, Layer 1 (Input-Klassifikator) und Layer 5 (Monitoring, Red-Teaming).

Teil der Serie

Hub · Prompt Injection · Jailbreaks · Confused Deputy · Datenexfiltration · Capability-Extraction · Referenzarchitektur