AI-Sicherheitsarchitektur selbst bauen: Defense-in-Depth in fünf Layern

Abschluss der Serie Fable 5 — war es da, ist es weg. Zurück zum Hub.

Die fünf Vektoren der Serie — Prompt Injection, Jailbreak, Confused Deputy, Exfiltration, Extraction — haben ein gemeinsames Muster: Das Modell ist nie der Sicherheits-Layer. Es ist die Komponente, die abgesichert werden muss. Anthropic macht genau das um Fable 5: vorgeschaltete Klassifikatoren, Routing-Fallback auf das härtere Opus 4.8 und 30-Tage-Retention zur Erkennung neuer Angriffe. Das erklärte Ziel ist bescheiden: Jailbreaks „eng oder teuer zu machen” und Missbrauch schnell zu sehen. Unverwundbarkeit verspricht Anthropic ausdrücklich nicht. Du baust um dein Feature das Äquivalent.

Wie wirksam Klassifikatoren sind — die Zahlen

Bevor wir die Layer durchgehen, der Realitätscheck aus der Forschung. Anthropics Constitutional Classifiers (Sharma et al., 2025) blockten in der Studie „over 95% of held-out jailbreaking attempts, compared to only 14% without classifiers” — bei 23,7 % Inferenz-Overhead und nur 0,38 Prozentpunkten mehr Fehl-Ablehnungen im Produktionsverkehr. Die nächste Generation (Classifiers++, 2026) drückte den Overhead auf rund 1 % und die Fehl-Ablehnungsrate auf 0,05 %. Die Lehre für den eigenen Stack: Ein Klassifikator-Layer kostet Tokens und Latenz, senkt das Risiko aber um eine Größenordnung. Open-Source- und Managed-Optionen für genau diese Schicht: Llama Guard, PromptGuard, Azure Content Safety, AWS Bedrock Guardrails.

Und die ehrliche Obergrenze: Adaptive Angreifer durchbrachen in „The Attacker Moves Second” (Nasr, Carlini et al., 2025) zwölf publizierte Verteidigungen mit über 90 % Erfolg — obwohl diese ursprünglich nahezu null Erfolg gemeldet hatten. Verteidigung muss gegen adaptive, nicht gegen statische Angriffe evaluiert werden. Defense-in-Depth bedeutet, dass kein einzelner Layer perfekt sein muss, weil mehrere Schichten zusammen den Angriff teuer machen.

Die fünf Layer

1. Gateway- und Input-Layer. Aller Verkehr läuft durch ein eigenes AI-Gateway, nie direkt vom Frontend zum Provider. Hier sitzen Authentifizierung, Rate-Limiting pro Nutzer (gegen Best-of-N-Sampling), ein Input-Klassifikator gegen Jailbreaks und Prompt Injection, und die strukturelle Trennung von System-Instruktion und Daten-Kontext. Das Gateway ist auch der Ort des provider-agnostischen Routings — die Lehre aus der Fable-5-Suspendierung.

2. Kontext- und Retrieval-Layer. Serverseitig erzwungene Tenant-Filterung vor jedem Retrieval, nie per Anweisung an das Modell. Externe Inhalte werden als untrusted markiert und strukturell vom System-Prompt getrennt. Kuratierte, versionierte Wissensbasis mit Provenienz. Keine Secrets im Kontext.

3. Tool- und Aktions-Layer. Least-Privilege-Berechtigungen pro Tool, Identitäts-Durchreichung statt Allmacht-Service-Account, verpflichtendes Human-in-the-Loop für irreversible Aktionen, Egress-Allowlist, Rate-Limits und Anomalie-Erkennung auf Tool-Ebene.

4. Output-Layer. Output-Klassifikator gegen geleakte Daten und Off-Topic-Antworten, Sanitisierung vor dem Rendern (aktive Inhalte aus Antworten entfernen, Markdown-Bild-Exfil neutralisieren), Konsistenzprüfung gegen die ursprüngliche Aufgabe.

5. Observability- und Governance-Layer. Vollständiges Logging jeder Anfrage, jedes Tool-Calls und jeder Antwort — Pflicht unter dem EU AI Act und Voraussetzung jeder Incident-Analyse. Konversations-Monitoring statt Pro-Nachricht-Prüfung, sonst bleibt Crescendo unsichtbar. Kontinuierliches Red-Teaming gegen den aktuellen Angriffskatalog, ausgerichtet am NIST AI RMF. Ein definierter Notfallpfad für genau den Fall, der gerade eingetreten ist: Das Modell verschwindet, und du brauchst innerhalb von Stunden einen Fallback.

Das Mindestmaß für den Mittelstand

Das ist kein Maximalprogramm für ein Forschungslabor. Ein Mittelstands-Stack deckt mit Layer 1 (Gateway plus Input-Klassifikator) und Layer 3 (Least Privilege plus Human-in-the-Loop) den Großteil des realen Risikos ab. Die Layer 2, 4 und 5 kommen mit der Reife des Features dazu. Wer das nicht-AI-Mindestmaß sucht, findet es in SaaS-Vendor-Security: das Mindestmaß — die AI-Schicht legt sich obendrauf, sie ersetzt nichts.

Zwei Dinge nicht vergessen

Provider-Risiko ist Betriebsrisiko. Fable 5 zeigt: Ein Frontier-Modell kann über Nacht per Behördenanordnung verschwinden. Die Exportkontrolle traf foreign nationals — für DACH-B2B mit internationaler Belegschaft besonders relevant. Modell-Abstraktion und ein getesteter Fallback-Pfad sind die billigste Versicherung im Stack.

Capability nutzt beiden Seiten. Dieselbe Fähigkeit, die Mythos gefährlich macht, hilft Verteidigern: N-Day-Schwachstellen werden in Stunden statt Wochen weaponisiert — Anthropic berichtet von 18 Windows-Kernel-PoCs in sechs Stunden. Wenn „N-Day” faktisch „N-Hour” wird, verkürze deine Patch-Zyklen drastisch, setze memory-safe Sprachen ein und nutze KI-gestützte Schwachstellenanalyse auf der eigenen Codebasis, bevor es ein Angreifer tut.

Die Schwellen, die das Bild kippen würden

Diese Architektur ist auf den heutigen Stand kalibriert. Zwei Befunde würden die Risikobewertung fundamental verschieben, und beide lohnt es zu beobachten:

Ein nachgewiesener universeller Jailbreak gegen Classifiers der nächsten Generation — bisher von keinem Red-Teamer gefunden, aber laut Anthropic „in Zukunft wahrscheinlich”.
Eine RCT, die signifikanten Uplift für vollständige Angriffsketten zeigt. Die zentrale kontrollierte Studie (RAND/UK AISI, Mai 2026, 157 Teilnehmer) fand ihn explizit nicht — KI half Anfängern beim Einstieg und Tempo, nicht bei vollständigen sophistizierten Angriffen. Ändert sich das, ändert sich die Lage.

Bis dahin gilt: Die Angriffsfläche steckt in jedem Frontier-Modell, das du holst. Der Unterschied zwischen einem Feature und einer Sicherheitslücke ist die Architektur drumherum — und die baut niemand für dich.

Teil der Serie

Hub · Prompt Injection · Jailbreaks · Confused Deputy · Datenexfiltration · Capability-Extraction · Referenzarchitektur