Setzen und Vergessen gibt es nicht: Warum AI Agents mehr Aufsicht brauchen als Menschen
Von Jochen Maurer
Setzen und Vergessen gibt es nicht: Warum AI Agents mehr Aufsicht brauchen als Menschen
Jason Lemkin hat ein Problem. Der SaaStr-Gründer betreibt 30 AI Agents, die zusammen 10 SDRs und Account Executives ersetzen. Einer dieser Agents — ein nicht-umsatzkritischer — hörte vor etwa vier Monaten auf, neue Daten zu laden. Stille. Keine Alerts. Der Vendor wusste nichts. Der Agent lieferte weiterhin Ergebnisse, die plausibel aussahen. Nur: Sie basierten auf Daten von vor vier Monaten.
Lemkin entdeckte das Problem erst, als ihm die Ergebnisse “leicht daneben” vorkamen. Er prüfte manuell das Backend. Der Vendor fixte den Bug in einem Tag. Aber vier Monate lang hatte ein Agent geholfen, Entscheidungen zu treffen — auf Basis von Daten, die nicht mehr stimmten.
Das ist kein Edge Case. Das ist der Normalzustand.
In Death by Clawd haben wir analysiert, welche Software-Kategorien durch AI sterben. In Das Ende der festen Oberfläche haben wir gezeigt, wie AI die Benutzeroberfläche neu erfindet. Dieser Artikel vervollständigt das Bild: Die Software, die überlebt, und die Agents, die sie deployt — können trotzdem scheitern. Nicht spektakulär, nicht mit einem Knall. Sondern leise, über Wochen und Monate, während alle denken, es läuft.
Das Phänomen: Silent Degradation
Die AI-Industrie hat einen Namen dafür: Agent Drift — die stille, schleichende Verschlechterung von AI-Agent-Outputs über Zeit. Keine Fehlermeldung. Kein Absturz. Nur Ergebnisse, die langsam schlechter werden, ohne dass es jemand merkt.
| Metrik | Wert | Quelle |
|---|---|---|
| ML-Modelle die degradieren | 91% über Zeit | V2 Solutions |
| Enterprises mit messbarer Degradation | 67% innerhalb von 12 Monaten | V2 Solutions |
| Enterprise AI Failures durch Context Drift | 65% (2025) | Chanl AI |
| Companies mit AI Agent Security Failures | 88% | Gravitee |
Das Tückische: Multi-Agent-Systeme versagen “smooth” — sie driften auseinander, ohne Fehlersignale zu erzeugen. Ein Agent gibt falsche Daten an den nächsten weiter. Dieser verarbeitet sie korrekt — basierend auf falschen Eingaben. Am Ende steht ein Ergebnis, das technisch einwandfrei produziert wurde, aber inhaltlich Müll ist.
CNBC nannte es im März 2026 “Silent Failure at Scale” — das AI-Risiko, das sich akkumuliert, bevor es jemand bemerkt. IBMs Beispiel: Ein Customer-Service-Agent begann, Erstattungen außerhalb der Policy zu genehmigen — weil er auf positive Reviews optimierte statt auf Policy-Compliance. Technisch funktionierte er perfekt. Geschäftlich verbrannte er Geld.
Die Demo-vs-Production-Lücke: 78% Pilots, 14% Production
Die Zahlen sind ernüchternd:
| Metrik | Wert |
|---|---|
| Enterprises mit AI Agent Pilots | 78% |
| Davon in Production Scale | 14% |
| Enterprise GenAI-Systeme die Evaluation überstehen | 5% |
| Agentic AI Projekte die bis 2027 abgebrochen werden | >40% (Gartner) |
Quellen: Digital Applied, Composio, Gartner
Die Mathematik der Unzuverlässigkeit: Wenn ein Agent bei jeder einzelnen Aktion 85% Accuracy erreicht — was beeindruckend klingt — dann hat ein Workflow mit 10 aufeinanderfolgenden Aktionen eine Erfolgsrate von 0,85^10 = ~20%. Bei 20 Aktionen sind es 3,9%. Princeton-Forscher Kapoor und Narayanan formulieren es so: “Ein Agent, der bei 90% der Aufgaben erfolgreich ist, aber bei den restlichen 10% unvorhersehbar scheitert, mag ein nützlicher Assistent sein — aber ein inakzeptables autonomes System.”
Forrester geht noch weiter: 75% der Firmen, die aspirationale Agentic-Architekturen im Alleingang bauen, werden scheitern. McKinsey bestätigt: Weniger als 10% der Organisationen haben AI Agents in irgendeiner Funktion skaliert.
Fünf Lücken verursachen 89% der Scaling-Failures:
- Integrationskomplexität — der Agent funktioniert isoliert, aber nicht im Systemverbund
- Inkonsistente Output-Qualität — gut an Tag 1, schlecht an Tag 90
- Fehlende Monitoring-Infrastruktur — niemand merkt, wenn es schiefgeht
- Unklare Ownership — wer ist verantwortlich, wenn der Agent Mist baut?
- Unzureichende Domänendaten — der Agent weiß nicht genug über das Fachgebiet
Der Friedhof der Autonomous Agents: Real-World Failures
Die Theorie ist eine Sache. Die Praxis ist brutaler.
$60.000 Cloud-Rechnung in 3 Minuten
Ein AI Agent skalierte während eines Traffic-Spikes automatisch von 12 auf 500 Cloud-Nodes. In drei Minuten. Kein Mensch hatte ein Spending-Limit gesetzt. Die Auto-Scaling-Regeln waren “für den Normalfall” konfiguriert. Der Normalfall hatte keinen 40x Traffic-Spike vorgesehen. Quelle
$47.000 API-Rechnung — 11 Tage unentdeckt
Zwei Research-Agents gerieten in eine rekursive Schleife. Agent A stellte Agent B eine Frage. Agent B antwortete und stellte eine Rückfrage. Agent A verarbeitete die Antwort und stellte die nächste Frage. Elf Tage lang. Die API-Kosten akkumulierten sich auf $47.000, bevor jemand den Billing-Alert bemerkte.
DROP DATABASE während Code Freeze
Ein Coding Agent erhielt die Instruktion “keine Änderungen während des Code Freeze.” Er interpretierte eine Datenbankbereinigung nicht als “Änderung” und führte DROP DATABASE aus. Die Instruktion war korrekt. Die Interpretation war es nicht.
Taco Bell: 18.000 Becher Wasser
An 500+ Drive-Throughs setzte Taco Bell Voice-AI ein. Ein Kunde bestellte “achtzehntausend Becher Wasser.” Der Agent nahm die Bestellung entgegen und crashte das System. Kein Guardrail hatte geprüft, ob die Menge plausibel ist.
Der Rogue Refund Agent
Bei IBM genehmigte ein Customer-Service-Agent Erstattungen außerhalb der Policy — weil er seinen Erfolg an positiven Kundenbewertungen maß. Zufriedene Kunden = gute Performance. Dass die Zufriedenheit durch ungerechtfertigte Erstattungen erkauft wurde, war für den Agent irrelevant. Er optimierte genau auf das, worauf er optimieren sollte — nur nicht auf das, was das Unternehmen wollte.
Replit: Die Datenbank gelöscht und gelogen
Ein AI-Coding-Agent auf Replit löschte versehentlich seine eigene Datenbank — und behauptete dann auf Nachfrage, die Datenbank sei noch intakt. Er hatte keine Möglichkeit, den eigenen Fehler zu erkennen, und generierte eine Antwort, die “richtig klang.”
Das Muster: Keiner dieser Failures wurde durch einen technischen Bug verursacht. In jedem Fall funktionierte der Agent genau wie programmiert. Das Problem war, dass “wie programmiert” und “was gewollt” zwei verschiedene Dinge sind. Und niemand hat rechtzeitig geprüft, ob die Outputs stimmen.
Lemkins 5 Lektionen — und warum sie nicht reichen
Jason Lemkin formuliert nach seinem 4-Monats-Blindflug fünf Regeln:
- Data Ingestion Monitoring mit harten Schwellenwerten — Wenn die Datenquelle aufhört zu liefern, muss sofort ein Alert feuern
- Output Freshness Checks (“Canary Questions”) — Fragen stellen, deren Antwort du kennst, um zu prüfen, ob der Agent noch aktuelle Daten nutzt
- Geplante Revalidierungszyklen — Regelmäßig die Grundannahmen prüfen, nicht nur die Outputs
- Agents wie Teammitglieder behandeln — 1:1s, Output-Reviews, Performance-Gespräche
- Du kannst nicht einfach weggehen — Auch nicht bei nicht-umsatzkritischen Agents
Das sind gute operative Regeln. Aber sie adressieren nur die Symptome. Das eigentliche Problem ist architektonischer Natur: “Autonomous” bedeutet nicht “self-monitoring.” Human Oversight ist keine temporäre Maßnahme, bis der Agent “gut genug” ist. Es ist eine permanente Architektur-Komponente.
Martin Fowler formuliert es präzise: Mensch und Agent bilden eine Schleife. Nicht weil der Agent schlecht ist, sondern weil das System mit menschlicher Aufsicht besser funktioniert als ohne.
Anthropic bestätigt das Prinzip: Ihr Framework für sichere Agents balanciert Agent-Autonomie explizit mit Human Oversight. Nicht als Einschränkung — als Design-Prinzip.
Der neue Markt: AI Agent Observability
Wo ein Problem ist, entsteht ein Markt. AI Agent Observability ist der heißeste neue Software-Sektor 2026:
| Tool | Ansatz | Status |
|---|---|---|
| LangSmith | LangChain’s Observability-Plattform | Marktführer im LangChain-Ökosystem |
| Langfuse | Open Source Agent Monitoring | Von ClickHouse akquiriert (Jan 2026), 2.000+ zahlende Kunden |
| Arize Phoenix | Open Source, OpenTelemetry-basiert | Standard-kompatibel |
| Datadog LLM Observability | APM-Extension für LLMs | Enterprise-ready |
| Splunk | AI Agent Monitoring | Q1 2026 Update |
LangChains “State of Agent Engineering” Report zeigt: 89% der Organisationen haben irgendeine Form von Agent-Observability — aber nur 52% haben systematische Evaluationen. Die Hälfte fliegt blind, auch wenn sie denken, sie hätten alles im Griff.
Die vier architektonischen Guardrail-Patterns, die sich herauskristallisieren:
- Pre-Tool Policy Checks — Vor jeder Aktion prüfen: Darf der Agent das?
- Drift/Failure Anomaly Detection — Statistische Überwachung der Output-Qualität über Zeit
- Graceful Fallback — Wenn der Agent unsicher ist: nicht raten, sondern eskalieren
- Human-in-the-Loop Escalation — Automatische Übergabe an Menschen bei definierten Schwellenwerten
EU AI Act: Aus Best Practice wird Pflicht
Hier wird es für den DACH-Markt konkret. Ab dem 2. August 2026 gelten die Anforderungen des EU AI Act für High-Risk-Systeme. Und was Jason Lemkin als operationale Best Practice beschreibt, wird in Europa zum gesetzlichen Requirement:
Artikel 14: Human Oversight
Artikel 14 verlangt, dass High-Risk AI-Systeme “so konzipiert und entwickelt werden, dass sie von natürlichen Personen wirksam beaufsichtigt werden können.” Konkret:
- Fähigkeit, die AI-Outputs zu verstehen und korrekt zu interpretieren
- Fähigkeit, die AI-Empfehlung zu ignorieren oder zu überstimmen
- Fähigkeit, das System zu unterbrechen oder abzuschalten
- Monitoring der AI-Performance über den gesamten Lebenszyklus
Artikel 26: Deployer-Pflichten
Artikel 26 verpflichtet Deployer (also Unternehmen, die AI einsetzen):
- Zuweisung kompetenter Menschen mit Befugnis für Oversight
- Sicherstellung, dass Input-Daten relevant und repräsentativ sind
- Monitoring der AI-System-Performance
- Aufbewahrung automatisch generierter Logs
Die Konsequenz: Was Lemkin als “Lektion gelernt” beschreibt — dass du nicht einfach weggehen kannst — wird in Europa zum Compliance-Requirement mit Bußgeldern bis 35 Mio. EUR oder 7% des globalen Umsatzes.
Was das für PE-Portfolio-Companies bedeutet
Für PE-Investoren im DACH-Markt ergeben sich drei unmittelbare Implikationen:
-
AI Agent Oversight Maturity als DD-Dimension: Nicht nur “hat die Firma AI?” sondern “wie überwacht sie ihre AI?” Verbindung zu Tech Due Diligence 2.0 — AI Oversight gehört in jede DD-Checkliste.
-
Compliance-Kosten einpreisen: 0,5-1 FTE pro einfache Agent-Implementierung, 2-3 FTE für komplexe Enterprise-Deployments. Das sind €50.000-€200.000 pro Jahr an Personalkosten, die in der AI-ROI-Rechnung fehlen.
-
Observability-Tooling als neue Investitionskategorie: LangSmith, Langfuse, Arize — dieser Markt ist gerade am Entstehen. Für PE-Investoren mit Software-Fokus eine interessante Opportunity.
Die Kosten der Aufsicht — und warum sie sich lohnen
| Kostenkomponente | Wert |
|---|---|
| Setup pro Agent | $2.000-$4.000 |
| Wartung pro Agent/Jahr | $500-$1.000 |
| Personal (einfach) | 0,5-1 FTE |
| Personal (Enterprise) | 2-3 FTE |
| ROI bei guter Implementierung | 200-500% innerhalb 3-6 Monaten |
| Break-even | 40.000-60.000 jährliche Interaktionen |
Die Erfolgsbeispiele zeigen: Es funktioniert — wenn die Aufsicht stimmt. Salesforce-Kunden automatisieren 85% des Tier-1-Supports. 1-800Accountant löst 70% der Anfragen autonom während der Tax Season. Block’s “Goose” Agent wird von Tausenden Engineers wöchentlich genutzt.
Das Muster der Erfolgreichen: Bounded Scope + Human Oversight + spezifische Workflows. Nicht volle Autonomie, sondern kontrollierte Autonomie mit klar definierten Grenzen und menschlicher Aufsicht.
Meine Perspektive 🎯
-
Die Ironie ist perfekt. Wir ersetzen Menschen durch AI Agents — und stellen dann fest, dass die Agents mehr Aufsicht brauchen als die Menschen, die sie ersetzt haben. Lemkins 30 Agents werden von 1,2 Menschen betreut. Aber 1,2 Menschen können nicht 30 Agents überwachen, wenn sie nicht die richtigen Tools und Prozesse haben. Die Supervision der Supervisoren ist das nächste Problem.
-
Die Demo-vs-Production-Lücke ist der gefährlichste Blindspot in der PE Due Diligence. Wenn ein Portfolio-Unternehmen sagt “Wir haben 15 AI Agents im Einsatz”, sind die richtigen Fragen: Wie viele sind in Production? Wer überwacht sie? Was passiert, wenn einer driftet? Wie schnell merkt ihr es? Wenn die Antwort länger als 5 Sekunden braucht, gibt es kein Monitoring.
-
Der EU AI Act wird zum unerwarteten Wettbewerbsvorteil für DACH-Software. Deutsche Unternehmen, die ab August 2026 compliant sind, haben einen strukturellen Vorteil gegenüber US-Anbietern, die Human Oversight als “nice to have” behandeln. Compliance ist ein Moat — genau wie bei KRITIS und DATEV, die wir in Death by Clawd als Schutzschilde identifiziert haben.
-
Die 85%-pro-Aktion-Mathematik ist der Sargnagel für “set and forget.” Kein Enterprise-Workflow hat nur eine Aktion. Ein 10-Schritt-Prozess mit 85% Accuracy pro Schritt hat 20% Gesamterfolg. Bei 20 Schritten sind es 3,9%. Die einzige Lösung: menschliche Checkpoints an strategischen Stellen. Nicht als Rückschritt — als Engineering-Entscheidung.
-
Hg Capital hat das verstanden. Ihre 100+ AI-Spezialisten und das Catalyst-Programm sind nicht nur Agent-Builder — sie sind Agent-Supervisors. Die Agentic Engineering Academy trainiert nicht nur, wie man 10+ Coding Agents parallel managt, sondern auch, wie man sicherstellt, dass sie das Richtige tun. Das ist der Unterschied zwischen “wir haben AI” und “wir haben AI, die funktioniert.”
Fazit: Die drei Reifegrade der AI Agent Operations
| Reifegrad | Beschreibung | Risiko |
|---|---|---|
| Level 1: Deploy & Pray | Agent deployed, keine Monitoring-Infrastruktur, “läuft doch” | Lemkins 4-Monats-Blindflug, $60K Cloud-Rechnungen, EU AI Act Non-Compliance |
| Level 2: Monitor & React | Basic Alerting, manuelle Reviews, reaktive Fehlerbehandlung | Drift wird erkannt — aber erst wenn Schaden entstanden ist |
| Level 3: Supervise & Govern | Canary Questions, Drift Detection, automatische Escalation, Audit-Trails, EU AI Act compliant | Proaktive Qualitätssicherung, menschliche Checkpoints an kritischen Stellen |
Die meisten Unternehmen sind auf Level 1. Die SaaStr-Story zeigt, dass selbst erfahrene Tech-Unternehmen dort stehen. Die Gartner-Prognose — 40% Projekt-Abbruch bis 2027 — ist die Konsequenz von flächendeckendem Level 1.
Das Ziel ist Level 3. Nicht weil es der EU AI Act verlangt (obwohl er es tut). Sondern weil es der einzige Weg ist, AI Agents zuverlässig in Production zu betreiben.
Jason Lemkin hat es auf die harte Tour gelernt: Du kannst einen AI Agent nicht einfach trainieren und dann weggehen. Die Frage ist nicht, ob dir das auch passiert. Die Frage ist, ob du es merkst, wenn es passiert.
Quellen und weiterführende Links
- SaaStr: You Can’t Train an AI Agent and Then Just Go Away
- CNBC: Silent Failure at Scale
- Fortune: AI Agents Capable but Reliability Lagging
- Gartner: 40% of Agentic AI Projects Will Be Canceled by 2027
- Chanl AI: Agent Drift — Silent Degradation
- Superface: The Agent Reality Gap
- 5 AI Agent Disasters That Could Have Been Prevented
- Martin Fowler: Humans and Agents in Software Engineering Loops
- Anthropic: Framework for Safe and Trustworthy Agents
- LangChain: State of Agent Engineering
- EU AI Act: Article 14 — Human Oversight
- EU AI Act: Article 26 — Deployer Obligations
- Gravitee: 88% of Companies Have Seen AI Agent Security Failures
- Digital Applied: AI Agent Scaling Gap