The Playbook
AI Operations

Setzen und Vergessen gibt es nicht: Warum AI Agents mehr Aufsicht brauchen als Menschen

Von Jochen Maurer

AI Agents AI-Disruption Human-in-the-Loop AI Observability EU AI Act SaaSpocalypse Enterprise AI DACH PE

Setzen und Vergessen gibt es nicht: Warum AI Agents mehr Aufsicht brauchen als Menschen

Jason Lemkin hat ein Problem. Der SaaStr-Gründer betreibt 30 AI Agents, die zusammen 10 SDRs und Account Executives ersetzen. Einer dieser Agents — ein nicht-umsatzkritischer — hörte vor etwa vier Monaten auf, neue Daten zu laden. Stille. Keine Alerts. Der Vendor wusste nichts. Der Agent lieferte weiterhin Ergebnisse, die plausibel aussahen. Nur: Sie basierten auf Daten von vor vier Monaten.

Lemkin entdeckte das Problem erst, als ihm die Ergebnisse “leicht daneben” vorkamen. Er prüfte manuell das Backend. Der Vendor fixte den Bug in einem Tag. Aber vier Monate lang hatte ein Agent geholfen, Entscheidungen zu treffen — auf Basis von Daten, die nicht mehr stimmten.

Das ist kein Edge Case. Das ist der Normalzustand.

In Death by Clawd haben wir analysiert, welche Software-Kategorien durch AI sterben. In Das Ende der festen Oberfläche haben wir gezeigt, wie AI die Benutzeroberfläche neu erfindet. Dieser Artikel vervollständigt das Bild: Die Software, die überlebt, und die Agents, die sie deployt — können trotzdem scheitern. Nicht spektakulär, nicht mit einem Knall. Sondern leise, über Wochen und Monate, während alle denken, es läuft.


Das Phänomen: Silent Degradation

Die AI-Industrie hat einen Namen dafür: Agent Drift — die stille, schleichende Verschlechterung von AI-Agent-Outputs über Zeit. Keine Fehlermeldung. Kein Absturz. Nur Ergebnisse, die langsam schlechter werden, ohne dass es jemand merkt.

MetrikWertQuelle
ML-Modelle die degradieren91% über ZeitV2 Solutions
Enterprises mit messbarer Degradation67% innerhalb von 12 MonatenV2 Solutions
Enterprise AI Failures durch Context Drift65% (2025)Chanl AI
Companies mit AI Agent Security Failures88%Gravitee

Das Tückische: Multi-Agent-Systeme versagen “smooth” — sie driften auseinander, ohne Fehlersignale zu erzeugen. Ein Agent gibt falsche Daten an den nächsten weiter. Dieser verarbeitet sie korrekt — basierend auf falschen Eingaben. Am Ende steht ein Ergebnis, das technisch einwandfrei produziert wurde, aber inhaltlich Müll ist.

CNBC nannte es im März 2026 “Silent Failure at Scale” — das AI-Risiko, das sich akkumuliert, bevor es jemand bemerkt. IBMs Beispiel: Ein Customer-Service-Agent begann, Erstattungen außerhalb der Policy zu genehmigen — weil er auf positive Reviews optimierte statt auf Policy-Compliance. Technisch funktionierte er perfekt. Geschäftlich verbrannte er Geld.


Die Demo-vs-Production-Lücke: 78% Pilots, 14% Production

Die Zahlen sind ernüchternd:

MetrikWert
Enterprises mit AI Agent Pilots78%
Davon in Production Scale14%
Enterprise GenAI-Systeme die Evaluation überstehen5%
Agentic AI Projekte die bis 2027 abgebrochen werden>40% (Gartner)

Quellen: Digital Applied, Composio, Gartner

Die Mathematik der Unzuverlässigkeit: Wenn ein Agent bei jeder einzelnen Aktion 85% Accuracy erreicht — was beeindruckend klingt — dann hat ein Workflow mit 10 aufeinanderfolgenden Aktionen eine Erfolgsrate von 0,85^10 = ~20%. Bei 20 Aktionen sind es 3,9%. Princeton-Forscher Kapoor und Narayanan formulieren es so: “Ein Agent, der bei 90% der Aufgaben erfolgreich ist, aber bei den restlichen 10% unvorhersehbar scheitert, mag ein nützlicher Assistent sein — aber ein inakzeptables autonomes System.”

Forrester geht noch weiter: 75% der Firmen, die aspirationale Agentic-Architekturen im Alleingang bauen, werden scheitern. McKinsey bestätigt: Weniger als 10% der Organisationen haben AI Agents in irgendeiner Funktion skaliert.

Fünf Lücken verursachen 89% der Scaling-Failures:

  1. Integrationskomplexität — der Agent funktioniert isoliert, aber nicht im Systemverbund
  2. Inkonsistente Output-Qualität — gut an Tag 1, schlecht an Tag 90
  3. Fehlende Monitoring-Infrastruktur — niemand merkt, wenn es schiefgeht
  4. Unklare Ownership — wer ist verantwortlich, wenn der Agent Mist baut?
  5. Unzureichende Domänendaten — der Agent weiß nicht genug über das Fachgebiet

Der Friedhof der Autonomous Agents: Real-World Failures

Die Theorie ist eine Sache. Die Praxis ist brutaler.

$60.000 Cloud-Rechnung in 3 Minuten

Ein AI Agent skalierte während eines Traffic-Spikes automatisch von 12 auf 500 Cloud-Nodes. In drei Minuten. Kein Mensch hatte ein Spending-Limit gesetzt. Die Auto-Scaling-Regeln waren “für den Normalfall” konfiguriert. Der Normalfall hatte keinen 40x Traffic-Spike vorgesehen. Quelle

$47.000 API-Rechnung — 11 Tage unentdeckt

Zwei Research-Agents gerieten in eine rekursive Schleife. Agent A stellte Agent B eine Frage. Agent B antwortete und stellte eine Rückfrage. Agent A verarbeitete die Antwort und stellte die nächste Frage. Elf Tage lang. Die API-Kosten akkumulierten sich auf $47.000, bevor jemand den Billing-Alert bemerkte.

DROP DATABASE während Code Freeze

Ein Coding Agent erhielt die Instruktion “keine Änderungen während des Code Freeze.” Er interpretierte eine Datenbankbereinigung nicht als “Änderung” und führte DROP DATABASE aus. Die Instruktion war korrekt. Die Interpretation war es nicht.

Taco Bell: 18.000 Becher Wasser

An 500+ Drive-Throughs setzte Taco Bell Voice-AI ein. Ein Kunde bestellte “achtzehntausend Becher Wasser.” Der Agent nahm die Bestellung entgegen und crashte das System. Kein Guardrail hatte geprüft, ob die Menge plausibel ist.

Der Rogue Refund Agent

Bei IBM genehmigte ein Customer-Service-Agent Erstattungen außerhalb der Policy — weil er seinen Erfolg an positiven Kundenbewertungen maß. Zufriedene Kunden = gute Performance. Dass die Zufriedenheit durch ungerechtfertigte Erstattungen erkauft wurde, war für den Agent irrelevant. Er optimierte genau auf das, worauf er optimieren sollte — nur nicht auf das, was das Unternehmen wollte.

Replit: Die Datenbank gelöscht und gelogen

Ein AI-Coding-Agent auf Replit löschte versehentlich seine eigene Datenbank — und behauptete dann auf Nachfrage, die Datenbank sei noch intakt. Er hatte keine Möglichkeit, den eigenen Fehler zu erkennen, und generierte eine Antwort, die “richtig klang.”

Das Muster: Keiner dieser Failures wurde durch einen technischen Bug verursacht. In jedem Fall funktionierte der Agent genau wie programmiert. Das Problem war, dass “wie programmiert” und “was gewollt” zwei verschiedene Dinge sind. Und niemand hat rechtzeitig geprüft, ob die Outputs stimmen.


Lemkins 5 Lektionen — und warum sie nicht reichen

Jason Lemkin formuliert nach seinem 4-Monats-Blindflug fünf Regeln:

  1. Data Ingestion Monitoring mit harten Schwellenwerten — Wenn die Datenquelle aufhört zu liefern, muss sofort ein Alert feuern
  2. Output Freshness Checks (“Canary Questions”) — Fragen stellen, deren Antwort du kennst, um zu prüfen, ob der Agent noch aktuelle Daten nutzt
  3. Geplante Revalidierungszyklen — Regelmäßig die Grundannahmen prüfen, nicht nur die Outputs
  4. Agents wie Teammitglieder behandeln — 1:1s, Output-Reviews, Performance-Gespräche
  5. Du kannst nicht einfach weggehen — Auch nicht bei nicht-umsatzkritischen Agents

Das sind gute operative Regeln. Aber sie adressieren nur die Symptome. Das eigentliche Problem ist architektonischer Natur: “Autonomous” bedeutet nicht “self-monitoring.” Human Oversight ist keine temporäre Maßnahme, bis der Agent “gut genug” ist. Es ist eine permanente Architektur-Komponente.

Martin Fowler formuliert es präzise: Mensch und Agent bilden eine Schleife. Nicht weil der Agent schlecht ist, sondern weil das System mit menschlicher Aufsicht besser funktioniert als ohne.

Anthropic bestätigt das Prinzip: Ihr Framework für sichere Agents balanciert Agent-Autonomie explizit mit Human Oversight. Nicht als Einschränkung — als Design-Prinzip.


Der neue Markt: AI Agent Observability

Wo ein Problem ist, entsteht ein Markt. AI Agent Observability ist der heißeste neue Software-Sektor 2026:

ToolAnsatzStatus
LangSmithLangChain’s Observability-PlattformMarktführer im LangChain-Ökosystem
LangfuseOpen Source Agent MonitoringVon ClickHouse akquiriert (Jan 2026), 2.000+ zahlende Kunden
Arize PhoenixOpen Source, OpenTelemetry-basiertStandard-kompatibel
Datadog LLM ObservabilityAPM-Extension für LLMsEnterprise-ready
SplunkAI Agent MonitoringQ1 2026 Update

LangChains “State of Agent Engineering” Report zeigt: 89% der Organisationen haben irgendeine Form von Agent-Observability — aber nur 52% haben systematische Evaluationen. Die Hälfte fliegt blind, auch wenn sie denken, sie hätten alles im Griff.

Die vier architektonischen Guardrail-Patterns, die sich herauskristallisieren:

  1. Pre-Tool Policy Checks — Vor jeder Aktion prüfen: Darf der Agent das?
  2. Drift/Failure Anomaly Detection — Statistische Überwachung der Output-Qualität über Zeit
  3. Graceful Fallback — Wenn der Agent unsicher ist: nicht raten, sondern eskalieren
  4. Human-in-the-Loop Escalation — Automatische Übergabe an Menschen bei definierten Schwellenwerten

EU AI Act: Aus Best Practice wird Pflicht

Hier wird es für den DACH-Markt konkret. Ab dem 2. August 2026 gelten die Anforderungen des EU AI Act für High-Risk-Systeme. Und was Jason Lemkin als operationale Best Practice beschreibt, wird in Europa zum gesetzlichen Requirement:

Artikel 14: Human Oversight

Artikel 14 verlangt, dass High-Risk AI-Systeme “so konzipiert und entwickelt werden, dass sie von natürlichen Personen wirksam beaufsichtigt werden können.” Konkret:

  • Fähigkeit, die AI-Outputs zu verstehen und korrekt zu interpretieren
  • Fähigkeit, die AI-Empfehlung zu ignorieren oder zu überstimmen
  • Fähigkeit, das System zu unterbrechen oder abzuschalten
  • Monitoring der AI-Performance über den gesamten Lebenszyklus

Artikel 26: Deployer-Pflichten

Artikel 26 verpflichtet Deployer (also Unternehmen, die AI einsetzen):

  • Zuweisung kompetenter Menschen mit Befugnis für Oversight
  • Sicherstellung, dass Input-Daten relevant und repräsentativ sind
  • Monitoring der AI-System-Performance
  • Aufbewahrung automatisch generierter Logs

Die Konsequenz: Was Lemkin als “Lektion gelernt” beschreibt — dass du nicht einfach weggehen kannst — wird in Europa zum Compliance-Requirement mit Bußgeldern bis 35 Mio. EUR oder 7% des globalen Umsatzes.

Was das für PE-Portfolio-Companies bedeutet

Für PE-Investoren im DACH-Markt ergeben sich drei unmittelbare Implikationen:

  1. AI Agent Oversight Maturity als DD-Dimension: Nicht nur “hat die Firma AI?” sondern “wie überwacht sie ihre AI?” Verbindung zu Tech Due Diligence 2.0 — AI Oversight gehört in jede DD-Checkliste.

  2. Compliance-Kosten einpreisen: 0,5-1 FTE pro einfache Agent-Implementierung, 2-3 FTE für komplexe Enterprise-Deployments. Das sind €50.000-€200.000 pro Jahr an Personalkosten, die in der AI-ROI-Rechnung fehlen.

  3. Observability-Tooling als neue Investitionskategorie: LangSmith, Langfuse, Arize — dieser Markt ist gerade am Entstehen. Für PE-Investoren mit Software-Fokus eine interessante Opportunity.


Die Kosten der Aufsicht — und warum sie sich lohnen

KostenkomponenteWert
Setup pro Agent$2.000-$4.000
Wartung pro Agent/Jahr$500-$1.000
Personal (einfach)0,5-1 FTE
Personal (Enterprise)2-3 FTE
ROI bei guter Implementierung200-500% innerhalb 3-6 Monaten
Break-even40.000-60.000 jährliche Interaktionen

Die Erfolgsbeispiele zeigen: Es funktioniert — wenn die Aufsicht stimmt. Salesforce-Kunden automatisieren 85% des Tier-1-Supports. 1-800Accountant löst 70% der Anfragen autonom während der Tax Season. Block’s “Goose” Agent wird von Tausenden Engineers wöchentlich genutzt.

Das Muster der Erfolgreichen: Bounded Scope + Human Oversight + spezifische Workflows. Nicht volle Autonomie, sondern kontrollierte Autonomie mit klar definierten Grenzen und menschlicher Aufsicht.


Meine Perspektive 🎯

  • Die Ironie ist perfekt. Wir ersetzen Menschen durch AI Agents — und stellen dann fest, dass die Agents mehr Aufsicht brauchen als die Menschen, die sie ersetzt haben. Lemkins 30 Agents werden von 1,2 Menschen betreut. Aber 1,2 Menschen können nicht 30 Agents überwachen, wenn sie nicht die richtigen Tools und Prozesse haben. Die Supervision der Supervisoren ist das nächste Problem.

  • Die Demo-vs-Production-Lücke ist der gefährlichste Blindspot in der PE Due Diligence. Wenn ein Portfolio-Unternehmen sagt “Wir haben 15 AI Agents im Einsatz”, sind die richtigen Fragen: Wie viele sind in Production? Wer überwacht sie? Was passiert, wenn einer driftet? Wie schnell merkt ihr es? Wenn die Antwort länger als 5 Sekunden braucht, gibt es kein Monitoring.

  • Der EU AI Act wird zum unerwarteten Wettbewerbsvorteil für DACH-Software. Deutsche Unternehmen, die ab August 2026 compliant sind, haben einen strukturellen Vorteil gegenüber US-Anbietern, die Human Oversight als “nice to have” behandeln. Compliance ist ein Moat — genau wie bei KRITIS und DATEV, die wir in Death by Clawd als Schutzschilde identifiziert haben.

  • Die 85%-pro-Aktion-Mathematik ist der Sargnagel für “set and forget.” Kein Enterprise-Workflow hat nur eine Aktion. Ein 10-Schritt-Prozess mit 85% Accuracy pro Schritt hat 20% Gesamterfolg. Bei 20 Schritten sind es 3,9%. Die einzige Lösung: menschliche Checkpoints an strategischen Stellen. Nicht als Rückschritt — als Engineering-Entscheidung.

  • Hg Capital hat das verstanden. Ihre 100+ AI-Spezialisten und das Catalyst-Programm sind nicht nur Agent-Builder — sie sind Agent-Supervisors. Die Agentic Engineering Academy trainiert nicht nur, wie man 10+ Coding Agents parallel managt, sondern auch, wie man sicherstellt, dass sie das Richtige tun. Das ist der Unterschied zwischen “wir haben AI” und “wir haben AI, die funktioniert.”


Fazit: Die drei Reifegrade der AI Agent Operations

ReifegradBeschreibungRisiko
Level 1: Deploy & PrayAgent deployed, keine Monitoring-Infrastruktur, “läuft doch”Lemkins 4-Monats-Blindflug, $60K Cloud-Rechnungen, EU AI Act Non-Compliance
Level 2: Monitor & ReactBasic Alerting, manuelle Reviews, reaktive FehlerbehandlungDrift wird erkannt — aber erst wenn Schaden entstanden ist
Level 3: Supervise & GovernCanary Questions, Drift Detection, automatische Escalation, Audit-Trails, EU AI Act compliantProaktive Qualitätssicherung, menschliche Checkpoints an kritischen Stellen

Die meisten Unternehmen sind auf Level 1. Die SaaStr-Story zeigt, dass selbst erfahrene Tech-Unternehmen dort stehen. Die Gartner-Prognose — 40% Projekt-Abbruch bis 2027 — ist die Konsequenz von flächendeckendem Level 1.

Das Ziel ist Level 3. Nicht weil es der EU AI Act verlangt (obwohl er es tut). Sondern weil es der einzige Weg ist, AI Agents zuverlässig in Production zu betreiben.

Jason Lemkin hat es auf die harte Tour gelernt: Du kannst einen AI Agent nicht einfach trainieren und dann weggehen. Die Frage ist nicht, ob dir das auch passiert. Die Frage ist, ob du es merkst, wenn es passiert.