LiteLLM

LiteLLM ist ein Open-Source-Gateway und Python-SDK des US-Startups BerriAI, das den Zugriff auf über 100 LLM-Anbieter (OpenAI, Anthropic, Google, Azure, AWS Bedrock, Mistral, Cohere, lokale Modelle) hinter einer einheitlichen OpenAI-kompatiblen API bündelt. Entwickler:innen und Plattform-Teams nutzen LiteLLM, um Modell-Anbieter ohne Code-Änderung zu wechseln, Budgets pro Team zu deckeln, Fallbacks zu definieren und Kosten zentral zu tracken. Mit über 15.000 GitHub-Stars und einer aktiven Community ist LiteLLM zu einer der meistgenutzten LLM-Gateway-Lösungen geworden.

Überblick

Typ: LLM-Gateway / Proxy / Python-SDK
Anbieter: BerriAI Inc.
Gegründet: 2023
Hauptsitz: San Francisco, USA
Lizenz: MIT (Open Source Core) + kommerzielle Enterprise-Edition
Website: litellm.ai
GitHub: BerriAI/litellm
Geschäftsmodell: Open-Source-Core, Enterprise-Lizenz für Single Sign-On, Audit Logs, SLA-Support
Sprache/Stack: Python (FastAPI für den Proxy-Server)

Produkte und Funktionen

LiteLLM besteht aus zwei eng verzahnten Komponenten:

LiteLLM SDK (Python-Bibliothek)

Drop-in-Ersatz für das OpenAI-SDK. Ein Aufruf litellm.completion(model="claude-opus-4-7", ...) oder model="gemini/gemini-2.0-flash" funktioniert identisch wie openai.ChatCompletion.create(). Das SDK normalisiert Request- und Response-Formate, sodass Anwendungen den Anbieter wechseln können, ohne Code anzupassen.

LiteLLM Proxy (Gateway-Server)

Ein selbst gehosteter FastAPI-Server, der als zentraler Gateway zwischen Anwendung und LLM-Anbietern sitzt. Funktionen:

Feature	Beschreibung
Virtual Keys	Pro-Team-API-Keys mit Rate Limits und Budgets
Load Balancing	Round-Robin und latenzbasiertes Routing über mehrere Deployments
Fallbacks	Automatischer Modell-Wechsel bei Rate Limits oder Ausfällen
Cost Tracking	Token-genaue Abrechnung pro Key, User, Team
Caching	Redis-basiertes Response-Caching
Logging	Integrationen mit Langfuse, Helicone, Datadog, OpenTelemetry, Slack
Guardrails	Prompt-Injection-Schutz, PII-Filter über Lakera, Aporia, Bedrock Guardrails
Observability	Prometheus-Metriken, Spend-Reports, Audit-Logs

Unterstützte Anbieter (Auswahl)

OpenAI, Azure OpenAI, Anthropic Claude, Google Gemini/Vertex AI, AWS Bedrock, Cohere, Mistral, Together AI, Replicate, Hugging Face, Ollama, vLLM, Groq, Perplexity, DeepSeek, xAI Grok sowie sämtliche selbst gehosteten OpenAI-kompatiblen Endpunkte.

Geschichte und Entwicklung

LiteLLM wurde 2023 von Ishaan Jaffer und Krrish Dholakia in San Francisco gegründet. Die beiden hatten zuvor an internen Tools bei Klarna und anderen Unternehmen gearbeitet und stießen wiederholt auf das gleiche Problem: Jeder LLM-Anbieter brachte ein eigenes SDK, eigene Fehlercodes, eigene Token-Counting-Logik. Statt für jedes Modell-Update den Anwendungscode anzufassen, schrieben sie eine Abstraktionsschicht.

Meilensteine:

2023: Erste Veröffentlichung auf GitHub, Aufnahme in den Y Combinator Winter-2023-Batch
2024: Proxy-Server wird zur Hauptkomponente, Enterprise-Edition mit SSO, RBAC und Audit-Logs
2024: Über 10.000 GitHub-Stars, Adoption bei Adobe, Lemonade, Rocket Money, Netflix-Teams (laut eigenen Case Studies)
2025: MCP-Support, Skills-Integration, Erweiterung um Embedding- und Reranker-Modelle

Die Community-Frequenz ist hoch: wöchentliche Releases, Discord mit mehreren Tausend Mitgliedern, breite Akzeptanz in der LangChain-, LlamaIndex- und Agent-Framework-Welt.

Team und Führung

Rolle	Name
CEO & Co-Founder	Krrish Dholakia
CTO & Co-Founder	Ishaan Jaffer

Das Team ist klein (Größenordnung 10-15 Personen, Stand 2026), verteilt remote mit Schwerpunkt San Francisco. Der Großteil der Code-Beiträge kommt von den Gründern und einer aktiven Open-Source-Community mit über 500 Contributor:innen.

Investoren und Eigentümer

BerriAI durchlief den Y Combinator Winter-2023-Batch und sammelte anschließend Seed-Kapital ein. Bekannte Investoren:

Y Combinator (W23)
Gradient Ventures (Google-Backed VC)
Weitere Angels aus dem YC-Netzwerk

Eine größere Series-A-Runde wurde bislang nicht öffentlich kommuniziert. Es handelt sich um ein VC-finanziertes Startup, nicht um ein Private-Equity-Investment — eine Exit-Prognose auf Basis von Fonds-Vintages ist daher nicht anwendbar.

Einordnung im Markt

LiteLLM steht im Zentrum des Themas AI Gateway beziehungsweise LLM Router — einer noch jungen Kategorie, in der mehrere Ansätze konkurrieren:

Lösung	Schwerpunkt	Open Source
LiteLLM	Self-hosted Proxy + Python-SDK, breitester Anbieter-Support	Ja (MIT)
Portkey	Hosted Gateway mit Guardrails und Prompt-Management	Teilweise
Helicone	Observability-first, Proxy als Add-on	Ja (Apache 2.0)
OpenRouter	Hosted Multi-Provider-API mit Pay-as-you-go	Nein
Vercel AI Gateway	Hosted Routing für Next.js-Apps, eingebettet in Vercel	Nein
Cloudflare AI Gateway	Edge-basiertes Caching und Logging	Nein

Im DACH-Raum existieren zur AI-Gateway-Schicht eigene Anbieter aus der Observability- und MLOps-Ecke (etwa Langfuse aus Berlin), die jedoch komplementär einsetzbar sind — Langfuse als Tracing-Backend hinter dem LiteLLM-Proxy ist eine verbreitete Kombination.

Typische Einsatzfelder

Enterprise-AI-Plattformen: Zentraler Gateway mit Budget-Kontrolle pro Fachbereich
Agent-Frameworks: Modell-Wechsel zur Laufzeit ohne Code-Änderung
Multi-Cloud-Setups: Failover zwischen Azure OpenAI, AWS Bedrock und Google Vertex
Kostenoptimierung: Routing günstiger Modelle für einfache Tasks, teurer Modelle nur bei Bedarf
Compliance: EU-Datenresidenz durch Routing ausschließlich auf europäische Azure- oder Mistral-Endpunkte

Konkurrenz

Portkey (San Francisco / Bangalore)
Helicone (San Francisco, YC W23)
OpenRouter (San Francisco)
Vercel AI Gateway (Bestandteil der Vercel-Plattform)
Cloudflare AI Gateway
Kong AI Gateway (Erweiterung des Kong API Gateway)
TrueFoundry, Martian, Not Diamond (Routing-spezialisiert)
Cloud-native Lösungen wie Azure AI Foundry und AWS Bedrock Inference Profiles decken Teile der Funktionalität anbieter-intern ab