LiteLLM
LiteLLM ist ein Open-Source-Gateway und Python-SDK des US-Startups BerriAI, das den Zugriff auf über 100 LLM-Anbieter (OpenAI, Anthropic, Google, Azure,...
- Aktualisiert
- 4.6.2026
LiteLLM
LiteLLM ist ein Open-Source-Gateway und Python-SDK des US-Startups BerriAI, das den Zugriff auf über 100 LLM-Anbieter (OpenAI, Anthropic, Google, Azure, AWS Bedrock, Mistral, Cohere, lokale Modelle) hinter einer einheitlichen OpenAI-kompatiblen API bündelt. Entwickler:innen und Plattform-Teams nutzen LiteLLM, um Modell-Anbieter ohne Code-Änderung zu wechseln, Budgets pro Team zu deckeln, Fallbacks zu definieren und Kosten zentral zu tracken. Mit über 15.000 GitHub-Stars und einer aktiven Community ist LiteLLM zu einer der meistgenutzten LLM-Gateway-Lösungen geworden.
Überblick
- Typ: LLM-Gateway / Proxy / Python-SDK
- Anbieter: BerriAI Inc.
- Gegründet: 2023
- Hauptsitz: San Francisco, USA
- Lizenz: MIT (Open Source Core) + kommerzielle Enterprise-Edition
- Website: litellm.ai
- GitHub: BerriAI/litellm
- Geschäftsmodell: Open-Source-Core, Enterprise-Lizenz für Single Sign-On, Audit Logs, SLA-Support
- Sprache/Stack: Python (FastAPI für den Proxy-Server)
Produkte und Funktionen
LiteLLM besteht aus zwei eng verzahnten Komponenten:
LiteLLM SDK (Python-Bibliothek)
Drop-in-Ersatz für das OpenAI-SDK. Ein Aufruf litellm.completion(model="claude-opus-4-7", ...) oder model="gemini/gemini-2.0-flash" funktioniert identisch wie openai.ChatCompletion.create(). Das SDK normalisiert Request- und Response-Formate, sodass Anwendungen den Anbieter wechseln können, ohne Code anzupassen.
LiteLLM Proxy (Gateway-Server)
Ein selbst gehosteter FastAPI-Server, der als zentraler Gateway zwischen Anwendung und LLM-Anbietern sitzt. Funktionen:
| Feature | Beschreibung |
|---|---|
| Virtual Keys | Pro-Team-API-Keys mit Rate Limits und Budgets |
| Load Balancing | Round-Robin und latenzbasiertes Routing über mehrere Deployments |
| Fallbacks | Automatischer Modell-Wechsel bei Rate Limits oder Ausfällen |
| Cost Tracking | Token-genaue Abrechnung pro Key, User, Team |
| Caching | Redis-basiertes Response-Caching |
| Logging | Integrationen mit Langfuse, Helicone, Datadog, OpenTelemetry, Slack |
| Guardrails | Prompt-Injection-Schutz, PII-Filter über Lakera, Aporia, Bedrock Guardrails |
| Observability | Prometheus-Metriken, Spend-Reports, Audit-Logs |
Unterstützte Anbieter (Auswahl)
OpenAI, Azure OpenAI, Anthropic Claude, Google Gemini/Vertex AI, AWS Bedrock, Cohere, Mistral, Together AI, Replicate, Hugging Face, Ollama, vLLM, Groq, Perplexity, DeepSeek, xAI Grok sowie sämtliche selbst gehosteten OpenAI-kompatiblen Endpunkte.
Geschichte und Entwicklung
LiteLLM wurde 2023 von Ishaan Jaffer und Krrish Dholakia in San Francisco gegründet. Die beiden hatten zuvor an internen Tools bei Klarna und anderen Unternehmen gearbeitet und stießen wiederholt auf das gleiche Problem: Jeder LLM-Anbieter brachte ein eigenes SDK, eigene Fehlercodes, eigene Token-Counting-Logik. Statt für jedes Modell-Update den Anwendungscode anzufassen, schrieben sie eine Abstraktionsschicht.
Meilensteine:
- 2023: Erste Veröffentlichung auf GitHub, Aufnahme in den Y Combinator Winter-2023-Batch
- 2024: Proxy-Server wird zur Hauptkomponente, Enterprise-Edition mit SSO, RBAC und Audit-Logs
- 2024: Über 10.000 GitHub-Stars, Adoption bei Adobe, Lemonade, Rocket Money, Netflix-Teams (laut eigenen Case Studies)
- 2025: MCP-Support, Skills-Integration, Erweiterung um Embedding- und Reranker-Modelle
Die Community-Frequenz ist hoch: wöchentliche Releases, Discord mit mehreren Tausend Mitgliedern, breite Akzeptanz in der LangChain-, LlamaIndex- und Agent-Framework-Welt.
Team und Führung
| Rolle | Name |
|---|---|
| CEO & Co-Founder | Krrish Dholakia |
| CTO & Co-Founder | Ishaan Jaffer |
Das Team ist klein (Größenordnung 10-15 Personen, Stand 2026), verteilt remote mit Schwerpunkt San Francisco. Der Großteil der Code-Beiträge kommt von den Gründern und einer aktiven Open-Source-Community mit über 500 Contributor:innen.
Investoren und Eigentümer
BerriAI durchlief den Y Combinator Winter-2023-Batch und sammelte anschließend Seed-Kapital ein. Bekannte Investoren:
- Y Combinator (W23)
- Gradient Ventures (Google-Backed VC)
- Weitere Angels aus dem YC-Netzwerk
Eine größere Series-A-Runde wurde bislang nicht öffentlich kommuniziert. Es handelt sich um ein VC-finanziertes Startup, nicht um ein Private-Equity-Investment — eine Exit-Prognose auf Basis von Fonds-Vintages ist daher nicht anwendbar.
Einordnung im Markt
LiteLLM steht im Zentrum des Themas AI Gateway beziehungsweise LLM Router — einer noch jungen Kategorie, in der mehrere Ansätze konkurrieren:
| Lösung | Schwerpunkt | Open Source |
|---|---|---|
| LiteLLM | Self-hosted Proxy + Python-SDK, breitester Anbieter-Support | Ja (MIT) |
| Portkey | Hosted Gateway mit Guardrails und Prompt-Management | Teilweise |
| Helicone | Observability-first, Proxy als Add-on | Ja (Apache 2.0) |
| OpenRouter | Hosted Multi-Provider-API mit Pay-as-you-go | Nein |
| Vercel AI Gateway | Hosted Routing für Next.js-Apps, eingebettet in Vercel | Nein |
| Cloudflare AI Gateway | Edge-basiertes Caching und Logging | Nein |
Im DACH-Raum existieren zur AI-Gateway-Schicht eigene Anbieter aus der Observability- und MLOps-Ecke (etwa Langfuse aus Berlin), die jedoch komplementär einsetzbar sind — Langfuse als Tracing-Backend hinter dem LiteLLM-Proxy ist eine verbreitete Kombination.
Typische Einsatzfelder
- Enterprise-AI-Plattformen: Zentraler Gateway mit Budget-Kontrolle pro Fachbereich
- Agent-Frameworks: Modell-Wechsel zur Laufzeit ohne Code-Änderung
- Multi-Cloud-Setups: Failover zwischen Azure OpenAI, AWS Bedrock und Google Vertex
- Kostenoptimierung: Routing günstiger Modelle für einfache Tasks, teurer Modelle nur bei Bedarf
- Compliance: EU-Datenresidenz durch Routing ausschließlich auf europäische Azure- oder Mistral-Endpunkte
Konkurrenz
- Portkey (San Francisco / Bangalore)
- Helicone (San Francisco, YC W23)
- OpenRouter (San Francisco)
- Vercel AI Gateway (Bestandteil der Vercel-Plattform)
- Cloudflare AI Gateway
- Kong AI Gateway (Erweiterung des Kong API Gateway)
- TrueFoundry, Martian, Not Diamond (Routing-spezialisiert)
- Cloud-native Lösungen wie Azure AI Foundry und AWS Bedrock Inference Profiles decken Teile der Funktionalität anbieter-intern ab