The Playbook
Produkt

LiteLLM

LiteLLM ist ein Open-Source-Gateway und Python-SDK des US-Startups BerriAI, das den Zugriff auf über 100 LLM-Anbieter (OpenAI, Anthropic, Google, Azure,...

Aktualisiert
4.6.2026

LiteLLM

LiteLLM ist ein Open-Source-Gateway und Python-SDK des US-Startups BerriAI, das den Zugriff auf über 100 LLM-Anbieter (OpenAI, Anthropic, Google, Azure, AWS Bedrock, Mistral, Cohere, lokale Modelle) hinter einer einheitlichen OpenAI-kompatiblen API bündelt. Entwickler:innen und Plattform-Teams nutzen LiteLLM, um Modell-Anbieter ohne Code-Änderung zu wechseln, Budgets pro Team zu deckeln, Fallbacks zu definieren und Kosten zentral zu tracken. Mit über 15.000 GitHub-Stars und einer aktiven Community ist LiteLLM zu einer der meistgenutzten LLM-Gateway-Lösungen geworden.

Überblick

  • Typ: LLM-Gateway / Proxy / Python-SDK
  • Anbieter: BerriAI Inc.
  • Gegründet: 2023
  • Hauptsitz: San Francisco, USA
  • Lizenz: MIT (Open Source Core) + kommerzielle Enterprise-Edition
  • Website: litellm.ai
  • GitHub: BerriAI/litellm
  • Geschäftsmodell: Open-Source-Core, Enterprise-Lizenz für Single Sign-On, Audit Logs, SLA-Support
  • Sprache/Stack: Python (FastAPI für den Proxy-Server)

Produkte und Funktionen

LiteLLM besteht aus zwei eng verzahnten Komponenten:

LiteLLM SDK (Python-Bibliothek)

Drop-in-Ersatz für das OpenAI-SDK. Ein Aufruf litellm.completion(model="claude-opus-4-7", ...) oder model="gemini/gemini-2.0-flash" funktioniert identisch wie openai.ChatCompletion.create(). Das SDK normalisiert Request- und Response-Formate, sodass Anwendungen den Anbieter wechseln können, ohne Code anzupassen.

LiteLLM Proxy (Gateway-Server)

Ein selbst gehosteter FastAPI-Server, der als zentraler Gateway zwischen Anwendung und LLM-Anbietern sitzt. Funktionen:

FeatureBeschreibung
Virtual KeysPro-Team-API-Keys mit Rate Limits und Budgets
Load BalancingRound-Robin und latenzbasiertes Routing über mehrere Deployments
FallbacksAutomatischer Modell-Wechsel bei Rate Limits oder Ausfällen
Cost TrackingToken-genaue Abrechnung pro Key, User, Team
CachingRedis-basiertes Response-Caching
LoggingIntegrationen mit Langfuse, Helicone, Datadog, OpenTelemetry, Slack
GuardrailsPrompt-Injection-Schutz, PII-Filter über Lakera, Aporia, Bedrock Guardrails
ObservabilityPrometheus-Metriken, Spend-Reports, Audit-Logs

Unterstützte Anbieter (Auswahl)

OpenAI, Azure OpenAI, Anthropic Claude, Google Gemini/Vertex AI, AWS Bedrock, Cohere, Mistral, Together AI, Replicate, Hugging Face, Ollama, vLLM, Groq, Perplexity, DeepSeek, xAI Grok sowie sämtliche selbst gehosteten OpenAI-kompatiblen Endpunkte.

Geschichte und Entwicklung

LiteLLM wurde 2023 von Ishaan Jaffer und Krrish Dholakia in San Francisco gegründet. Die beiden hatten zuvor an internen Tools bei Klarna und anderen Unternehmen gearbeitet und stießen wiederholt auf das gleiche Problem: Jeder LLM-Anbieter brachte ein eigenes SDK, eigene Fehlercodes, eigene Token-Counting-Logik. Statt für jedes Modell-Update den Anwendungscode anzufassen, schrieben sie eine Abstraktionsschicht.

Meilensteine:

  • 2023: Erste Veröffentlichung auf GitHub, Aufnahme in den Y Combinator Winter-2023-Batch
  • 2024: Proxy-Server wird zur Hauptkomponente, Enterprise-Edition mit SSO, RBAC und Audit-Logs
  • 2024: Über 10.000 GitHub-Stars, Adoption bei Adobe, Lemonade, Rocket Money, Netflix-Teams (laut eigenen Case Studies)
  • 2025: MCP-Support, Skills-Integration, Erweiterung um Embedding- und Reranker-Modelle

Die Community-Frequenz ist hoch: wöchentliche Releases, Discord mit mehreren Tausend Mitgliedern, breite Akzeptanz in der LangChain-, LlamaIndex- und Agent-Framework-Welt.

Team und Führung

RolleName
CEO & Co-FounderKrrish Dholakia
CTO & Co-FounderIshaan Jaffer

Das Team ist klein (Größenordnung 10-15 Personen, Stand 2026), verteilt remote mit Schwerpunkt San Francisco. Der Großteil der Code-Beiträge kommt von den Gründern und einer aktiven Open-Source-Community mit über 500 Contributor:innen.

Investoren und Eigentümer

BerriAI durchlief den Y Combinator Winter-2023-Batch und sammelte anschließend Seed-Kapital ein. Bekannte Investoren:

  • Y Combinator (W23)
  • Gradient Ventures (Google-Backed VC)
  • Weitere Angels aus dem YC-Netzwerk

Eine größere Series-A-Runde wurde bislang nicht öffentlich kommuniziert. Es handelt sich um ein VC-finanziertes Startup, nicht um ein Private-Equity-Investment — eine Exit-Prognose auf Basis von Fonds-Vintages ist daher nicht anwendbar.

Einordnung im Markt

LiteLLM steht im Zentrum des Themas AI Gateway beziehungsweise LLM Router — einer noch jungen Kategorie, in der mehrere Ansätze konkurrieren:

LösungSchwerpunktOpen Source
LiteLLMSelf-hosted Proxy + Python-SDK, breitester Anbieter-SupportJa (MIT)
PortkeyHosted Gateway mit Guardrails und Prompt-ManagementTeilweise
HeliconeObservability-first, Proxy als Add-onJa (Apache 2.0)
OpenRouterHosted Multi-Provider-API mit Pay-as-you-goNein
Vercel AI GatewayHosted Routing für Next.js-Apps, eingebettet in VercelNein
Cloudflare AI GatewayEdge-basiertes Caching und LoggingNein

Im DACH-Raum existieren zur AI-Gateway-Schicht eigene Anbieter aus der Observability- und MLOps-Ecke (etwa Langfuse aus Berlin), die jedoch komplementär einsetzbar sind — Langfuse als Tracing-Backend hinter dem LiteLLM-Proxy ist eine verbreitete Kombination.

Typische Einsatzfelder

  • Enterprise-AI-Plattformen: Zentraler Gateway mit Budget-Kontrolle pro Fachbereich
  • Agent-Frameworks: Modell-Wechsel zur Laufzeit ohne Code-Änderung
  • Multi-Cloud-Setups: Failover zwischen Azure OpenAI, AWS Bedrock und Google Vertex
  • Kostenoptimierung: Routing günstiger Modelle für einfache Tasks, teurer Modelle nur bei Bedarf
  • Compliance: EU-Datenresidenz durch Routing ausschließlich auf europäische Azure- oder Mistral-Endpunkte

Konkurrenz

  • Portkey (San Francisco / Bangalore)
  • Helicone (San Francisco, YC W23)
  • OpenRouter (San Francisco)
  • Vercel AI Gateway (Bestandteil der Vercel-Plattform)
  • Cloudflare AI Gateway
  • Kong AI Gateway (Erweiterung des Kong API Gateway)
  • TrueFoundry, Martian, Not Diamond (Routing-spezialisiert)
  • Cloud-native Lösungen wie Azure AI Foundry und AWS Bedrock Inference Profiles decken Teile der Funktionalität anbieter-intern ab

Quellen