Pharia-1-LLM-7B-control

Pharia-1-LLM-7B-control ist ein großes Sprachmodell (Large Language Model, LLM) mit 7 Milliarden Parametern, das vom deutschen KI-Unternehmen Aleph Alpha entwickelt wurde. Es wurde am 26. August 2024 gleichzeitig mit dem Start der PhariaAI-Plattform veröffentlicht und richtet sich primär an Unternehmen und Behörden mit hohen Anforderungen an Datensouveränität, Compliance und Erklärbarkeit. Das Modell ist als instruction-getunte Variante ohne Safety-Alignment konzipiert und damit besonders für unternehmenskritische Anwendungen geeignet, bei denen unerwünschte Ablehnungsverhalten vermieden werden sollen.

Überblick

Typ: Large Language Model (LLM), instruction-tuned, ohne Safety-Alignment
Parameter: 7.041.544.704 (~7 Milliarden)
Architektur: Autoregressive Decoder-only Transformer
Veröffentlichung: 26. August 2024
Entwickler: Aleph Alpha, Heidelberg
Lizenz: Open Aleph License (nicht-kommerzielle Forschung und Bildung)
Kontextfenster: 8.192 Token
Sprachen: Optimiert für Deutsch, Englisch, Französisch, Spanisch, Italienisch
Verfügbar auf: Hugging Face
Dokumentation: docs.aleph-alpha.com

Produkt und Varianten

Pharia-1-LLM-7B-control gehört zur Pharia-1-Modellfamilie und ist die Kernvariante für industrielle und behördliche Anwendungen. Die Familie umfasst zwei Hauptvarianten:

Modell	Safety-Alignment	Empfohlener Einsatz
Pharia-1-LLM-7B-control	Keines	Unternehmenskritische Prozesse, Automatisierung
Pharia-1-LLM-7B-control-aligned	KTO-Methode	Chat-Schnittstellen, Endanwender-Applikationen

Das Modell ist in das übergeordnete PhariaAI-Ökosystem eingebettet, das folgende weitere Produkte umfasst:

PhariaAssistant — Chat-Interface für Wissensarbeiter (Zusammenfassung, Extraktion, Übersetzung)
PhariaStudio — Entwicklungsumgebung für Aufbau, Debugging, Fine-tuning und Evaluation
PhariaOS — Sichere Betriebsumgebung für Deployment und Skalierung von LLM-Workloads
PhariaCatch — Wissenserfassung durch Mensch-Maschine-Kollaboration

Pharia-1-LLM-7B-control löst die ältere Luminous-Modellreihe (13B, 30B, 70B Parameter) ab, die Aleph Alpha seit 2022 angeboten hatte.

Technische Spezifikationen

Parameter	Wert
Gesamtparameter	~7,04 Milliarden
Schichten (Layers)	27
Attention Heads	36
Key-Value Heads	4 (Grouped-Query Attention)
Hidden Dimension	4.608
Vokabular	128.000 Token (Unigram SentencePiece)
Kontextfenster	8.192 Token
Positional Embeddings	RoPE (Basis 1.000.000)
Präzision	bfloat16
Trainingsdaten	7,7 Billionen Token (bis April 2023)
Rechenaufwand	~4,43 × 10²³ FLOPs

Das Training erfolgte in zwei Phasen: Phase 1 auf 256 NVIDIA A100-GPUs mit 4,7 Billionen Token, Phase 2 auf 256 H100-GPUs mit weiteren 3 Billionen Token. Aleph Alpha betont, dass das gesamte Training mit 100 % erneuerbarer Energie durchgeführt wurde.

Sprachverteilung im Trainingsdatensatz

Sprache	Anteil
Englisch	66,7 %
Spanisch	9,8 %
Deutsch	8,5 %
Französisch	8,4 %
Italienisch	4,9 %
Weitere	1,7 %

Ein technisches Alleinstellungsmerkmal: Aleph Alpha veröffentlichte neben den Modellgewichten auch den vollständigen Trainings-Quellcode (die sog. „Scaling Codebase”) unter der Open Aleph License — ein in der Industrie seltenes Maß an Transparenz.

Stärken und Anwendungsfälle

Das Modell ist speziell auf Längenkontrolle ausgelegt: Es erzielt bei Benchmarks zur Einhaltung von Antwortlängen einen absolut normalisierten Abstand von 70 % zum Zielwert. Im AlpacaEval-2.0-Benchmark übertrifft Pharia-1-LLM-7B-control sowohl Mistral-7B als auch Llama-3.1-8B in europäischsprachigen Aufgaben:

Sprache	Pharia	Mistral-7B	Llama-3.1-8B
Deutsch	55,5 %	~41 %	~43 %
Französisch	~54 %	~40 %	~42 %
Englisch	~49 %	~51 %	~52 %

Typische Anwendungsfälle:

Dokumentenklassifizierung und -extraktion
Automatische Zusammenfassungen
Frage-Antwort-Systeme über interne Wissensdatenbanken (RAG)
Vertragsanalyse und Compliance-Prüfung (z. B. DORA)
Engineering- und Automotive-Dokumentation
KI-Assistenten für öffentliche Verwaltungen

Geschichte und Entwicklung

Aleph Alpha wurde im Januar 2019 von Jonas Andrulis (ehemaliger Apple-R&D-Manager) und Samuel Weinbach in Heidelberg gegründet. Das Unternehmen positionierte sich von Beginn an als europäische Alternative zu US-amerikanischen KI-Hyperscalern mit Fokus auf Souveränität, Erklärbarkeit und regulatorische Konformität.

Nach der Luminous-Modellreihe (ab 2022) startete Aleph Alpha am 26. August 2024 mit der Veröffentlichung von Pharia-1-LLM-7B-control und -aligned eine neue Produktgeneration. Gleichzeitig wurde die PhariaAI-Plattform als Enterprise-Betriebssystem für generative KI angekündigt.

Im Oktober 2025 trat Gründer Jonas Andrulis als Geschäftsführer zurück und wechselte in den Beirat. Ab Januar 2026 führen Reto Spoerri (ehemals Schwarz Group / Lidl E-Commerce) und Ilhan Scheer (ehemals Accenture) gemeinsam das Unternehmen, was den wachsenden Einfluss des Investors Schwarz Group widerspiegelt.

Führung

Name	Rolle
Reto Spoerri	Geschäftsführer (ab Januar 2026)
Ilhan Scheer	Geschäftsführer (ab Januar 2026)
Jonas Andrulis	Gründer, Beirat (bis Oktober 2025 CEO)
Samuel Weinbach	Mitgründer

Investoren und Eigentümer

Aleph Alpha schloss im November 2023 eine Series-B-Runde mit einem Gesamtvolumen von über 500 Millionen USD ab. Die wichtigsten Kapitalgeber:

Investor	Rolle
Bosch Ventures	Co-Lead (Series B)
Schwarz Group (Lidl/Kaufland)	Strategischer Investor, wachsender Einfluss
SAP	Strategischer Investor
Hewlett Packard Enterprise (HPE)	Strategischer Investor
Christ&Company Consulting	Investor
Burda Principal Investments	Investor

Da es sich bei den Investoren um strategische Unternehmenspartner und Corporate-VC-Strukturen handelt (kein klassischer PE-Fonds mit Vintage-Jahr), ist keine Exit-Prognose nach der PE-Fondsformel möglich.

Konkurrenz

Pharia-1-LLM-7B-control konkurriert auf dem Markt für europäische Enterprise-LLMs mit folgenden Anbietern:

Wettbewerber	Herkunft	Modelle
Mistral AI	Frankreich	Mistral-7B, Mixtral, Mistral Large
Meta	USA	Llama-3.1-8B, Llama-3-70B
OpenAI	USA	GPT-4o, GPT-4 Turbo
Anthropic	USA	Claude 3.5 Sonnet, Claude 3 Opus
Google DeepMind	USA	Gemini 1.5 Pro, Gemini Flash

Gegenüber US-amerikanischen Anbietern differenziert sich Pharia-1-LLM-7B-control durch DSGVO-Konformität, europäische Datensouveränität und das Training ausschließlich auf Grundlage europäisch konformer Quellen. Im direkten Vergleich mit Mistral-7B und Llama-3.1-8B erzielt das Modell bei deutschen, französischen und spanischen Aufgaben deutlich bessere Ergebnisse, liegt bei englischen Aufgaben jedoch minimal dahinter.

Quellen

[Aleph Alpha: Introducing Pharia-1-LLM](https://aleph-alpha.com/introducing-pharia-1-llm-transparent-and-compliant/) (offizielle Ankündigung, August 2024)
[Hugging Face: Pharia-1-LLM-7B-control](https://huggingface.co/Aleph-Alpha/Pharia-1-LLM-7B-control) (Modellkarte mit technischen Details)
[Aleph Alpha Docs: Pharia-1-LLM Overview](https://docs.aleph-alpha.com/products/pharia-1-llm/overview/)
[Aleph Alpha: PhariaAI Launch](https://aleph-alpha.com/aleph-alpha-launches-phariaai-the-enterprise-grade-operating-system-for-generative-ai-combining-future-proof-sovereign-design-with-llm-explainability-and-compliance/)
Aleph Alpha: Series B Finanzierung
Heise Online: Führungswechsel bei Aleph Alpha
Aleph Alpha: Open Source Scaling Codebase