Entwickler mit Laptops vor einem Community-Day-Coworking-Gebäude diskutieren über Open-Source-KI-Modelle

Open-Source-KI-Modelle schließen die Lücke zu proprietären Systemen

DeepSeek V3.2, Mistral Small 4 und Qwen 3.5 erreichen in Q1 2026 das Niveau von GPT-5 und Claude

Der Leistungsabstand zwischen Open-Source- und proprietären KI-Modellen ist von 17,5 Prozentpunkten im Jahr 2023 auf nahezu null geschrumpft. Drei Modellfamilien treiben diese Entwicklung: DeepSeek V3.2 aus China unter MIT-Lizenz, Mistral Small 4 aus Frankreich unter Apache 2.0 und Qwen 3.5 von Alibaba. Die Inferenzkosten sind in zwei Jahren um über 99 Prozent gefallen. Dieser Artikel zeigt, was die Modelle leisten, welche Risiken bestehen und was europäische Unternehmen jetzt tun sollten.

Zusammenfassung

Open-Source-KI-Modelle haben in Q1 2026 die Leistungslücke zu proprietären Systemen praktisch geschlossen. DeepSeek V3.2 erreicht mit seiner Speciale-Variante 96,0 Prozent auf AIME-2025 und übertrifft damit GPT-5 High (94,6 Prozent). Mistral Small 4 aktiviert nur 6 von 119 Milliarden Parametern pro Token und bietet 256k Kontextlänge unter Apache 2.0. Qwen 3.5 mit nur 9 Milliarden Parametern schlägt GPT-OSS-120B auf dem GPQA-Diamond-Benchmark. Die API-Kosten von DeepSeek liegen bei 0,028 USD pro Million Input-Tokens, ein Zehntel von GPT-5. Gleichzeitig zeigt der OSSRA-Bericht 2026 durchschnittlich 581 Schwachstellen pro Codebasis, und 175.108 Ollama-Instanzen sind öffentlich erreichbar. Der EU AI Act fordert ab August 2026 vollständige GPAI-Pflichten. Nur 14 Prozent der EU-Unternehmen setzten 2024 KI ein, die 19 EU AI Factories mit EuroHPC sollen das ändern.

Die Leistungslücke ist praktisch verschwunden

Der Abstand zwischen Open-Source- und proprietären LLMs hat sich seit 2023 von 17,5 Prozentpunkten auf nahezu null reduziert. Drei Modellfamilien haben diese Entwicklung vorangetrieben: DeepSeek V3.2 aus China, Mistral Small 4 aus Frankreich und Qwen 3.5 von Alibaba. Alle drei stehen unter offenen Lizenzen zur Verfügung und erreichen auf den wichtigsten Benchmarks die Leistung von GPT-5 und Claude.

17,5 PP

Leistungsabstand 2023 zwischen Open-Source und proprietär

Leistungsabstand Q1 2026 auf den meisten Benchmarks

>99%

Rückgang der Inferenzkosten in zwei Jahren

Diese Entwicklung hat Auswirkungen weit über die Technik hinaus. Unternehmen, die bisher auf proprietäre APIs angewiesen waren, haben jetzt echte Alternativen. Sie können Modelle lokal betreiben, eigene Daten einbinden und die Abhängigkeit von einzelnen Anbietern verringern. Die drei dominierenden Modellfamilien unterscheiden sich in Architektur, Lizenz und Stärken deutlich voneinander.

Mixture-of-Experts (MoE)

Eine Modellarchitektur, bei der nicht alle Parameter bei jeder Anfrage aktiviert werden. Stattdessen wählt ein Routing-Mechanismus pro Token eine kleine Gruppe von Experten aus. Das senkt den Rechenaufwand bei der Inferenz erheblich, weil nur ein Bruchteil der Gesamtparameter aktiv ist. Alle drei hier analysierten Modellfamilien verwenden MoE-Architekturen.

DeepSeek V3.2: Reasoning-Stärke unter MIT-Lizenz

DeepSeek V3.2 ist ein MoE-Modell mit 671 Milliarden Parametern und steht unter der MIT-Lizenz. Die Speciale-Variante des Modells erreicht auf dem AIME-2025-Benchmark 96,0 Prozent und übertrifft damit GPT-5 High mit 94,6 Prozent. Auf SWE-Bench, dem Benchmark für Software-Engineering-Aufgaben, liegt DeepSeek V3.2 bei 72 bis 74 Prozent.

671B

Gesamtparameter

96,0%

AIME-2025 (Speciale)

$0,028

pro Million Input-Tokens

Der Kostenvergleich ist besonders bemerkenswert. Die DeepSeek-API berechnet 0,028 USD pro Million Input-Tokens. GPT-5 kostet etwa das Zehnfache. Für Unternehmen, die große Textmengen verarbeiten, ist das ein erheblicher wirtschaftlicher Unterschied. Das gpt-oss-120b von OpenAI hat zwar eine Apache-2.0-Lizenz, liegt aber in der reinen Reasoning-Leistung hinter DeepSeek V3.2 Speciale.

DeepSeek V3.2 Speciale erreicht 96,0 Prozent auf AIME-2025 bei einem API-Preis von 0,028 USD pro Million Input-Tokens, was einem Zehntel der GPT-5-Kosten entspricht.

InfoQ / Introl, Q1 2026

Mistral Small 4: Europäisches Modell mit 128 Experten

Mistral Small 4 kommt von Mistral AI aus Paris und ist das einzige europäische Modell in dieser Analyse. Es hat 119 Milliarden Parameter insgesamt, aktiviert aber nur 6 Milliarden pro Token. Das Modell verwendet 128 Experten, von denen 4 pro Token aktiv sind. Die Kontextlänge beträgt 256.000 Tokens. Mistral Small 4 steht unter Apache 2.0 und ist damit für kommerzielle Nutzung ohne Einschränkungen verfügbar.

128 Experten, 4 aktiv

Nur 4 der 128 Experten werden pro Token aktiviert. Das senkt den Rechenaufwand bei gleichbleibender Modellkapazität und ermöglicht Betrieb auf kleinerer Hardware.

256k Kontextlänge

Mit 256.000 Tokens Kontext verarbeitet Mistral Small 4 umfangreiche Dokumente, Codebases oder lange Gesprächsverläufe ohne Informationsverlust.

Apache 2.0 aus Europa

Als französisches Unternehmen unterliegt Mistral AI europäischem Recht. Das kann für Unternehmen mit strengen Compliance-Anforderungen ein entscheidender Faktor sein.

Gegenüber dem Vorgänger bietet Mistral Small 4 laut Mistral AI 40 Prozent weniger Latenz und den dreifachen Durchsatz. Für lokale Installationen ist das besonders relevant, weil die Inferenzgeschwindigkeit direkt die Nutzererfahrung beeinflusst. Europäische Unternehmen, die einen Anbieter innerhalb der EU bevorzugen, finden in Mistral Small 4 eine leistungsstarke Option.

Mistral Small 4 aktiviert nur 6 von 119 Milliarden Parametern pro Token. Das macht ein Modell mit 119B Parametern auf Hardware betreibbar, die sonst nur für 10B-Modelle ausreicht.

Qwen 3.5: Kleine Modelle mit großer Wirkung

Die Qwen-3.5-Reihe von Alibaba zeigt, dass nicht nur große Modelle mit proprietären Systemen mithalten können. Das 9B-Modell erreicht auf dem GPQA-Diamond-Benchmark 81,7 Prozent und übertrifft damit GPT-OSS-120B mit 71,5 Prozent. Das Flaggschiff mit 397 Milliarden Gesamtparametern aktiviert nur 17 Milliarden pro Token und bietet 256k Kontext sowie Unterstützung für über 200 Sprachen.

Qwen 3.5-9B

GPQA Diamond: 81,7%

Nur 9 Milliarden Parameter

Läuft auf Consumer-Hardware

Apache 2.0 Lizenz

GPT-OSS-120B

GPQA Diamond: 71,5%

117 Milliarden Parameter

Erfordert Nvidia H100 80GB

Apache 2.0 Lizenz

Noch beeindruckender ist das kleinste Modell der Reihe. Qwen 3.5 mit 2 Milliarden Parametern erreicht auf MMLU 66,5 Prozent. Zum Vergleich: Llama 2 mit 7 Milliarden Parametern kam auf 45,3 Prozent. Das bedeutet, dass ein Modell mit weniger als einem Drittel der Parameter ein deutlich größeres Modell der vorherigen Generation übertrifft. Für On-Device-Anwendungen und Edge-Computing eröffnet das neue Möglichkeiten.

Qwen 3.5-9B auf GPQA Diamond 81,7%

GPT-OSS-120B auf GPQA Diamond 71,5%

Qwen 3.5-2B auf MMLU 66,5%

Llama 2-7B auf MMLU 45,3%

Was europäische Unternehmen davon haben

Für europäische Unternehmen bieten Open-Source-KI-Modelle drei konkrete Vorteile: Datensouveränität, Unabhängigkeit von US-Anbietern und die Möglichkeit, DSGVO- und EU-AI-Act-konform zu arbeiten. Wer ein Modell lokal betreibt, sendet keine Daten an externe APIs. Die Verarbeitung bleibt innerhalb der eigenen Infrastruktur.

Allerdings liegt die KI-Adoption in Europa noch weit zurück. 2024 setzten laut Eurostat nur 14 Prozent der EU-Unternehmen KI ein. Die EU hat mit den 19 AI Factories im Rahmen von EuroHPC eine Initiative gestartet, die europäischen Unternehmen und Forschungseinrichtungen Zugang zu GPU-Rechenleistung geben soll. Ein konkretes Beispiel ist das lettische Unternehmen Tilde, das mit 2 Millionen GPU-Stunden auf dem LUMI-Supercomputer das Open-Source-Modell TildeOpen LLM trainiert hat.

Datensouveränität

Lokaler Betrieb hält alle Daten innerhalb der eigenen Infrastruktur. Keine Abhängigkeit von Cloud-APIs US-amerikanischer Anbieter.

Mistral als EU-Anbieter

Mistral AI aus Paris bietet mit Mistral Small 4 ein leistungsstarkes Modell unter europäischem Recht und Apache-2.0-Lizenz.

19 EU AI Factories

EuroHPC stellt europäischen Unternehmen und Forschungseinrichtungen GPU-Rechenleistung bereit, um eigene Modelle zu trainieren und zu betreiben.

TildeOpen LLM

Das lettische Unternehmen Tilde trainierte mit 2 Millionen GPU-Stunden auf LUMI ein eigenes Open-Source-Sprachmodell.

Zentrale Erkenntnis

Die technische Lücke zu proprietären Modellen ist geschlossen. Die Adoptionslücke in Europa ist es nicht. Nur 14 Prozent der EU-Unternehmen nutzen KI. Die EU AI Factories und Modelle wie Mistral Small 4 schaffen die Voraussetzungen, um das zu ändern. Wer jetzt mit einem Pilotprojekt startet, hat einen Vorsprung.

EU AI Act: Was für Open-Source-Modelle gilt

Der EU AI Act behandelt Open-Source-Modelle bei den Kernanforderungen nicht anders als proprietäre Systeme. Anbieter müssen urheberrechtliche Vorgaben einhalten und eine Zusammenfassung der Trainingsdaten veröffentlichen. Ab August 2026 gelten die vollständigen GPAI-Pflichten (General Purpose AI). Die Schwelle für systemisches Risiko liegt bei 10 hoch 25 FLOPs Trainingsaufwand. Modelle darüber unterliegen strengeren Auflagen.

Anforderung	Open-Source-Modelle	Proprietäre Modelle
Urheberrechtliche Compliance	Ja, erforderlich	Ja, erforderlich
Trainingsdaten-Zusammenfassung	Ja, erforderlich	Ja, erforderlich
GPAI-Pflichten ab Aug. 2026	Vollständig gültig	Vollständig gültig
Schwelle systemisches Risiko	10^25 FLOPs	10^25 FLOPs
Deployer-Pflichten	Gelten für den Betreiber	Gelten für den Betreiber

Für Unternehmen, die Open-Source-Modelle einsetzen, ist ein wichtiger Punkt die Deployer-Pflicht. Wer ein Modell betreibt, übernimmt die regulatorischen Pflichten unabhängig davon, wer das Modell entwickelt hat. Das gilt für Datenschutz , Transparenz und die Einstufung in Risikokategorien. Mehr Informationen zu den regulatorischen Anforderungen findest du in den Leitlinien der Linux Foundation und den EU GPAI Guidelines .

Praxishinweis

Die Open-Source-Lizenz eines Modells befreit dich nicht von regulatorischen Pflichten. Als Deployer bist du für die Einhaltung des EU AI Act verantwortlich. Das umfasst die Risikobewertung, die Dokumentation und die Transparenz gegenüber Nutzern. Prüfe vor dem Einsatz, ob dein Anwendungsfall in eine Hochrisiko-Kategorie fällt.

Herausforderungen und Risiken

Offene Modelle bringen eigene Risiken mit. Der OSSRA-Bericht 2026 von Black Duck zeigt durchschnittlich 581 Schwachstellen pro Codebasis, eine Verdoppelung gegenüber dem Vorjahr. 87 Prozent aller untersuchten Codebasen hatten mindestens eine bekannte Schwachstelle. 68 Prozent wiesen Lizenzkonflikte auf. Ein freies Modell bedeutet nicht kostenfreien Betrieb.

581

Schwachstellen pro Codebasis im Durchschnitt (OSSRA 2026)

175.108

öffentlich erreichbare Ollama-Instanzen weltweit

68%

der Codebasen mit Lizenzkonflikten

Besonders kritisch ist die Angriffsfläche bei der Infrastruktur. Laut The Register sind 175.108 Ollama-Instanzen öffentlich über das Internet erreichbar, oft ohne Authentifizierung. Backdoor-Angriffe auf Modellgewichtungen sind schwer zu erkennen, weil die Manipulation in den Milliarden von Parametern versteckt werden kann. Trend Micro warnt vor einer wachsenden Supply-Chain-Gefahr bei Open-Source-KI.

Sicherheitswarnung

Öffentlich erreichbare Ollama-Instanzen ohne Authentifizierung sind ein direktes Sicherheitsrisiko. Jede Installation muss hinter einer Firewall oder einem Reverse Proxy mit Zugriffskontrolle betrieben werden. Prüfe außerdem die Herkunft jedes Modells, das du herunterlädst, auf bekannte Schwachstellen und Manipulationen.

Der OSSRA-Bericht 2026 zeigt eine Verdoppelung der durchschnittlichen Schwachstellen pro Codebasis auf 581. 87 Prozent aller untersuchten Codebasen hatten mindestens eine bekannte Schwachstelle.

Black Duck OSSRA Report 2026

Was Unternehmen jetzt tun sollten

Der Einstieg in Open-Source-KI erfordert eine klare Strategie. Die folgenden fünf Schritte helfen dir, systematisch vorzugehen und die häufigsten Fehler zu vermeiden.

Fünf Schritte zum Einstieg

Pilotprojekt mit kleinem Modell starten: Beginne mit Qwen 3.5 (2B oder 9B Parameter) oder einem vergleichbaren kleinen Modell. Diese laufen auf handelsüblicher Hardware und liefern bereits starke Ergebnisse. Ein lokaler Betrieb gibt dir die Kontrolle über Daten und Kosten.
Hybride Strategie entwickeln: Kombiniere Open-Source-Modelle für interne Daten und datenschutzsensible Aufgaben mit proprietären APIs für Aufgaben, bei denen maximale Leistung gefordert ist. So nutzt du die Stärken beider Ansätze.
GPU-Infrastruktur prüfen: Informiere dich über die 19 EU AI Factories und EuroHPC-Programme. Für größere Modelle wie DeepSeek V3.2 oder Qwen 3.5 Flagship benötigst du leistungsfähige GPUs.
Sicherheitsprozesse aufbauen: Implementiere ein Schwachstellen-Management für Open-Source-Komponenten. Prüfe Modelle auf bekannte Schwachstellen, betreibe Inferenz-Server nur hinter Firewalls und überwache die Sicherheitslage kontinuierlich.
Regulatorische Pflichten klären: Stelle fest, ob dein Anwendungsfall unter den EU AI Act fällt und welche Deployer-Pflichten gelten. Dokumentiere deine KI-Systeme und bereite dich auf die GPAI-Pflichten ab August 2026 vor.

Modellvergleich: Die drei Open-Source-Familien im Überblick

Eigenschaft	DeepSeek V3.2	Mistral Small 4	Qwen 3.5 Flagship
Gesamtparameter	671B	119B	397B
Aktive Parameter/Token	k.A.	6B	17B
Lizenz	MIT	Apache 2.0	Apache 2.0
Herkunft	China	Frankreich	China (Alibaba)
Kontextlänge	k.A.	256k	256k
Sprachen	Mehrsprachig	Mehrsprachig	200+
API-Kosten (Input)	$0,028/M Tokens	Variabel	Variabel
Stärke	Reasoning	Effizienz	Kleine Modelle

Fazit

Open-Source-KI-Modelle sind 2026 keine Kompromisslösung mehr. Sie bieten vergleichbare Leistung zu einem Bruchteil der Kosten und ermöglichen Datensouveränität. Die Risiken sind real, aber beherrschbar, wenn du Sicherheitsprozesse, Lizenzprüfung und regulatorische Compliance von Anfang an einplanst. Wer noch nicht mit Open-Source-KI gestartet hat, sollte jetzt einen Piloten aufsetzen.

14%

EU-Unternehmen nutzen KI (2024)

87%

der Codebasen mit Schwachstellen

EU AI Factories mit EuroHPC

Weiterführende Informationen

OpenAI gpt-oss-120b und gpt-oss-20b: Open-Source-KI-Modelle im Detail Kimi K2: Open-Source-Sprachmodell von Moonshot AI EU AI Act: Warum Unternehmen jetzt handeln müssen Lokale KI-Modelle auf eigener Hardware betreiben KI-Sicherheit und Datenschutz in Deutschland Mistral Small 4: Offizielle Ankündigung (mistral.ai) DeepSeek V3.2: Technische Analyse (infoq.com) OSSRA 2026: Open-Source-Sicherheitstrends (blackduck.com) EU Open-Source-AI-Landscape (digital-strategy.ec.europa.eu)

Häufig gestellte Fragen

Welche Open-Source-KI-Modelle sind 2026 die stärksten? +

Die drei stärksten Open-Source-KI-Modelle in Q1 2026 sind DeepSeek V3.2 (671B Parameter, MIT-Lizenz), Mistral Small 4 (119B Parameter, Apache 2.0) und Qwen 3.5 (bis 397B Parameter, Apache 2.0). Alle drei erreichen auf gängigen Benchmarks das Niveau proprietärer Modelle wie GPT-5 und Claude.

Wie viel günstiger sind Open-Source-KI-Modelle im Vergleich zu GPT-5? +

DeepSeek V3.2 kostet über die API 0,028 USD pro Million Input-Tokens. Das ist etwa ein Zehntel der Kosten von GPT-5. Bei lokalem Betrieb auf eigener Hardware entfallen die API-Kosten komplett, wobei Infrastrukturkosten für GPUs und Betrieb entstehen.

Was bedeutet der EU AI Act für Open-Source-KI-Modelle? +

Der EU AI Act behandelt Open-Source-Modelle bei den Kernanforderungen nicht anders als proprietäre Systeme. Anbieter müssen eine Zusammenfassung der Trainingsdaten veröffentlichen und urheberrechtliche Vorgaben einhalten. Ab August 2026 gelten die vollständigen GPAI-Pflichten. Modelle über 10 hoch 25 FLOPs Trainingsaufwand fallen unter die Regelungen für systemisches Risiko.

Welche Sicherheitsrisiken bestehen bei Open-Source-KI-Modellen? +

Der OSSRA-Bericht 2026 zeigt durchschnittlich 581 Schwachstellen pro Codebasis, eine Verdoppelung gegenüber dem Vorjahr. 87 Prozent hatten mindestens eine Schwachstelle. Zudem sind 175.108 Ollama-Instanzen öffentlich erreichbar, was ein erhebliches Angriffspotenzial darstellt. Backdoor-Angriffe auf Modellgewichtungen sind schwer zu erkennen.

Ist Mistral Small 4 für europäische Unternehmen besser geeignet als DeepSeek oder Qwen? +

Mistral Small 4 stammt von Mistral AI aus Frankreich und unterliegt europäischem Recht. Das kann für Unternehmen mit strengen Compliance-Anforderungen ein Vorteil sein. Technisch bietet das Modell mit 119B Parametern, 128 Experten und Apache 2.0 Lizenz eine starke Grundlage. Für die reine Modellleistung sind DeepSeek V3.2 und Qwen 3.5 in manchen Benchmarks aber gleichwertig oder stärker.

Wie können Unternehmen mit Open-Source-KI starten? +

Der empfohlene Einstieg ist ein Pilotprojekt mit einem kleinen Modell wie Qwen 3.5 mit 2B oder 9B Parametern. Diese laufen auf handelsüblicher Hardware und liefern bereits starke Ergebnisse. Parallel dazu solltest du eine hybride Strategie entwickeln, die Open-Source-Modelle für interne Daten und proprietäre APIs für komplexe Aufgaben kombiniert.