Anlieferung von Server-Hardware an der Laderampe eines deutschen Rechenzentrums, auf dem chinesische Open-Weight-Modelle betrieben werden können

Chinas KI-Modelle 2026: Wenn Benchmark-Versprechen auf unabhängige Tests treffen

Vier offene Modelle in 18 Tagen, alle mit Frontier-Anspruch. Was bleibt, wenn unabhängige Tests statt Eigenangaben zählen.

Im April 2026 haben vier chinesische Labore innerhalb von 18 Tagen offene KI-Modelle veröffentlicht, die alle Spitzenniveau beanspruchen und westliche Modelle preislich um das Sechs- bis Dreissigfache unterbieten. Die unabhängige NIST-Bewertung von DeepSeek V4 zeichnet ein nüchterneres Bild. Dieser Artikel ordnet ein, was die Modelle wirklich leisten und unter welchen Bedingungen deutsche Unternehmen sie einsetzen sollten.

Zusammenfassung

Zwischen dem 7. und 24. April 2026 haben Z.ai (GLM-5.1), Moonshot (Kimi K2.6), MiniMax (M2.7) und DeepSeek (V4) offene Modelle veröffentlicht, die auf dem Coding-Benchmark SWE-Bench Pro innerhalb von rund drei Punkten zusammenliegen und GPT-5.4 sowie Claude Opus 4.6 auf einzelnen Werten knapp überholten. Die unabhängige Bewertung von DeepSeek V4 Pro durch das NIST-Institut CAISI im Mai 2026 zeigt jedoch einen Rückstand von rund acht Monaten zur Spitze: ein geschätzter Elo-Wert von 800 gegenüber 1260 für GPT-5.5. Der eigentliche Hebel ist der Preis, nicht die absolute Leistung. DeepSeek V4 Pro kostet 1,74 und 3,48 US-Dollar je Million Token gegenüber 5 und 30 bei GPT-5.5. Für deutsche Unternehmen verschiebt sich die Frage von der Modellstärke zum Einsatzort: On-Premise-Betrieb offener Gewichte auf EU-Servern gilt als der sicherste Weg zu DSGVO-Konformität, der EU AI Act nimmt aber den Betreiber in die Pflicht, nicht den Hersteller.

Was im April 2026 wirklich passiert ist

Vier chinesische Labore haben zwischen dem 7. und 24. April 2026 offene KI-Modelle veröffentlicht, die alle Spitzenniveau beanspruchen. Z.ai brachte GLM-5.1, Moonshot das Modell Kimi K2.6, MiniMax die Variante M2.7 und DeepSeek die zwei Versionen V4 Pro und V4 Flash. Auf SWE-Bench Pro, einem Benchmark für reale Coding-Aufgaben, liegen diese Modelle innerhalb von rund drei Punkten zusammen, und zwei von ihnen führten zeitweise das offene Intelligenz-Ranking von Artificial Analysis an.

offene Frontier-Modelle in 18 Tagen

7. bis 24. April 2026

58,4

GLM-5.1 auf SWE-Bench Pro

vor GPT-5.4 mit 57,7

754 Mrd.

Parameter in GLM-5.1 (MoE)

MIT-Lizenz, Gewichte auf Hugging Face

80,2 %

Kimi K2.6 auf SWE-Bench Verified

erstes offenes Modell vor GPT-5.4

1,6 Bio.

Parameter in DeepSeek V4 Pro

Kontextfenster von 1 Million Token

~1.509

chinesische Sprachmodelle 2025

rund 40 % aller neuen Modelle weltweit

Der Kontext zählt: Die Veröffentlichungen waren kein Einzelereignis, sondern Teil einer schnellen Abfolge. Wichtig ist dabei, dass der westliche Spitzenrand im selben Zeitraum weiterrückte. Anthropic veröffentlichte Claude Opus 4.7 am 16. April, OpenAI brachte GPT-5.5 am 23. April, einen Tag vor DeepSeek V4. Wer die April-Welle als Beleg dafür liest, dass China die Lücke geschlossen hat, übersieht, dass sich das Ziel mitbewegt hat.

7. April 2026

GLM-5.1 von Z.ai

754 Milliarden Parameter, MIT-Lizenz, 58,4 auf SWE-Bench Pro und damit knapp vor GPT-5.4 und Claude Opus 4.6.

16. April 2026

Claude Opus 4.7 von Anthropic

Der westliche Spitzenrand rückt mitten in der chinesischen Veröffentlichungswelle weiter.

20. April 2026

Kimi K2.6 von Moonshot

Erstes offenes Modell, das GPT-5.4 auf SWE-Bench Pro schlägt, mit 80,2 Prozent auf SWE-Bench Verified.

23. April 2026

GPT-5.5 von OpenAI

Einen Tag vor DeepSeek V4. Der Abstand zur Spitze wird neu vermessen, bevor das nächste chinesische Modell erscheint.

24. April 2026

DeepSeek V4 Pro und Flash

1,6 Billionen Parameter, eine Million Token Kontext, Preise weit unter den westlichen Spitzenmodellen.

Der Benchmark-Abstand hat sich verkleinert. Geschlossen hat er sich nicht, denn der westliche Spitzenrand ist im selben Zeitraum weitergerückt.

Sinngemäss nach der Analyse von Can Demir, Mai 2026

Benchmark-Versprechen und unabhängige Tests

Die selbst gemeldeten Zahlen und die unabhängige Prüfung gehen deutlich auseinander. Das Center for AI Standards and Innovation (CAISI) am US-Institut NIST hat DeepSeek V4 Pro im Mai 2026 unabhängig getestet und kommt zu einem Rückstand von rund acht Monaten zur Spitze. Wo DeepSeeks eigene Tabellen das Modell etwa auf Höhe von GPT-5.4 und Opus 4.6 sehen, ordnet CAISI es eher auf dem Niveau von GPT-5 ein, also dem Modell, das acht Monate zuvor erschien.

SWE-Bench Pro ist ein Benchmark, der KI-Modelle an realen Software-Aufgaben aus echten Code-Repositories misst. Ein hoher Wert deutet auf gute Coding-Fähigkeiten hin, sagt aber wenig über Sicherheit, Reasoning unter Unsicherheit oder das Verhalten im Produktionsbetrieb aus.

Auf naheliegenden Aufgaben ist der Abstand klein, auf schwierigen wird er groß. Die folgende Tabelle zeigt die CAISI-Werte für DeepSeek V4 Pro im Vergleich zu zwei westlichen Modellen. Auffällig ist die Lücke bei ARC-AGI-2 und beim Sicherheits-Benchmark CTF-Archive-Diamond.

Benchmark	DeepSeek V4 Pro	GPT-5.5	Opus 4.6
GPQA-Diamond	90 %	96 %	91 %
SWE-Bench Verified	74 %	81 %	79 %
FrontierScience	74 %	79 %	72 %
ARC-AGI-2 (semi-privat)	46 %	79 %	63 %
CTF-Archive-Diamond (Sicherheit)	32 %	71 %	46 %
Geschätzter Elo-Wert	800	1260	999

Wichtig

Vendor-Benchmarks sind Marketing, kein Prüfsiegel. Der Abstand zwischen Eigenangabe und unabhängiger Messung kann mehrere Monate Entwicklungsvorsprung betragen. Verlasse dich nicht auf die Tabellen des Anbieters, wenn du ein Modell für einen produktiven Einsatz auswählst.

Das bedeutet nicht, dass die Modelle schlecht sind. Auf Wissens- und Coding-Aufgaben liefern sie nah an der Spitze. Aber die pauschale Aussage Frontier-Parität hält der Prüfung nicht stand, sobald schwierige Reasoning- und Sicherheitsaufgaben dazukommen. Einen ähnlichen Befund zur Lücke zwischen Wahrnehmung und gemessener Leistung beschreibt der Artikel zum Stanford AI Index 2026 und der Vertrauenslücke .

Kosten und Leistung im Vergleich

Der eigentliche Hebel chinesischer Modelle ist der Preis, nicht die absolute Spitzenleistung. DeepSeek V4 Pro kostet 1,74 und 3,48 US-Dollar je Million Token für Eingabe und Ausgabe, die Flash-Variante 0,14 und 0,28. Zum Vergleich liegt GPT-5.5 bei 5 und 30, Claude Opus 4.7 bei 5 und 25. Auf vielen Aufgaben bedeutet das eine Kostenersparnis um das Sechs- bis Dreissigfache bei nur leicht geringerer Trefferquote.

6- bis 30-fach

günstiger als westliche Spitzenmodelle

Intelligenz-Index Kimi K2.6, Spitze der offenen Modelle

5,6 Mio.

US-Dollar Trainingskosten DeepSeek R1, statt 80 bis 100 Mio.

Modell	Eingabe / Ausgabe je Mio. Token	Kontextfenster	Besonderheit
DeepSeek V4 Pro	1,74 / 3,48 USD	1 Mio. Token	1,6 Bio. Parameter, Flash-Variante ab 0,14 USD
Kimi K2.6	0,95 / 4,00 USD	262K Token	Intelligenz-Index 54, Spitze der offenen Modelle
MiniMax M2.7	0,30 / 1,20 USD	196K Token	nur 10 Mrd. aktive Parameter, unter einem Drittel von GLM-5
GPT-5.5	5,00 / 30,00 USD	westliches Spitzenmodell	CAISI-Elo 1260, Referenz für die Messung

Vorsicht bei Listenpreisen: Der reine Preis je Token sagt wenig über die Gesamtkosten im Betrieb. Wenn ein Modell für dieselbe Aufgabe längere Antworten und mehr Reasoning-Token erzeugt, schrumpft der Kostenvorteil. Die ehrliche Rechnung entsteht erst, wenn du dieselbe Arbeitslast über mehrere Modelle laufen lässt und die tatsächlichen Token zählst, nicht die Tabellenwerte.

Deutsche und EU-Perspektive

Für deutsche Unternehmen verschiebt sich die Frage von der Modellstärke zum Einsatzort. Offene Gewichte lassen sich auf eigenen oder europäischen Servern betreiben, ohne dass Daten nach China fließen. Genau das gilt als der sicherste Weg, den Kostenvorteil zu nutzen und zugleich DSGVO-konform zu bleiben. Bereits mehr als 180.000 von Alibabas Qwen abgeleitete Modelle laufen auf europäischer Infrastruktur.

Systemadministrator schiebt einen GPU-Server in ein Rack eines deutschen On-Premise-Serverraums, daneben ein Terminal mit laufendem Modell — Eigenbetrieb offener Gewichte auf EU-Servern gilt als der sicherste Weg, den Kostenvorteil chinesischer Modelle DSGVO-konform zu nutzen.

Einsatzort schlägt Herkunft: Wer ein offenes Modell selbst hostet, entscheidet allein, welche Daten es verarbeitet und wohin sie fließen. Die Herkunft der Gewichte aus China ändert daran nichts, solange das Modell auf deiner Infrastruktur läuft und keine Telemetrie nach aussen sendet.

Der rechtliche Knoten liegt woanders. Chinas Personal Information Protection Law nimmt Behörden teilweise aus, was Kritiker als faktisches Zugriffsrecht auf in China gespeicherte Daten werten. Beim Eigenbetrieb auf EU-Servern entfällt dieser Pfad, weil keine Daten in chinesische Rechenzentren gelangen. Bei der Nutzung der gehosteten API eines chinesischen Anbieters dagegen ist diese Frage real.

Der Betreiber haftet, nicht der Hersteller: Der EU AI Act wirkt extraterritorial und nimmt das Unternehmen in die Pflicht, das ein KI-System einsetzt, unabhängig davon, ob das Modell aus China, den USA oder Europa stammt. Bussgelder reichen bis 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes. Neue Modelle werden ab 2026 vom EU-KI-Büro geprüft, bestehende ab 2027.

Bei Hochrisiko-Anwendungen wie Personalauswahl, Kreditvergabe oder kritischer Infrastruktur braucht es vollständige Dokumentation und menschliche Aufsicht, egal welches Modell darunter liegt. Wer die Architektur sauber aufsetzt, kann ein chinesisches Open-Weight-Modell genauso compliant betreiben wie ein westliches. Vertiefend dazu der Artikel zu den EU-AI-Act-Hochrisiko-Fristen 2026 sowie der Beitrag zu lokalen KI-Modellen auf eigener Hardware .

Herausforderungen und Risiken

Neben dem Preis stehen reale Risiken, die eine nüchterne Prüfung verlangen. Vendor-Benchmarks sind Marketing, und die CAISI-Ergebnisse zeigen, wie weit Eigenangabe und unabhängige Messung auseinanderliegen können. Hinzu kommen Sicherheits-, Lizenz- und Lieferkettenfragen.

Benchmark-Gaming

Modelle können auf bekannte Testsets optimiert sein, ohne im echten Betrieb gleich gut abzuschneiden. Ein Spitzenwert auf einem öffentlichen Benchmark ist kein Beleg dafür, dass das Modell deine spezifische Aufgabe löst. Genau deshalb ist eine eigene Messung mit realen Daten unverzichtbar.

Sicherheit

Auf dem Sicherheits-Benchmark CTF-Archive-Diamond schnitt DeepSeek V4 mit 32 Prozent deutlich schwächer ab als GPT-5.5 mit 71 Prozent. Für sicherheitskritische Automatisierung, etwa im Umgang mit Schwachstellen oder in der Codeprüfung, ist dieser Abstand relevant und sollte vor dem Einsatz gemessen werden.

Lieferkette

Berichte über Engpässe bei Huawei-Chips haben die Zeitpläne chinesischer Labore zeitweise verschoben. Wer sich operativ auf ein bestimmtes Modell verlässt, sollte die Abhängigkeit von dessen Hardware- und Update-Versorgung in die Risikobetrachtung aufnehmen.

Lizenzfeinheiten

Die MIT-Lizenz bei GLM-5.1 ist klar und erlaubt kommerzielle Nutzung sowie Feinabstimmung. Andere Modelle haben Nutzungsklauseln, die vor dem Produktiveinsatz geprüft werden müssen. Die Lizenz ist kein Detail, sondern entscheidet darüber, ob du das Modell überhaupt rechtssicher in dein Produkt einbauen darfst.

Was Unternehmen jetzt tun sollten

Die wichtigste Massnahme ist eigene Messung statt Vertrauen auf Anbieterzahlen. Wer ein Modell auswählt, sollte es an realen, internen Aufgaben testen und die Auswahl an Anwendungsfall, Datenschutzbedarf und Betriebsmodell ausrichten. Vier Schritte helfen dabei.

Eigene Evaluierung aufsetzen

Stelle repräsentative Aufgaben aus deinem eigenen Alltag zusammen und lass mehrere Modelle dieselbe Arbeitslast bearbeiten. Miss Trefferquote, Token-Verbrauch und Latenz. Öffentliche Benchmarks dienen der Vorauswahl, nicht der Entscheidung.
Betriebsmodell nach Datenschutzbedarf festlegen

Bei sensiblen Daten gehören offene Gewichte auf eigene oder europäische Server. Bei unkritischen Aufgaben kann eine günstige gehostete API sinnvoll sein. Triff diese Entscheidung pro Anwendungsfall, nicht pauschal für das ganze Unternehmen.
Governance nach EU AI Act früh klären

Klassifiziere jeden Anwendungsfall nach Risikostufe, dokumentiere die Verarbeitung personenbezogener Daten und plane menschliche Aufsicht von Anfang an ein. Das ist günstiger, wenn es vor dem Deployment geschieht, nicht danach.
Mehrgleisig bleiben

Halte offene chinesische Modelle als Kostenoption neben westlichen Spitzenmodellen, statt dich einseitig zu binden. So kannst du je nach Aufgabe das passende Modell wählen und auf Preis- oder Lizenzänderungen reagieren, ohne deine Architektur neu zu bauen.

Nahaufnahme der Hände eines Entwicklers an der Tastatur mit einer GPU-Karte auf der Antistatikmatte während eines Modelltests — Eigene Tests mit realen Aufgaben statt öffentlicher Benchmarks: Erst der Betrieb auf der eigenen Hardware zeigt die tatsächliche Leistung.

Konkrete Einordnungen einzelner Modelle bieten die Artikel zu Qwen3.7-Max und Alibabas vertikaler KI-Strategie und zu Kimi K2.6 als Open-Weight-Agent im Enterprise .

Wichtig

Die richtige Frage lautet nicht, welches chinesische Modell das stärkste ist, sondern welches Modell deine konkrete Aufgabe zu vertretbaren Kosten löst und wo es laufen darf. Beides beantwortest du mit eigenen Messungen und einer sauberen Governance, nicht mit den Tabellen des Anbieters.

Weiterführende Informationen

Qwen3.7-Max: Alibabas vertikale KI-Strategie Kimi K2.6: Open-Weight-Agenten im Enterprise Open-Source-KI-Modelle schließen die Lücke 2026 Lokale KI-Modelle auf eigener Hardware EU SEAL Framework: Cloud-Souveränität 2026 NIST CAISI: Evaluation von DeepSeek V4 Pro DeepSeek: V4 Release Notes EU AI Act: High-Level-Zusammenfassung

Häufig gestellte Fragen

Welche chinesischen KI-Modelle sind im April 2026 erschienen? +

Zwischen dem 7. und 24. April 2026 haben vier chinesische Labore offene Modelle veröffentlicht: Z.ai mit GLM-5.1 (7. April), Moonshot mit Kimi K2.6 (20. April), MiniMax mit M2.7 und DeepSeek mit den Varianten V4 Pro und V4 Flash (24. April). Auf dem Coding-Benchmark SWE-Bench Pro liegen sie innerhalb von rund drei Punkten zusammen und überholten GPT-5.4 sowie Claude Opus 4.6 auf einzelnen Werten knapp.

Halten die Benchmark-Versprechen chinesischer KI-Modelle unabhängigen Tests stand? +

Nur teilweise. Das US-Institut NIST hat DeepSeek V4 Pro im Mai 2026 über sein Center for AI Standards and Innovation (CAISI) unabhängig getestet und kommt auf einen Rückstand von rund acht Monaten zur Spitze. Der geschätzte Elo-Wert liegt bei 800 gegenüber 1260 für GPT-5.5. Wo DeepSeeks eigene Tabellen das Modell etwa auf GPT-5.4-Niveau sehen, ordnet CAISI es eher bei GPT-5 ein.

Wie viel günstiger sind chinesische KI-Modelle? +

Deutlich. DeepSeek V4 Pro kostet 1,74 und 3,48 US-Dollar je Million Token für Eingabe und Ausgabe, gegenüber 5 und 30 bei GPT-5.5. Über viele Aufgaben hinweg entspricht das einer Kostenersparnis um das Sechs- bis Dreissigfache. MiniMax M2.7 kostet 0,30 und 1,20 US-Dollar und liegt damit unter einem Drittel von GLM-5. Der Vorteil kann im Betrieb schrumpfen, wenn Modelle längere Antworten und mehr Reasoning-Token erzeugen.

Dürfen deutsche Unternehmen chinesische KI-Modelle einsetzen? +

Ja, mit der richtigen Architektur. Offene Gewichte lassen sich auf eigenen oder europäischen Servern betreiben, ohne dass Daten nach China fließen, was als sicherster Weg zu DSGVO-Konformität gilt. Bereits über 180.000 von Alibabas Qwen abgeleitete Modelle laufen auf europäischer Infrastruktur. Der EU AI Act nimmt den Betreiber in die Pflicht, unabhängig von der Herkunft des Modells, mit Bussgeldern bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes.

Was sollten Unternehmen vor dem Einsatz eines chinesischen KI-Modells tun? +

Eigene Messung statt Vertrauen auf Anbieterzahlen. Wer ein Modell auswählt, sollte es an realen internen Aufgaben testen statt an öffentlichen Benchmarks, das Betriebsmodell nach Datenschutzbedarf festlegen (On-Premise oder EU-Hosting bei sensiblen Daten) und die Governance nach EU AI Act früh klären. Sinnvoll ist es, offene chinesische Modelle als Kostenoption neben westlichen Spitzenmodellen zu halten, statt sich einseitig zu binden.