Qwen3.7-Max: 35 Stunden autonomes Coding und Alibabas vertikale KI-Strategie
Auf dem Alibaba Cloud Summit in Hangzhou präsentierte Alibaba am 20. Mai 2026 ein Ergebnis, das für autonome KI-Coding-Agenten neue Maßstäbe setzt: Qwen3.7-Max führte 1.158 Werkzeugaufrufe durch, optimierte einen Chip-Kernel um Faktor 10, und das alles ohne einen einzigen menschlichen Eingriff über 35 Stunden.
Alibabas Qwen3.7-Max demonstrierte am 20. Mai 2026 erstmals öffentlich einen KI-Coding-Agenten, der 35 Stunden lang autonom lief, 1.158 Werkzeugaufrufe durchführte und die Software für einen selbst entwickelten KI-Chip um Faktor 10 beschleunigte. Das Modell erreicht auf SWE-Verified 80,4 Punkte, statistisch gleich mit Claude Opus 4.6 Max (80,8), ist jedoch ausschließlich per API verfügbar und hat noch keine unabhängige Verifikation. Für deutsche Unternehmen erfordern die Nutzung chinesischer KI-APIs sowohl eine Datenschutz-Folgeabschätzung nach DSGVO als auch eine rechtliche Prüfung des chinesischen Nachrichtendienstgesetzes von 2017.
Ein KI-Agent, der 35 Stunden ohne Eingriff läuft
Bei seinem Cloud Summit am 20. und 21. Mai 2026 in Hangzhou präsentierte Alibaba ein Ergebnis, das für Coding-Agenten bisher nicht öffentlich belegt war: Qwen3.7-Max lief 35 Stunden autonom , führte 1.158 Werkzeugaufrufe durch und optimierte die Betriebssoftware eines selbst entwickelten Chips um den Faktor 10. Das ist kein kontrolliertes Labor-Szenario, sondern ein Praxisnachweis für sogenannte Long-Horizon-Tasks.
Alibaba startete gleichzeitig drei Produkte: Qwen3.7-Max als Sprachmodell, den Zhenwu M890-Chip und das Panjiu AL128 als Rack-Scale-System mit 128 Beschleunigern. Die Zahlen aus dem 35-Stunden-Lauf sind Alibabas Eigenangaben, unabhängige Reproduktionen liegen noch nicht vor.
Der 35-Stunden-Lauf ist kein Benchmark, sondern ein Demonstration der Fähigkeit zu sogenanntem Long-Horizon Reasoning, Aufgaben die eine autonome Entscheidungskette über Stunden erfordern. Das ist strukturell neu, auch wenn die konkreten Zahlen noch auf externe Verifikation warten.
Die vertikale Integration: Chip, Modell und Server aus einer Hand
Alibaba verfolgt einen Ansatz, den westliche Anbieter bisher nur in Ansätzen umgesetzt haben: die vollständige Kontrolle über Spezialprozessor, Sprachmodell und Serverinfrastruktur. Der Zhenwu M890 trägt 144 GB HBM3-Speicher , 50 Prozent mehr als sein Vorgänger, und erreicht 800 GB/s Chip-zu-Chip-Bandbreite. In Kombination mit Qwen3.7-Max ermöglicht das Hardware-Software-Optimierungen, die bei Modellen auf Nvidia-Basis strukturell nicht möglich sind.
Das Rack-System Panjiu AL128 verbindet 128 M890-Einheiten miteinander. Qwen3.7-Max unterstützt nativ die wichtigsten Agenten-Frameworks: OpenClaw, Hermes Agent, Claude Code , Qwen Paw und Coder. Auch wenn Alibabas US-Exportbeschränkungen 2025 teilweise gelockert wurden, setzt das Unternehmen diese Chip-Entwicklung fort, nicht als Notlösung, sondern als dauerhaften strategischen Vorteil.
| Komponente | Produkt | Kenndaten |
|---|---|---|
| KI-Chip | Zhenwu M890 | 144 GB HBM3, 800 GB/s inter-chip BW, 3x vs. Vorgänger |
| Rack-System | Panjiu AL128 | 128 M890-Einheiten vernetzt |
| Sprachmodell | Qwen3.7-Max | 1 Mio. Token Kontext, API-only |
Benchmarks: Stark, aber kein klarer Vorsprung
Auf standardisierten Leistungsmessungen erzielt Qwen3.7-Max Ergebnisse auf Augenhöhe mit den führenden westlichen Modellen, ohne klar vorne zu liegen. Für den Enterprise-Einsatz relevanter ist eine separate Schwäche: Die faktische Zuverlässigkeit hat gegenüber dem Vorgänger nachgelassen , was in Agenten-Workflows zu Blockern führen kann.
Im LM Arena-Ranking erreicht Qwen3.7-Max Platz 13 weltweit, Platz 7 in Mathematik, Platz 9 in Coding. Auf SWE-Verified, dem wichtigsten Benchmark für reale Software-Engineering-Aufgaben, ist die Leistung statistisch identisch mit Claude Opus 4.6 Max. Eine Versuchsrate von nur 48% bei faktischen Anfragen bedeutet, dass das Modell bei mehr als der Hälfte aller unsicheren Faktenfragen keine Antwort gibt statt zu halluzinieren. Das verbessert die Sicherheit, verursacht aber Blocker in Workflows, die eine Entscheidung erfordern.
Qwen3.7-Max erreicht einen Intelligence Index Score von 57, hinter GPT-5.5 (60,2) und Claude Opus 4.7 (57,3).
Deutsche und europäische Perspektive
Für deutsche Unternehmen ist Qwen3.7-Max ein technisch interessantes, aber rechtlich zu prüfendes Modell. Zwei Risikodimensionen verlangen Aufmerksamkeit, die bei europäischen Anbietern nicht in dieser Form bestehen.
DSGVO-Prüfung
Jede API-Nutzung eines chinesischen Anbieters erfordert eine Datenschutz-Folgeabschätzung (DPIA) und eine dokumentierte Rechtsgrundlage für Drittlandtransfers nach Art. 44 ff. DSGVO.
EU AI Act
Hochrisiko-Anwendungen in Finanzen, Gesundheit oder kritischer Infrastruktur erfordern pruefbare menschliche Aufsicht. Agenten mit 35-Stunden-Laufzeiten brauchen klare Abbruchbedingungen.
Einstiegsalternative
Qwen3.6 ist mit Open Weights verfügbar und hat bekannte Preise (ab 1,30 Dollar pro Million Input-Token). Das ist die sicherere Wahl, bis die API-Bedingungen für Qwen3.7-Max veröffentlicht sind.
Der EU AI Act verlangt für Hochrisiko-Anwendungen eine pruefbare menschliche Aufsicht. Ein KI-Agent, der 35 Stunden ohne Checkpoint läuft, ist mit dieser Anforderung nur vereinbar, wenn klare Abbruchbedingungen, Eskalationspfade und Audit-Protokolle in der Architektur verankert sind. Das ist eine Systemdesign-Anforderung, keine Formsache.
Im Kontext der Wettbewerbsdynamik zeigt auch Kimi K2.6 und nun Qwen3.7-Max, dass chinesische KI-Unternehmen bei Agentic-Benchmarks westliche Modelle systematisch herausfordern. Gleichzeitig baut DeepSeek gerade ein eigenes Harness-Tool auf, das direkt mit Claude Code und OpenAIs Codex konkurrieren soll.
Herausforderungen und Risiken
Die großen Zahlen des Alibaba-Launches verdienen sachliche Einordnung. Drei Einschränkungen sind für eine realistische Bewertung entscheidend.
Keine externe Replikation
Der 35-Stunden-Lauf ist ausschließlich durch Alibaba selbst dokumentiert. Externe Forscher haben die Zahlen noch nicht reproduziert. Das ist kein Grund zur Ablehnung, aber kein Beweis für allgemeine Verfügbarkeit dieser Leistung.
Keine Open Weights, unbekannte Preise
Qwen3.7-Max ist nicht für den lokalen Betrieb verfügbar. Die API-Preise wurden zum Zeitpunkt des Launches nicht veröffentlicht. Agentic-Workflows mit tausenden Werkzeugaufrufen können bei falscher Kalkulation sehr teuer werden.
48% Versuchsrate bei faktischen Anfragen
Das Modell verweigert bei Unsicherheit lieber eine Antwort als zu halluzinieren. Das senkt Fehlerraten, aber bei Workflows, die eine Entscheidung erfordern, entstehen Blocker. Für viele Unternehmensprozesse ist das ein kritischer Punkt.
Ein Modell, das bei mehr als der Hälfte aller faktischen Anfragen keine Antwort gibt, ist für Workflows mit hoher Entscheidungsdichte strukturell ungeeignet, auch wenn es bei den Antworten, die es gibt, selten irrt.
innobu Analyse, Mai 2026Was Unternehmen jetzt tun sollten
Der Qwen3.7-Max-Launch gibt Anlass, zwei Grundsatzfragen zur eigenen Agentic-AI-Strategie zu klären: Wie lang darf ein autonomer Agent in deiner Umgebung maximal laufen? Und welche Anbieter-Rechtsprüfung hast du für Nicht-EU-Dienste abgeschlossen?
-
Maximale Agenten-Laufzeiten definieren
35 Stunden ohne menschliche Aufsicht sind für die meisten deutschen Unternehmensumgebungen nicht akzeptabel. Lege Checkpoint-Intervalle, Abbruchbedingungen und Eskalationspfade fest, bevor du Agenten in der Produktion einsetzt. Der EU AI Act macht das für Hochrisiko-Anwendungen zur Pflicht.
-
Anbieter-DPIA und Drittlandanalyse durchführen
Vor jeder API-Integration eines nicht-europäischen Anbieters eine strukturierte Datenschutz-Folgeabschätzung erstellen und eine Rechtsgrundlage für den Datentransfer dokumentieren. Chinesische Anbieter erfordern besondere Aufmerksamkeit wegen des Nachrichtendienstgesetzes von 2017.
-
Qwen3.6 für Einstiegstests nutzen
Open Weights, bekannte Preisgestaltung, kein API-Abhängigkeitsrisiko. Das ist der praktisch einsetzbare Qwen-Stand heute. Warte mit der Migration auf Qwen3.7-Max, bis API-Preise und -Bedingungen veröffentlicht sind.
-
Benchmarks auf eigenen Codebasen validieren
Die SWE-Verified-Gleichstände mit Claude Opus 4.6 Max deuten auf Parität hin, nicht auf Überlegenheit. Teste auf deinen tatsächlichen Aufgaben, nicht auf publizierten Benchmarks. Alibabas Demonstrationszahlen entstammen einem kontrollierten Alibaba-eigenen Szenario.
-
Modell-Austauschbarkeit einplanen
API-Only-Modelle können Preise, Zugangsbedingungen und Verfügbarkeit jederzeit ändern. Plane Modell-Austauschbarkeit in deiner Agentic-Architektur von Anfang an ein. Das gilt nicht nur für chinesische Anbieter, aber besonders für sie.
Weiterführende Informationen
Häufig gestellte Fragen
Qwen3.7-Max ist Alibabas Flaggschiff-Sprachmodell für die Agenten-Ära, vorgestellt am 20. Mai 2026 auf dem Alibaba Cloud Summit in Hangzhou. Es verfügt über ein 1-Millionen-Token-Kontextfenster, ist für autonome Long-Horizon-Tasks ausgelegt und wurde in einem internen Test 35 Stunden lang ohne menschlichen Eingriff betrieben, wobei es 1.158 Werkzeugaufrufe durchführte.
Im Alibaba-eigenen Test lief Qwen3.7-Max 35 Stunden autonom, führte 1.158 Werkzeugaufrufe und 432 Kernel-Evaluierungen durch und optimierte dabei den Extend-Attention-Kernel des neuen Zhenwu M890-Chips um den Faktor 10. Diese Zahlen sind Alibabas Eigenangaben und wurden noch nicht extern reproduziert.
Auf SWE-Verified, dem wichtigsten Software-Engineering-Benchmark, erreicht Qwen3.7-Max 80,4 Punkte, statistisch gleich mit Claude Opus 4.6 Max (80,8). Im Artificial Analysis Intelligence Index liegt es bei 57, hinter GPT-5.5 (60,2) und Claude Opus 4.7 (57,3). Auf GPQA Diamond (92,4 vs. 91,3) und HLE (41,4 vs. 40,0) liegt es minimal vor Claude Opus 4.6.
Zwei Hauptrisiken: Erstens verpflichtet Chinas Nationales Nachrichtendienstgesetz (2017, Art. 7) chinesische Unternehmen zur Unterstützung staatlicher Geheimdienste, was internationale API-Kunden betreffen kann. Zweitens erfordert die DSGVO eine Datenschutz-Folgeabschätzung und eine Rechtsgrundlage für Drittlandtransfers (Art. 44 ff.) vor dem Produktiveinsatz.
Nein. Qwen3.7-Max ist ausschließlich per API verfügbar, die Modell-Gewichte sind nicht öffentlich zugänglich. Für lokalen Betrieb ist Qwen3.6 die aktuelle Option, da es mit Open Weights und bekannter Preisgestaltung (ab 1,30 Dollar pro Million Input-Token über OpenRouter) verfügbar ist.
Der Zhenwu M890 ist Alibabas neuer KI-Beschleuniger, entwickelt von der Chip-Tochter T-Head. Er trägt 144 GB HBM3-Speicher (50% mehr als der Vorgänger), erreicht 800 GB/s inter-chip Bandbreite und soll laut Alibaba dreifache Leistung gegenüber dem Zhenwu 810E liefern. In Kombination mit Qwen3.7-Max ermöglicht er Hardware-Software-Co-Optimierung ohne Drittanbieter-Prozessoren.