Entwickler auf einem Bahnsteig mit Tablet zeigt Terminal-Ausgabe eines laufenden KI-Agenten-Prozesses

Qwen3.7-Max: 35 Stunden autonomes Coding und Alibabas vertikale KI-Strategie

Alibabas neues Flaggschiff-Modell lief 35 Stunden ohne menschlichen Eingriff und schrieb dabei die Software für einen eigens entwickelten Chip

Auf dem Alibaba Cloud Summit in Hangzhou präsentierte Alibaba am 20. Mai 2026 ein Ergebnis, das für autonome KI-Coding-Agenten neue Maßstäbe setzt: Qwen3.7-Max führte 1.158 Werkzeugaufrufe durch, optimierte einen Chip-Kernel um Faktor 10, und das alles ohne einen einzigen menschlichen Eingriff über 35 Stunden.

Zusammenfassung

Alibabas Qwen3.7-Max demonstrierte am 20. Mai 2026 erstmals öffentlich einen KI-Coding-Agenten, der 35 Stunden lang autonom lief, 1.158 Werkzeugaufrufe durchführte und die Software für einen selbst entwickelten KI-Chip um Faktor 10 beschleunigte. Das Modell erreicht auf SWE-Verified 80,4 Punkte, statistisch gleich mit Claude Opus 4.6 Max (80,8), ist jedoch ausschließlich per API verfügbar und hat noch keine unabhängige Verifikation. Für deutsche Unternehmen erfordern die Nutzung chinesischer KI-APIs sowohl eine Datenschutz-Folgeabschätzung nach DSGVO als auch eine rechtliche Prüfung des chinesischen Nachrichtendienstgesetzes von 2017.

Ein KI-Agent, der 35 Stunden ohne Eingriff läuft

Bei seinem Cloud Summit am 20. und 21. Mai 2026 in Hangzhou präsentierte Alibaba ein Ergebnis, das für Coding-Agenten bisher nicht öffentlich belegt war: Qwen3.7-Max lief 35 Stunden autonom , führte 1.158 Werkzeugaufrufe durch und optimierte die Betriebssoftware eines selbst entwickelten Chips um den Faktor 10. Das ist kein kontrolliertes Labor-Szenario, sondern ein Praxisnachweis für sogenannte Long-Horizon-Tasks.

Long-Horizon-Tasks sind Aufgaben, die Hunderte oder Tausende aufeinander aufbauender Entscheidungsschritte erfordern, bevor ein Ergebnis vorliegt. Klassische KI-Assistenten-Interaktionen dauern Sekunden bis Minuten; Long-Horizon-Tasks können Stunden oder Tage in Anspruch nehmen.
35
Stunden kontinuierliche Autonomie
1.158
Werkzeugaufrufe im Testlauf
10x
Speedup beim Extend-Attention-Kernel
432
Kernel-Evaluierungen, 5 Redesigns

Alibaba startete gleichzeitig drei Produkte: Qwen3.7-Max als Sprachmodell, den Zhenwu M890-Chip und das Panjiu AL128 als Rack-Scale-System mit 128 Beschleunigern. Die Zahlen aus dem 35-Stunden-Lauf sind Alibabas Eigenangaben, unabhängige Reproduktionen liegen noch nicht vor.

Kernbotschaft

Der 35-Stunden-Lauf ist kein Benchmark, sondern ein Demonstration der Fähigkeit zu sogenanntem Long-Horizon Reasoning, Aufgaben die eine autonome Entscheidungskette über Stunden erfordern. Das ist strukturell neu, auch wenn die konkreten Zahlen noch auf externe Verifikation warten.

Die vertikale Integration: Chip, Modell und Server aus einer Hand

Alibaba verfolgt einen Ansatz, den westliche Anbieter bisher nur in Ansätzen umgesetzt haben: die vollständige Kontrolle über Spezialprozessor, Sprachmodell und Serverinfrastruktur. Der Zhenwu M890 trägt 144 GB HBM3-Speicher , 50 Prozent mehr als sein Vorgänger, und erreicht 800 GB/s Chip-zu-Chip-Bandbreite. In Kombination mit Qwen3.7-Max ermöglicht das Hardware-Software-Optimierungen, die bei Modellen auf Nvidia-Basis strukturell nicht möglich sind.

Vertikale Integration (Alibaba)
Chip + Modell + Server aus einer Hand
Hardware-Software-Co-Optimierung möglich
Keine Abhängigkeit von Nvidia-Exportlizenz
Langfristiger Wettbewerbsvorteil in China
Modell auf Dritt-Chips (Standardansatz)
Chip und Modell von verschiedenen Anbietern
Optimierung nur auf Software-Ebene möglich
Abhängig von Export- und Beschaffungsregeln
Breitere Tool-Ökosystem-Kompatibilität

Das Rack-System Panjiu AL128 verbindet 128 M890-Einheiten miteinander. Qwen3.7-Max unterstützt nativ die wichtigsten Agenten-Frameworks: OpenClaw, Hermes Agent, Claude Code , Qwen Paw und Coder. Auch wenn Alibabas US-Exportbeschränkungen 2025 teilweise gelockert wurden, setzt das Unternehmen diese Chip-Entwicklung fort, nicht als Notlösung, sondern als dauerhaften strategischen Vorteil.

Komponente Produkt Kenndaten
KI-Chip Zhenwu M890 144 GB HBM3, 800 GB/s inter-chip BW, 3x vs. Vorgänger
Rack-System Panjiu AL128 128 M890-Einheiten vernetzt
Sprachmodell Qwen3.7-Max 1 Mio. Token Kontext, API-only

Benchmarks: Stark, aber kein klarer Vorsprung

Auf standardisierten Leistungsmessungen erzielt Qwen3.7-Max Ergebnisse auf Augenhöhe mit den führenden westlichen Modellen, ohne klar vorne zu liegen. Für den Enterprise-Einsatz relevanter ist eine separate Schwäche: Die faktische Zuverlässigkeit hat gegenüber dem Vorgänger nachgelassen , was in Agenten-Workflows zu Blockern führen kann.

Software-Architektin vergleicht KI-Modell-Benchmarks auf einem Monitor in einem Büro in Frankfurt Sachsenhausen
Benchmark-Vergleiche zwischen Qwen3.7-Max, Claude Opus 4.6 Max und GPT-5.5 zeigen Parität auf SWE-Verified, dem wichtigsten Software-Engineering-Maßstab.
80,4
SWE-Verified (Claude Opus 4.6 Max: 80,8)
92,4
GPQA Diamond (Claude Opus 4.6: 91,3)
57
Artificial Analysis Index (GPT-5.5: 60,2)
48%
Faktischer Abruf: Versuchsrate (niedrigster Wert)

Im LM Arena-Ranking erreicht Qwen3.7-Max Platz 13 weltweit, Platz 7 in Mathematik, Platz 9 in Coding. Auf SWE-Verified, dem wichtigsten Benchmark für reale Software-Engineering-Aufgaben, ist die Leistung statistisch identisch mit Claude Opus 4.6 Max. Eine Versuchsrate von nur 48% bei faktischen Anfragen bedeutet, dass das Modell bei mehr als der Hälfte aller unsicheren Faktenfragen keine Antwort gibt statt zu halluzinieren. Das verbessert die Sicherheit, verursacht aber Blocker in Workflows, die eine Entscheidung erfordern.

Qwen3.7-Max erreicht einen Intelligence Index Score von 57, hinter GPT-5.5 (60,2) und Claude Opus 4.7 (57,3).

Artificial Analysis ,

Deutsche und europäische Perspektive

Für deutsche Unternehmen ist Qwen3.7-Max ein technisch interessantes, aber rechtlich zu prüfendes Modell. Zwei Risikodimensionen verlangen Aufmerksamkeit, die bei europäischen Anbietern nicht in dieser Form bestehen.

Rechtliches Risiko: Chinas Nationales Nachrichtendienstgesetz (2017), Artikel 7, verpflichtet chinesische Unternehmen zur Zusammenarbeit mit staatlichen Geheimdiensten. Der genaue Durchsetzungsumfang für internationale API-Kunden ist rechtlich umstritten. Eine offizielle Klarstellung von Alibaba existiert nicht. Deutsche Unternehmen mit sensiblen Daten sollten dies vor jeder Integration bewerten.

DSGVO-Prüfung

Jede API-Nutzung eines chinesischen Anbieters erfordert eine Datenschutz-Folgeabschätzung (DPIA) und eine dokumentierte Rechtsgrundlage für Drittlandtransfers nach Art. 44 ff. DSGVO.

EU AI Act

Hochrisiko-Anwendungen in Finanzen, Gesundheit oder kritischer Infrastruktur erfordern pruefbare menschliche Aufsicht. Agenten mit 35-Stunden-Laufzeiten brauchen klare Abbruchbedingungen.

Einstiegsalternative

Qwen3.6 ist mit Open Weights verfügbar und hat bekannte Preise (ab 1,30 Dollar pro Million Input-Token). Das ist die sicherere Wahl, bis die API-Bedingungen für Qwen3.7-Max veröffentlicht sind.

Der EU AI Act verlangt für Hochrisiko-Anwendungen eine pruefbare menschliche Aufsicht. Ein KI-Agent, der 35 Stunden ohne Checkpoint läuft, ist mit dieser Anforderung nur vereinbar, wenn klare Abbruchbedingungen, Eskalationspfade und Audit-Protokolle in der Architektur verankert sind. Das ist eine Systemdesign-Anforderung, keine Formsache.

Im Kontext der Wettbewerbsdynamik zeigt auch Kimi K2.6 und nun Qwen3.7-Max, dass chinesische KI-Unternehmen bei Agentic-Benchmarks westliche Modelle systematisch herausfordern. Gleichzeitig baut DeepSeek gerade ein eigenes Harness-Tool auf, das direkt mit Claude Code und OpenAIs Codex konkurrieren soll.

Herausforderungen und Risiken

Die großen Zahlen des Alibaba-Launches verdienen sachliche Einordnung. Drei Einschränkungen sind für eine realistische Bewertung entscheidend.

Erstpartei-Ergebnis

Keine externe Replikation

Der 35-Stunden-Lauf ist ausschließlich durch Alibaba selbst dokumentiert. Externe Forscher haben die Zahlen noch nicht reproduziert. Das ist kein Grund zur Ablehnung, aber kein Beweis für allgemeine Verfügbarkeit dieser Leistung.

API-Only

Keine Open Weights, unbekannte Preise

Qwen3.7-Max ist nicht für den lokalen Betrieb verfügbar. Die API-Preise wurden zum Zeitpunkt des Launches nicht veröffentlicht. Agentic-Workflows mit tausenden Werkzeugaufrufen können bei falscher Kalkulation sehr teuer werden.

Halluzinationsschutz

48% Versuchsrate bei faktischen Anfragen

Das Modell verweigert bei Unsicherheit lieber eine Antwort als zu halluzinieren. Das senkt Fehlerraten, aber bei Workflows, die eine Entscheidung erfordern, entstehen Blocker. Für viele Unternehmensprozesse ist das ein kritischer Punkt.

Ein Modell, das bei mehr als der Hälfte aller faktischen Anfragen keine Antwort gibt, ist für Workflows mit hoher Entscheidungsdichte strukturell ungeeignet, auch wenn es bei den Antworten, die es gibt, selten irrt.

innobu Analyse, Mai 2026

Was Unternehmen jetzt tun sollten

Der Qwen3.7-Max-Launch gibt Anlass, zwei Grundsatzfragen zur eigenen Agentic-AI-Strategie zu klären: Wie lang darf ein autonomer Agent in deiner Umgebung maximal laufen? Und welche Anbieter-Rechtsprüfung hast du für Nicht-EU-Dienste abgeschlossen?

Leerer Besprechungsraum mit IT-Anbieter-Risikobewertungsmatrix auf dem Tisch, bereit für die Prüfung vor dem KI-Einsatz
Vor dem Einsatz chinesischer KI-APIs sollten Unternehmen eine strukturierte Anbieter-Risikobewertung mit DSGVO-Prüfung und Nachrichtendienstgesetz-Analyse durchführen.
  1. Maximale Agenten-Laufzeiten definieren

    35 Stunden ohne menschliche Aufsicht sind für die meisten deutschen Unternehmensumgebungen nicht akzeptabel. Lege Checkpoint-Intervalle, Abbruchbedingungen und Eskalationspfade fest, bevor du Agenten in der Produktion einsetzt. Der EU AI Act macht das für Hochrisiko-Anwendungen zur Pflicht.

  2. Anbieter-DPIA und Drittlandanalyse durchführen

    Vor jeder API-Integration eines nicht-europäischen Anbieters eine strukturierte Datenschutz-Folgeabschätzung erstellen und eine Rechtsgrundlage für den Datentransfer dokumentieren. Chinesische Anbieter erfordern besondere Aufmerksamkeit wegen des Nachrichtendienstgesetzes von 2017.

  3. Qwen3.6 für Einstiegstests nutzen

    Open Weights, bekannte Preisgestaltung, kein API-Abhängigkeitsrisiko. Das ist der praktisch einsetzbare Qwen-Stand heute. Warte mit der Migration auf Qwen3.7-Max, bis API-Preise und -Bedingungen veröffentlicht sind.

  4. Benchmarks auf eigenen Codebasen validieren

    Die SWE-Verified-Gleichstände mit Claude Opus 4.6 Max deuten auf Parität hin, nicht auf Überlegenheit. Teste auf deinen tatsächlichen Aufgaben, nicht auf publizierten Benchmarks. Alibabas Demonstrationszahlen entstammen einem kontrollierten Alibaba-eigenen Szenario.

  5. Modell-Austauschbarkeit einplanen

    API-Only-Modelle können Preise, Zugangsbedingungen und Verfügbarkeit jederzeit ändern. Plane Modell-Austauschbarkeit in deiner Agentic-Architektur von Anfang an ein. Das gilt nicht nur für chinesische Anbieter, aber besonders für sie.

Für die KI-Coding-Strategie 2026: Qwen3.7-Max ist ein Signal, kein sofort einsetzbares Werkzeug. Das Signal lautet: Long-Horizon-Autonomie ist keine theoretische Zukunft mehr. Die praktische Frage ist nicht ob, sondern wie du Governance-Strukturen für autonome Agenten einführst, die Stunden oder Tage laufen.

Weiterführende Informationen

Häufig gestellte Fragen

Was ist Qwen3.7-Max? +

Qwen3.7-Max ist Alibabas Flaggschiff-Sprachmodell für die Agenten-Ära, vorgestellt am 20. Mai 2026 auf dem Alibaba Cloud Summit in Hangzhou. Es verfügt über ein 1-Millionen-Token-Kontextfenster, ist für autonome Long-Horizon-Tasks ausgelegt und wurde in einem internen Test 35 Stunden lang ohne menschlichen Eingriff betrieben, wobei es 1.158 Werkzeugaufrufe durchführte.

Was hat Qwen3.7-Max im 35-Stunden-Lauf erreicht? +

Im Alibaba-eigenen Test lief Qwen3.7-Max 35 Stunden autonom, führte 1.158 Werkzeugaufrufe und 432 Kernel-Evaluierungen durch und optimierte dabei den Extend-Attention-Kernel des neuen Zhenwu M890-Chips um den Faktor 10. Diese Zahlen sind Alibabas Eigenangaben und wurden noch nicht extern reproduziert.

Wie schneidet Qwen3.7-Max im Vergleich zu Claude und GPT ab? +

Auf SWE-Verified, dem wichtigsten Software-Engineering-Benchmark, erreicht Qwen3.7-Max 80,4 Punkte, statistisch gleich mit Claude Opus 4.6 Max (80,8). Im Artificial Analysis Intelligence Index liegt es bei 57, hinter GPT-5.5 (60,2) und Claude Opus 4.7 (57,3). Auf GPQA Diamond (92,4 vs. 91,3) und HLE (41,4 vs. 40,0) liegt es minimal vor Claude Opus 4.6.

Welche Risiken gibt es bei der Nutzung von Qwen3.7-Max für deutsche Unternehmen? +

Zwei Hauptrisiken: Erstens verpflichtet Chinas Nationales Nachrichtendienstgesetz (2017, Art. 7) chinesische Unternehmen zur Unterstützung staatlicher Geheimdienste, was internationale API-Kunden betreffen kann. Zweitens erfordert die DSGVO eine Datenschutz-Folgeabschätzung und eine Rechtsgrundlage für Drittlandtransfers (Art. 44 ff.) vor dem Produktiveinsatz.

Kann ich Qwen3.7-Max lokal betreiben? +

Nein. Qwen3.7-Max ist ausschließlich per API verfügbar, die Modell-Gewichte sind nicht öffentlich zugänglich. Für lokalen Betrieb ist Qwen3.6 die aktuelle Option, da es mit Open Weights und bekannter Preisgestaltung (ab 1,30 Dollar pro Million Input-Token über OpenRouter) verfügbar ist.

Was ist der Zhenwu M890? +

Der Zhenwu M890 ist Alibabas neuer KI-Beschleuniger, entwickelt von der Chip-Tochter T-Head. Er trägt 144 GB HBM3-Speicher (50% mehr als der Vorgänger), erreicht 800 GB/s inter-chip Bandbreite und soll laut Alibaba dreifache Leistung gegenüber dem Zhenwu 810E liefern. In Kombination mit Qwen3.7-Max ermöglicht er Hardware-Software-Co-Optimierung ohne Drittanbieter-Prozessoren.