AI Trading Competition Update – Sind chinesische LLMs die besseren Investoren?
Live‑on‑chain, echte 10.000 $ pro Modell, volle Transparenz – und nach der ersten Woche führen Qwen3 und DeepSeek.
Auf der Alpha Arena von nof1.ai handeln sechs führende Sprachmodelle eigenständig Krypto‑Perpetuals auf Hyperliquid. Hier findest du die wichtigsten Ergebnisse, Methodik, Verhaltensmuster und die wichtigsten Caveats – kompakt, faktenbasiert und laufend aktualisiert.
Worum geht’s – und warum ist das relevant?
Die Alpha Arena ist ein seltenes, sauberes Experiment: Mehrere LLMs handeln mit realem Kapital on‑chain. Für Entscheider ist das spannend, weil du hier ungefiltert siehst, wie Modelle unter Volatilität agieren: Positionsgröße, Risikotoleranz, Disziplin und Reaktionsgeschwindigkeit – alles ist nachvollziehbar.
10.000 $
Startkapital je Modell
On‑chain
Hyperliquid Perpetuals
"Frühe Ergebnisse zeigen: Chinesische Modelle wie Qwen3 und DeepSeek liegen vorn, während Gemini und GPT‑5 deutliche Drawdowns verzeichnen."
Die Führung der China‑Modelle ist kein Beweis für generelle Überlegenheit – sie kann am Marktregime, höherem Leverage und fokussierteren Wetten liegen. Wichtig ist daher die Einordnung der Methodik und Limitationen.
Verhaltensmuster: Was machen die Top‑Modelle anders?
Aus offiziellen Ankündigungen und Berichterstattung lassen sich frühe Muster ableiten. Sie erklären, warum Qwen3/DeepSeek besser durch die ersten Tage kamen – und warum Gemini/GPT‑5 ins Hintertreffen gerieten.
Beobachtete Muster (frühe Phase)
-
Qwen3:
Wenige, fokussierte Trades; selten >2 Positionen; enge SL/TP‑Ranges; hohe Überzeugung.
-
DeepSeek:
Long‑Bias, mehr Assets, 10–15x Leverage; Stop‑Disziplin sichtbar.
-
Gemini:
Sehr viele Trades; häufig maximale Positionszahl; vorzeitige Exits trotz SL/TP; geringere Überzeugung.
-
GPT‑5:
Breiter, vorsichtiger; mehrere kleine Positionen; dennoch deutliche Drawdowns.
Diese Muster sind Momentaufnahmen. Sie können sich mit Marktphase, Volatilität und Lernparametern der Agenten ändern. Die Wertung muss daher stets mit Datum/Quelle erfolgen.
Methodik & Regeln (Alpha Arena)
So ist der Wettbewerb aufgesetzt – wichtig für die Einordnung der Ergebnisse.
-
Saison:
Season 1 live seit 17./18. Okt 2025 bis 03. Nov 2025 (Stand: 2025-10-27).
-
Startkapital:
10.000 $ je Modell (insgesamt 60.000 $ live on‑chain).
-
Märkte:
Perpetuals auf BTC, ETH, SOL, BNB, DOGE, XRP (Hyperliquid).
-
Positionsführung:
Bis zu 6 parallele Positionen (je Asset) möglich.
-
Leverage:
Wettbewerbsband 10x–20x; Auswahl je Trade modellabhängig.
-
Risikoparameter:
Pflicht
für Stop‑Loss (SL) und Take‑Profit (TP) pro Trade.
-
Autonomie:
Keine menschliche Intervention in Entscheidungslogik oder Ausführung.
-
Transparenz:
Live‑Leaderboard mit Wallet‑/Transaktions‑Einsicht; Updates in Echtzeit.
Mehr Details und Live‑Daten findest du direkt bei
nof1.ai
.
Frühe Ergebnisse und Verhaltensprofile (Stand: 22–23 Okt 2025)
Die Charts zeigen einen gemeldeten 1‑Wochen‑Snapshot sowie ein normiertes Verhaltensprofil (aus Berichten abgeleitet). Zahlen sind Näherungen; bitte Quellen beachten.
Quelle: nof1.ai (Live‑Leaderboard), Odaily (22.10.2025), BlockBeats (23.10.2025), 99Bitcoins (Okt 2025). Links siehe unten.
Quelle: nof1.ai (Live‑Leaderboard), Odaily (22.10.2025), BlockBeats (23.10.2025), 99Bitcoins (Okt 2025). Links siehe unten.
Zusatz‑Visualisierungen (optional)
Equity‑Kurven und Trade‑Distribution als illustrative Platzhalter – ersetze sie bei Bedarf mit Live‑Daten vom Leaderboard.
Modellprofile (frühe Phase)
Kurze Steckbriefe der teilnehmenden LLMs – basierend auf beobachteten Mustern und Berichten.
DeepSeek Chat V3.1
Hohe Trading‑Frequenz, Diversifikation über alle 6 Assets, disziplinierte SL/TP‑Setups, moderates bis hohes Leverage (10x–20x).
Qwen3 Max
Wenige, fokussierte Trades; selten mehr als 2 parallele Positionen; enge SL/TP; hohe Überzeugung bei Entry/Hold.
Gemini 2.5 Pro
Viele Positionswechsel, häufig maximale Parallel‑Positionen; vorzeitige Exits trotz SL/TP; inkonsistente Ausführung.
GPT‑5
Breitere, vorsichtigere Allokation; mehrere kleinere Positionen; dennoch Drawdowns – teils operative Ausführungsschwächen berichtet.
Claude Sonnet 4.5
Teilweise hoher Cash‑Anteil (≈70% in Berichten), damit geringere Volatilität; vernünftige, aber gedeckelte Upside.
Grok 4
Aktives Trading mit höherem Risiko; starke Ergebnisse möglich, wenn das Regime passt.
Wichtige Erkenntnisse für deine Roadmap
Was du aus Alpha Arena ableiten kannst – unabhängig davon, ob du tradest oder autonome Agenten in anderen Domänen evaluierst.
Fokus schlägt Over‑Trading
Wenige, klare Wetten und disziplinierte Stops wirkten in Woche 1 robuster als häufiges Umschichten.
Transparenz ist ein Feature
On‑chain Handel + öffentliche Telemetrie ermöglichen echtes Lernen statt „Black Box“.
Regime‑Abhängigkeit
Resultate sind vom Marktumfeld abhängig – ändere das Regime, ändere die Gewinner.
Guardrails zuerst
Definiere Limits, Freigaben, Eskalationen und Dokumentation, bevor du Agenten live schaltest.
Setze die Beobachtungen in Playbooks um: Policy‑as‑Code, Telemetrie, Reviews, Budget‑Limits.
Herausforderungen & Limitationen
Wichtige Einschränkungen, bevor du die Resultate interpretierst.
-
Marktregime:
Kurzfristige Trends können Modelle mit Long/Leverage bevorteilen – andere Phasen drehen das Bild.
-
Zeitraum & Stichprobe:
Wenige Tage/Wochen sind statistisch dünn; nur 6 Modelle → hohe Varianz.
-
Ausführung & Kosten:
Fees, Funding, Latenz und Slippage wirken real ein – Details variieren intraday.
-
Regel‑Constraints:
SL/TP Pflicht, Leverage‑Limits; keine menschliche Korrektur nach Entry.
-
Transparenzgrenzen:
Leaderboard zeigt PnL/Trades, aber nicht immer vollständige Mikrometriken (z. B. exakte Trade‑Zählung).
-
Benennung:
„GPT‑5“ ist in Berichten genannt; separate OpenAI‑Bestätigung liegt öffentlich nicht vor.
Fazit
In der Frühphase dominieren Qwen3 und DeepSeek – getrieben von fokussierten Trades und konsequenterem Risiko. Gemini und GPT‑5 kämpfen mit Drawdowns und inkonsistenter Ausführung. Das ist spannend, aber kein Endurteil: Das Experiment ist kurz, volatil und regime‑abhängig. Nutze die Daten, um deine Agent‑Governance zu schärfen – nicht, um Anlageentscheidungen zu treffen.
Key Takeaways
-
On‑chain Wettbewerb mit echten Budgets liefert seltene Transparenz.
-
China‑Modelle zeigen höhere Überzeugung und fokussierte Positionsführung.
-
Over‑Trading und vorzeitige Exits kosten Performance.
-
Governance, Limits, Telemetrie entscheiden über den Erfolg autonomer Agenten.
Weiterführende Informationen
Häufige Fragen (FAQ)
Wird wirklich mit echtem Kapital gehandelt?
+
Ja. Laut nof1.ai verwaltet jedes Modell ein reales 10.000‑$‑Budget, Trades laufen on‑chain über Hyperliquid. Leaderboard und Kurven sind öffentlich einsehbar (siehe Links).
Ist „GPT‑5“ bestätigt?
+
Mehrere Berichte nennen „GPT‑5“. Eine gesonderte Bestätigung durch OpenAI liegt öffentlich nicht vor. Wir verwenden die Namensgebung gemäß Berichterstattung und kennzeichnen Unsicherheiten.
Gibt es exakte Metriken zu Trades, Positionen, SL/TP?
+
Teilweise. Leaderboards, Kurven und Posts geben Einblicke. Detailmetriken (z. B. exakte Trade‑Zahlen) sind nur streckenweise öffentlich; die Verhaltenscharts sind deshalb normierte Ableitungen mit Quellenangabe.
Sind die Ergebnisse Anlageempfehlungen?
+
Nein. Es handelt sich um ein Experiment mit kurzer Laufzeit und hohem Risiko. Ergebnisse sind regime‑abhängig und statistisch nicht signifikant. Keine Finanzberatung.
Welche Assets werden gehandelt, und mit welchem Leverage?
+
Gehandelt werden BTC, ETH, SOL, BNB, DOGE und XRP als Perpetuals auf Hyperliquid. Das Wettbewerbsband liegt bei 10x–20x; die konkrete Leverage wählt das Modell je Trade. SL/TP sind Pflicht.
Wie transparent ist das Setup wirklich?
+
Wallets und PnL‑Kurven sind öffentlich einsehbar; die Frontend‑Ansicht fasst Trades/Positionen zusammen. On‑chain‑Transaktionen können über das Leaderboard verlinkt geprüft werden.
Berücksichtigt die Auswertung Gebühren, Funding, Slippage?
+
Ja, es wird live auf Hyperliquid gehandelt. Deshalb wirken Gebühren, Funding‑Raten, Latenz und Slippage real auf die PnL‑Kurve ein. Die Effekte können intraday schwanken.