BankerToolBench 2026: Wenn KI-Agenten im Investment Banking versagen
Handshake AI und die McGill University zeigen mit dem BankerToolBench-Benchmark, dass kein aktuelles KI-Modell Junior-Banker-Aufgaben zuverlässig meistert. Gleichzeitig weist GPT-5.5 eine Halluzinationsrate von 86 Prozent auf, obwohl es die Ranglisten anführt. Für Unternehmen, die KI in wissensintensiven Bereichen einsetzen wollen, liefert die Studie einen wichtigen Orientierungsrahmen, auch mit Blick auf den EU AI Act Hochrisiko-Deadline am 2. August 2026.
Das BankerToolBench-Benchmark, entwickelt von Handshake AI und der McGill University mit 502 erfahrenen Investment-Bankern, zeigt: Kein einziges der neun getesteten KI-Modelle liefert Ausgaben, die ohne Überarbeitung an Kunden geliefert werden könnten. Das beste Modell, GPT-5.4, erreicht gerade 16 Prozent akzeptabler Ergebnisse; 27 Prozent aller Ausgaben sind vollständig unbrauchbar. Parallel dazu belegt das AA-Omniscience-Benchmark, dass GPT-5.5 zwar die Ranglisten anführt, aber eine Halluzinationsrate von 86 Prozent aufweist, verglichen mit 36 Prozent bei Claude Opus 4.7. Unternehmen, die KI in regulierten oder wissensintensiven Bereichen einsetzen, müssen eigene Qualitätsbenchmarks entwickeln und Human-in-the-Loop als Prozessstandard einführen, insbesondere vor dem EU AI Act Hochrisiko-Deadline am 2. August 2026.
KI im Banking-Test: Was BankerToolBench gezeigt hat
Kein aktuelles KI-Modell erledigt Aufgaben des Investment-Banking-Alltags zuverlässig genug für den Kundenkontakt. Das ist die Kernaussage des BankerToolBench-Benchmarks, veröffentlicht im April 2026 auf arXiv (Paper 2604.11304) von Handshake AI und der McGill University. An der Studie beteiligten sich 502 aktive und ehemalige Banker aus Goldman Sachs, JPMorgan, Morgan Stanley und anderen Instituten, die 100 Aufgaben formulierten, Musterlösungen erstellten und KI-Ausgaben nach 150 Kriterien je Aufgabe bewerteten.
Die Aufgaben entsprechen typischer Junior-Banker-Arbeit: Finanzmodelle in Excel mit funktionierenden Formeln, Pitchdecks in PowerPoint, strukturierte Berichte auf Basis von SEC-Einreichungen und Marktdaten. Jede Aufgabe dauert menschlich im Schnitt 5 Stunden, manche bis zu 21 Stunden. Kein Modell überstand den Test schadlos.
Bei 41 Prozent aller KI-Ausgaben war eine umfassende Überarbeitung erforderlich. Nur 13 Prozent benötigten lediglich kleinere Korrekturen. Kein einziges Ergebnis konnte unverändert an Kunden weitergegeben werden.
Konkrete Fehlerbilder: Wo KI-Modelle scheitern
Die Fehleranalyse zeigt, dass KI-Modelle nicht einfach langsam oder unvollständig sind, sondern auf eine Art scheitern, die sich beim oberflächlichen Blick schwer erkennen lässt. Das ist aus unternehmerischer Sicht das eigentliche Problem. Claude Opus 4.6 lieferte optisch polierte Tabellenkalkulationen, in denen entscheidende Variablen als Festwerte statt als berechnete Formeln hinterlegt waren, was Szenarioanalysen unmöglich machte.
Besonders fehleranfällig zeigten sich Schuldenkapitalmarkt-Modelle, Fusionsrechnungen und Kapitalstruktur-Tabellen. Gemini 2.5 Pro erzielte im Benchmark eine Bestehensrate von null Prozent, ohne auswertbare Ausgaben zu liefern. Das KI-System "Gandalf", das als automatischer Verifizierer eingesetzt wurde, stimmte in 88,2 Prozent der Fälle mit den menschlichen Prüfern überein, was die Validität der Bewertungsrubrik bestätigt.
Das Halluzinations-Paradox: GPT-5.5 führt, aber halluziniert am meisten
Das Qualitätsproblem beschränkt sich nicht auf spezifische Aufgabentypen. Es zeigt sich auch auf Benchmark-Ebene in einem kontraintuitiven Muster: Der aktuelle Frontläufer unter den KI-Modellen weist zugleich eine der höchsten Halluzinationsraten auf. Das AA-Omniscience-Benchmark von Artificial Analysis misst Faktenwissen in mehr als 40 Themenbereichen und bestraft falsche Antworten stärker als ein ehrliches "Ich weiss es nicht".
GPT-5.5 erzielt die höchste Treffergenauigkeit bei 57 Prozent, aber auch die höchste Halluzinationsrate mit 86 Prozent. Es antwortet also vielfach auch dann, wenn es die richtige Antwort nicht kennt.
Für Hochrisiko-Anwendungen in Finanzen, Recht oder Medizin ist das Konfabulationsmuster gefährlicher als eine niedrigere Gesamtgenauigkeit bei ehrlicher Unsicherheitsangabe. Ein Modell, das 57 Prozent der Fragen korrekt beantwortet, aber bei unbekannten Fragen zu 86 Prozent trotzdem eine plausibel klingende falsche Antwort liefert, erzeugt ein schwer detektierbares Fehlerrisiko.
"Höhere Benchmark-Platzierung bedeutet nicht geringeres Halluzinationsrisiko. GPT-5.5 illustriert diesen Widerspruch auf drastische Weise."
Artificial Analysis, AA-Omniscience Benchmark, April 2026Deutsche und EU-Perspektive: EU AI Act setzt die Uhr
Die BankerToolBench-Ergebnisse kommen genau zum richtigen Zeitpunkt, um Unternehmen auf eine bevorstehende regulatorische Pflicht hinzuweisen. Am 2. August 2026 treten die vollständigen Hochrisiko-Anforderungen des EU AI Act für Systeme nach Anhang III in Kraft. KI im Bereich Finanzdienstleistungen, Bonitätsbewertung und Versicherungen fällt explizit in diese Kategorie.
BankerToolBench veröffentlicht
502 Banker belegen: Kein KI-Modell liefert client-ready Ausgaben im Investment Banking.
EU AI Act Hochrisiko-Deadline
Vollständige Pflichten für Anhang-III-Systeme: Qualitätsmanagement, technische Dokumentation, Risikomanagement, Logging, CE-Kennzeichnung.
Mögliche Fristverlängerung
EU-Kommission schlug im November 2025 eine Verlängerung vor. Der Vorschlag muss noch von Parlament und Rat verabschiedet werden.
| EU AI Act Anforderung | Pflicht für Hochrisiko (Anhang III) | Relevanz für KI in Finanzen |
|---|---|---|
| Qualitätsmanagementsystem | Ja, ab 2. August 2026 | Dokumentierte Entwicklungs- und Betriebsprozesse |
| Technische Dokumentation | Ja | Architektur, Leistungsmetriken, Testprotokolle |
| Risikomanagement | Ja | Laufende Identifikation und Minderung von Qualitätsrisiken |
| Genauigkeit und Robustheit | Ja | Messbare Qualitätskennzahlen, z.B. Halluzinationsrate |
| Logging und Aufzeichnungen | Ja | Automatische Protokollierung aller Systemausgaben |
| Menschliche Aufsicht | Ja | Fachprüfung vor Weiterleitung an Kunden |
Unternehmen, die jetzt mit KI in Finanzbereichen experimentieren, sollten ihre Qualitätsmessungen als Teil einer künftigen Compliance-Dokumentation betrachten. Bussgelder bei Verstoss erreichen bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes.
Herausforderungen und Risiken
BankerToolBench zeigt nicht nur ein technisches, sondern auch ein organisatorisches Problem: Wer auf Marketing-Claims oder generische Benchmark-Ranglisten vertraut, bekommt keine Einschätzung des echten Einsatzrisikos in spezifischen Fachdomänen. Die Konsequenzen lassen sich in vier Kategorien einteilen.
Versteckte Fehler
Hartcodierte Werte in Excel sehen korrekt aus. Nur eine Prüfung auf Formellogik oder Szenariovariation deckt das Problem auf.
Domänenblindheit
Ein Modell kann allgemeine Texte fehlerfrei verfassen und bei Finanzformeln oder klinischen Daten dennoch systematisch versagen.
Benchmark-Divergenz
Hohe Leistung im Standard-Benchmark korreliert nicht mit Zuverlässigkeit in Spezialfragen. GPT-5.5 illustriert das mit 86 Prozent Halluzinationsrate trotz Ranglisten-Führung.
Regulatorisches Risiko
Wer KI ohne dokumentierten Qualitätsnachweis in regulierten Bereichen einsetzt, baut sich ein Compliance-Risiko auf, das ab August 2026 bussgeldbewehrt ist.
Gleichzeitig zeigt BankerToolBench, wie ein sinnvoller Ansatz zur Qualitätsbewertung aussehen kann: domänenspezifische Aufgaben formulieren, Fachleute als Bewerter einsetzen, auf 150 Kriterien prüfen und Konsistenz über mehrere Durchläufe messen. Das ist übertragbar auf jede wissensintensive Branche, von Medizin bis Maschinenbau.
Was Unternehmen jetzt tun sollten
Bevor KI in wissensintensiven Bereichen produktiv eingesetzt wird, braucht es eine domänenspezifische Qualitätsbewertung. Allgemeine Benchmarks sind dafür nicht ausreichend.
-
Eigene Benchmarks entwickeln
Lass Fachleute aus der betroffenen Abteilung reale Aufgaben formulieren und KI-Ausgaben bewerten, analog zum BankerToolBench-Ansatz. Plane mindestens 20 bis 30 Aufgaben mit messbaren Qualitätskriterien.
-
Halluzinationsresistenz prüfen
Nutze Benchmarks wie AA-Omniscience als Vorfilter. Modelle mit niedrigen Halluzinationsraten, etwa Claude Opus 4.7 mit 36 Prozent oder Grok 4.20 mit 17 Prozent, sind für Hochrisiko-Bereiche besser geeignet als Benchmark-Führende mit hoher Konfabulationsneigung.
-
Human-in-the-Loop verpflichtend einführen
Alle KI-Ausgaben in Hochrisiko-Bereichen erfordern Fachprüfung vor der Weitergabe, nicht als temporäre Massnahme, sondern als Prozessstandard. Dokumentiere den Prüfprozess für die EU-AI-Act-Compliance.
-
EU AI Act Compliance jetzt vorbereiten
Starte mit der Dokumentation von Qualitätsmessungen, beschreibe Risikomanagementprozesse und plane Logging-Architekturen, auch wenn die Fristverlängerung bis 2027 kommen sollte. Wer früh anfängt, hat weniger Aufwand und mehr Nachweise.
Weiterführende Informationen
Häufig gestellte Fragen
BankerToolBench ist ein Open-Source-Benchmark von Handshake AI und der McGill University, der KI-Agenten an 100 realistischen Investment-Banking-Aufgaben misst. 502 aktive und ehemalige Banker aus Goldman Sachs, JPMorgan und Morgan Stanley erstellten die Aufgaben und bewerteten die KI-Ausgaben nach durchschnittlich 150 Kriterien pro Aufgabe.
GPT-5.4 erzielte mit 16 Prozent akzeptabler Ausgaben das beste Ergebnis. Bei drei konsistenten Durchläufen sinkt die Rate auf 13 Prozent. Kein Modell lieferte Ergebnisse, die ohne Überarbeitung an Kunden weitergegeben werden konnten. Claude Opus 4.6 erreichte 9 Prozent, Gemini 2.5 Pro null Prozent.
Eine Halluzinationsrate von 86 Prozent bedeutet, dass GPT-5.5 in 86 von 100 Fällen, in denen es die Antwort nicht kennt, dennoch eine selbstsichere, aber falsche Antwort gibt, statt die Unsicherheit einzugestehen. Das AA-Omniscience-Benchmark bestraft dieses Muster. Zum Vergleich: Claude Opus 4.7 halluziniert zu 36 Prozent, Grok 4.20 zu 17 Prozent.
Am 2. August 2026 gelten die vollständigen Hochrisiko-Anforderungen des EU AI Act für Systeme nach Anhang III, darunter KI im Bereich Finanzdienstleistungen. Bei Verstoss drohen bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes. Eine mögliche Fristverlängerung bis Dezember 2027 wurde von der EU-Kommission vorgeschlagen, ist aber noch nicht verabschiedet.
Der BankerToolBench-Ansatz ist übertragbar: Fachleute aus der betroffenen Abteilung formulieren 20 bis 30 realistische Aufgaben und bewerten KI-Ausgaben nach messbaren Kriterien. Als Vorfilter eignen sich Benchmarks wie AA-Omniscience, um Modelle mit niedrigen Halluzinationsraten zu identifizieren. Alle Tests sollten dokumentiert werden, um sie später als Grundlage für die EU-AI-Act-Compliance zu nutzen.
Direkt betroffen sind Investment Banking, Unternehmensfinanzierung und Kapitalmarktgeschäft. Die Erkenntnisse sind aber auf alle Bereiche übertragbar, in denen KI komplexe Fachdokumente erstellt: Recht, Medizin, Ingenieurwesen, Buchhaltung. Überall dort, wo Fehler erst spät entdeckt werden und direkte Konsequenzen für Kunden haben, gelten dieselben Qualitätsanforderungen.