Was sollten Unternehmen jetzt konkret tun?

Unternehmen sollten eigene domaenenspezifische Benchmarks entwickeln, Halluzinationsresistenz prüfen (AA-Omniscience), Human-in-the-Loop als Pflichtstandard einführen und bereits jetzt mit der EU-AI-Act-Compliance-Dokumentation beginnen, auch wenn die Frist sich verschieben sollte.

Geschäftsfrau verlässt Frankfurter Bankentower mit Unterlagen unter dem Arm, flaches Tageslicht, dokumentarische Szene

BankerToolBench 2026: Wenn KI-Agenten im Investment Banking versagen

502 Investment-Banker testen 9 Modelle, kein einziges liefert client-ready Ergebnisse

Handshake AI und die McGill University zeigen mit dem BankerToolBench-Benchmark, dass kein aktuelles KI-Modell Junior-Banker-Aufgaben zuverlässig meistert. Gleichzeitig weist GPT-5.5 eine Halluzinationsrate von 86 Prozent auf, obwohl es die Ranglisten anführt. Für Unternehmen, die KI in wissensintensiven Bereichen einsetzen wollen, liefert die Studie einen wichtigen Orientierungsrahmen, auch mit Blick auf den EU AI Act Hochrisiko-Deadline am 2. August 2026.

Zusammenfassung

Das BankerToolBench-Benchmark, entwickelt von Handshake AI und der McGill University mit 502 erfahrenen Investment-Bankern, zeigt: Kein einziges der neun getesteten KI-Modelle liefert Ausgaben, die ohne Überarbeitung an Kunden geliefert werden könnten. Das beste Modell, GPT-5.4, erreicht gerade 16 Prozent akzeptabler Ergebnisse; 27 Prozent aller Ausgaben sind vollständig unbrauchbar. Parallel dazu belegt das AA-Omniscience-Benchmark, dass GPT-5.5 zwar die Ranglisten anführt, aber eine Halluzinationsrate von 86 Prozent aufweist, verglichen mit 36 Prozent bei Claude Opus 4.7. Unternehmen, die KI in regulierten oder wissensintensiven Bereichen einsetzen, müssen eigene Qualitätsbenchmarks entwickeln und Human-in-the-Loop als Prozessstandard einführen, insbesondere vor dem EU AI Act Hochrisiko-Deadline am 2. August 2026.

KI im Banking-Test: Was BankerToolBench gezeigt hat

Kein aktuelles KI-Modell erledigt Aufgaben des Investment-Banking-Alltags zuverlässig genug für den Kundenkontakt. Das ist die Kernaussage des BankerToolBench-Benchmarks, veröffentlicht im April 2026 auf arXiv (Paper 2604.11304) von Handshake AI und der McGill University. An der Studie beteiligten sich 502 aktive und ehemalige Banker aus Goldman Sachs, JPMorgan, Morgan Stanley und anderen Instituten, die 100 Aufgaben formulierten, Musterlösungen erstellten und KI-Ausgaben nach 150 Kriterien je Aufgabe bewerteten.

Client-ready Ausgaben über alle 9 Modelle

16%

Akzeptable Ausgaben beim besten Modell (GPT-5.4)

27%

Vollständig unbrauchbare Ausgaben

502

Befragte Investment-Banker aus Tier-1-Instituten

Die Aufgaben entsprechen typischer Junior-Banker-Arbeit: Finanzmodelle in Excel mit funktionierenden Formeln, Pitchdecks in PowerPoint, strukturierte Berichte auf Basis von SEC-Einreichungen und Marktdaten. Jede Aufgabe dauert menschlich im Schnitt 5 Stunden, manche bis zu 21 Stunden. Kein Modell überstand den Test schadlos.

Kernbefund

Bei 41 Prozent aller KI-Ausgaben war eine umfassende Überarbeitung erforderlich. Nur 13 Prozent benötigten lediglich kleinere Korrekturen. Kein einziges Ergebnis konnte unverändert an Kunden weitergegeben werden.

Konkrete Fehlerbilder: Wo KI-Modelle scheitern

Die Fehleranalyse zeigt, dass KI-Modelle nicht einfach langsam oder unvollständig sind, sondern auf eine Art scheitern, die sich beim oberflächlichen Blick schwer erkennen lässt. Das ist aus unternehmerischer Sicht das eigentliche Problem. Claude Opus 4.6 lieferte optisch polierte Tabellenkalkulationen, in denen entscheidende Variablen als Festwerte statt als berechnete Formeln hinterlegt waren, was Szenarioanalysen unmöglich machte.

GPT-5.4 Fehlerverteilung

41% Code- und Formelfehler

27% fehlerhafte Geschäftslogik

18% fehlgeschlagene Datenbankabfragen

13% fabrizierte Daten als Quellen

Claude Opus 4.6 Fehlerbilder

Hartcodierte Zellwerte statt Formeln

Szenarioanalysen strukturell unmöglich

Optisch korrekte Ausgaben mit versteckten Fehlern

9% akzeptable Ausgaben

Besonders fehleranfällig zeigten sich Schuldenkapitalmarkt-Modelle, Fusionsrechnungen und Kapitalstruktur-Tabellen. Gemini 2.5 Pro erzielte im Benchmark eine Bestehensrate von null Prozent, ohne auswertbare Ausgaben zu liefern. Das KI-System "Gandalf", das als automatischer Verifizierer eingesetzt wurde, stimmte in 88,2 Prozent der Fälle mit den menschlichen Prüfern überein, was die Validität der Bewertungsrubrik bestätigt.

Praxisrisiko: Hartcodierte Werte in Excel-Modellen sehen aus wie korrekte Ergebnisse. Nur wer die Formelebene prüft oder Szenarioanalysen durchführt, erkennt den Fehler. In einem regulierten Umfeld oder bei Kundenpräsentationen ist das ein direktes Haftungsrisiko.

Qualitätsdaten

Das Halluzinations-Paradox: GPT-5.5 führt, aber halluziniert am meisten

Das Qualitätsproblem beschränkt sich nicht auf spezifische Aufgabentypen. Es zeigt sich auch auf Benchmark-Ebene in einem kontraintuitiven Muster: Der aktuelle Frontläufer unter den KI-Modellen weist zugleich eine der höchsten Halluzinationsraten auf. Das AA-Omniscience-Benchmark von Artificial Analysis misst Faktenwissen in mehr als 40 Themenbereichen und bestraft falsche Antworten stärker als ein ehrliches "Ich weiss es nicht".

Gedrucktes Benchmark-Vergleichsdiagramm auf Konferenztisch mit rotem Stift, der eine Prozentzahlspalte einkreist, in einem deutschen Bürobesprechungsraum — AA-Omniscience misst, wie oft ein Modell falsche Antworten mit hoher Sicherheit gibt, statt Unsicherheit zuzugeben.

GPT-5.5 erzielt die höchste Treffergenauigkeit bei 57 Prozent, aber auch die höchste Halluzinationsrate mit 86 Prozent. Es antwortet also vielfach auch dann, wenn es die richtige Antwort nicht kennt.

Artificial Analysis, AA-Omniscience Benchmark , April 2026

GPT-5.5 Halluzinationsrate 86%

Gemini 3.1 Pro Halluzinationsrate 50%

Claude Opus 4.7 Halluzinationsrate 36%

Grok 4.20 Halluzinationsrate (niedrigster Wert) 17%

Für Hochrisiko-Anwendungen in Finanzen, Recht oder Medizin ist das Konfabulationsmuster gefährlicher als eine niedrigere Gesamtgenauigkeit bei ehrlicher Unsicherheitsangabe. Ein Modell, das 57 Prozent der Fragen korrekt beantwortet, aber bei unbekannten Fragen zu 86 Prozent trotzdem eine plausibel klingende falsche Antwort liefert, erzeugt ein schwer detektierbares Fehlerrisiko.

"Höhere Benchmark-Platzierung bedeutet nicht geringeres Halluzinationsrisiko. GPT-5.5 illustriert diesen Widerspruch auf drastische Weise."

Artificial Analysis, AA-Omniscience Benchmark, April 2026

Deutsche und EU-Perspektive: EU AI Act setzt die Uhr

Die BankerToolBench-Ergebnisse kommen genau zum richtigen Zeitpunkt, um Unternehmen auf eine bevorstehende regulatorische Pflicht hinzuweisen. Am 2. August 2026 treten die vollständigen Hochrisiko-Anforderungen des EU AI Act für Systeme nach Anhang III in Kraft. KI im Bereich Finanzdienstleistungen, Bonitätsbewertung und Versicherungen fällt explizit in diese Kategorie.

April 2026

BankerToolBench veröffentlicht

502 Banker belegen: Kein KI-Modell liefert client-ready Ausgaben im Investment Banking.

2. August 2026

EU AI Act Hochrisiko-Deadline

Vollständige Pflichten für Anhang-III-Systeme: Qualitätsmanagement, technische Dokumentation, Risikomanagement, Logging, CE-Kennzeichnung.

Dezember 2027 (vorgeschlagen)

Mögliche Fristverlängerung

EU-Kommission schlug im November 2025 eine Verlängerung vor. Der Vorschlag muss noch von Parlament und Rat verabschiedet werden.

EU AI Act Anforderung	Pflicht für Hochrisiko (Anhang III)	Relevanz für KI in Finanzen
Qualitätsmanagementsystem	Ja, ab 2. August 2026	Dokumentierte Entwicklungs- und Betriebsprozesse
Technische Dokumentation	Ja	Architektur, Leistungsmetriken, Testprotokolle
Risikomanagement	Ja	Laufende Identifikation und Minderung von Qualitätsrisiken
Genauigkeit und Robustheit	Ja	Messbare Qualitätskennzahlen, z.B. Halluzinationsrate
Logging und Aufzeichnungen	Ja	Automatische Protokollierung aller Systemausgaben
Menschliche Aufsicht	Ja	Fachprüfung vor Weiterleitung an Kunden

Unternehmen, die jetzt mit KI in Finanzbereichen experimentieren, sollten ihre Qualitätsmessungen als Teil einer künftigen Compliance-Dokumentation betrachten. Bussgelder bei Verstoss erreichen bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes.

Herausforderungen und Risiken

BankerToolBench zeigt nicht nur ein technisches, sondern auch ein organisatorisches Problem: Wer auf Marketing-Claims oder generische Benchmark-Ranglisten vertraut, bekommt keine Einschätzung des echten Einsatzrisikos in spezifischen Fachdomänen. Die Konsequenzen lassen sich in vier Kategorien einteilen.

Versteckte Fehler

Hartcodierte Werte in Excel sehen korrekt aus. Nur eine Prüfung auf Formellogik oder Szenariovariation deckt das Problem auf.

Domänenblindheit

Ein Modell kann allgemeine Texte fehlerfrei verfassen und bei Finanzformeln oder klinischen Daten dennoch systematisch versagen.

Benchmark-Divergenz

Hohe Leistung im Standard-Benchmark korreliert nicht mit Zuverlässigkeit in Spezialfragen. GPT-5.5 illustriert das mit 86 Prozent Halluzinationsrate trotz Ranglisten-Führung.

Regulatorisches Risiko

Wer KI ohne dokumentierten Qualitätsnachweis in regulierten Bereichen einsetzt, baut sich ein Compliance-Risiko auf, das ab August 2026 bussgeldbewehrt ist.

Gleichzeitig zeigt BankerToolBench, wie ein sinnvoller Ansatz zur Qualitätsbewertung aussehen kann: domänenspezifische Aufgaben formulieren, Fachleute als Bewerter einsetzen, auf 150 Kriterien prüfen und Konsistenz über mehrere Durchläufe messen. Das ist übertragbar auf jede wissensintensive Branche, von Medizin bis Maschinenbau.

Handlungsempfehlungen

Was Unternehmen jetzt tun sollten

Bevor KI in wissensintensiven Bereichen produktiv eingesetzt wird, braucht es eine domänenspezifische Qualitätsbewertung. Allgemeine Benchmarks sind dafür nicht ausreichend.

Whiteboard in einem deutschen Mittelstands-Workshop-Raum mit handgezeichnetem KI-Evaluations-Raster für Modell, Halluzination und Branche — Unternehmen sollten eigene Evaluationsmatrizen entwickeln, bevor sie KI in regulierten Bereichen einsetzen.

Eigene Benchmarks entwickeln

Lass Fachleute aus der betroffenen Abteilung reale Aufgaben formulieren und KI-Ausgaben bewerten, analog zum BankerToolBench-Ansatz. Plane mindestens 20 bis 30 Aufgaben mit messbaren Qualitätskriterien.
Halluzinationsresistenz prüfen

Nutze Benchmarks wie AA-Omniscience als Vorfilter. Modelle mit niedrigen Halluzinationsraten, etwa Claude Opus 4.7 mit 36 Prozent oder Grok 4.20 mit 17 Prozent, sind für Hochrisiko-Bereiche besser geeignet als Benchmark-Führende mit hoher Konfabulationsneigung.
Human-in-the-Loop verpflichtend einführen

Alle KI-Ausgaben in Hochrisiko-Bereichen erfordern Fachprüfung vor der Weitergabe, nicht als temporäre Massnahme, sondern als Prozessstandard. Dokumentiere den Prüfprozess für die EU-AI-Act-Compliance.
EU AI Act Compliance jetzt vorbereiten

Starte mit der Dokumentation von Qualitätsmessungen, beschreibe Risikomanagementprozesse und plane Logging-Architekturen, auch wenn die Fristverlängerung bis 2027 kommen sollte. Wer früh anfängt, hat weniger Aufwand und mehr Nachweise.

Client-ready ohne Prüfung

86%

GPT-5.5 Halluzinationsrate

2. Aug.

EU AI Act Deadline 2026

15 Mio.

Max. Bussgeldhöhe in Euro

Weiterführende Informationen

Agent Skills Realitätscheck 2026: Studie entzaubert Hype Stanford AI Index 2026: KI-Adoption auf Rekordniveau Ethik und rechtliche KI-Compliance: Leitfaden für Unternehmen EU AI Act: Warum Unternehmen jetzt handeln müssen Mittelstand 2026: KI-Boom trifft auf Strategielücke BankerToolBench: Originalstudie auf arXiv (2604.11304) AA-Omniscience: Knowledge and Hallucination Benchmark (Artificial Analysis) BankerToolBench auf GitHub (Open Source)

Häufig gestellte Fragen

Was ist BankerToolBench? +

BankerToolBench ist ein Open-Source-Benchmark von Handshake AI und der McGill University, der KI-Agenten an 100 realistischen Investment-Banking-Aufgaben misst. 502 aktive und ehemalige Banker aus Goldman Sachs, JPMorgan und Morgan Stanley erstellten die Aufgaben und bewerteten die KI-Ausgaben nach durchschnittlich 150 Kriterien pro Aufgabe.

Welches KI-Modell schneidet bei BankerToolBench am besten ab? +

GPT-5.4 erzielte mit 16 Prozent akzeptabler Ausgaben das beste Ergebnis. Bei drei konsistenten Durchläufen sinkt die Rate auf 13 Prozent. Kein Modell lieferte Ergebnisse, die ohne Überarbeitung an Kunden weitergegeben werden konnten. Claude Opus 4.6 erreichte 9 Prozent, Gemini 2.5 Pro null Prozent.

Was bedeutet eine Halluzinationsrate von 86 Prozent bei GPT-5.5? +

Eine Halluzinationsrate von 86 Prozent bedeutet, dass GPT-5.5 in 86 von 100 Fällen, in denen es die Antwort nicht kennt, dennoch eine selbstsichere, aber falsche Antwort gibt, statt die Unsicherheit einzugestehen. Das AA-Omniscience-Benchmark bestraft dieses Muster. Zum Vergleich: Claude Opus 4.7 halluziniert zu 36 Prozent, Grok 4.20 zu 17 Prozent.

Wann tritt der EU AI Act Hochrisiko-Deadline in Kraft? +

Am 2. August 2026 gelten die vollständigen Hochrisiko-Anforderungen des EU AI Act für Systeme nach Anhang III, darunter KI im Bereich Finanzdienstleistungen. Bei Verstoss drohen bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes. Eine mögliche Fristverlängerung bis Dezember 2027 wurde von der EU-Kommission vorgeschlagen, ist aber noch nicht verabschiedet.

Wie lässt sich die KI-Qualität im eigenen Unternehmen messen? +

Der BankerToolBench-Ansatz ist übertragbar: Fachleute aus der betroffenen Abteilung formulieren 20 bis 30 realistische Aufgaben und bewerten KI-Ausgaben nach messbaren Kriterien. Als Vorfilter eignen sich Benchmarks wie AA-Omniscience, um Modelle mit niedrigen Halluzinationsraten zu identifizieren. Alle Tests sollten dokumentiert werden, um sie später als Grundlage für die EU-AI-Act-Compliance zu nutzen.

Welche Branchen sind von den BankerToolBench-Erkenntnissen am stärksten betroffen? +

Direkt betroffen sind Investment Banking, Unternehmensfinanzierung und Kapitalmarktgeschäft. Die Erkenntnisse sind aber auf alle Bereiche übertragbar, in denen KI komplexe Fachdokumente erstellt: Recht, Medizin, Ingenieurwesen, Buchhaltung. Überall dort, wo Fehler erst spät entdeckt werden und direkte Konsequenzen für Kunden haben, gelten dieselben Qualitätsanforderungen.