Passantin stöbert an einem Bücherstand mit gebrauchten Büchern am Straßenrand vor einem kleinen Buchladen

KI-Trainingsdaten 2026: Wenn die Herkunft zum Geschäftsrisiko wird

Microsoft-Widerspruch, verdeckte Claude-Nutzung und ein Rekordvergleich: warum die Datenlinie eines Modells 2026 über den Einsatz entscheidet.

Innerhalb einer Woche im Juni 2026 geriet Microsoft wegen widersprüchlicher Angaben zu seinen Trainingsdaten unter Druck, wurde ein Bericht über xAIs verdeckte Nutzung von Anthropics Claude bekannt, und der Start der EU-Durchsetzung für Allzweck-KI rückte näher. Für dich als Entscheider verschiebt sich damit eine bislang akademische Frage in die Beschaffung: Womit wurde dieses Modell eigentlich trainiert? Dieser Artikel ordnet die Fälle ein, erklärt EU AI Act und deutsches Urheberrecht und zeigt, wie du Datenherkunft prüfst, bevor du ein Modell einsetzt.

Zusammenfassung

Die Herkunft von KI-Trainingsdaten ist 2026 zur Rechts- und Beschaffungsfrage geworden. Microsoft warb auf der Build 2026 für seine MAI-Modelle mit sauberen, kommerziell lizenzierten Daten ohne Distillation, das eigene technische Paper nennt jedoch Common Crawl mit 24,2 Milliarden web-gescrapten Seiten. Fast zeitgleich wurde berichtet, dass Elon Musks xAI über Monate Claude-Ausgaben in eigene Coding-Modelle destilliert und nach dem Zugangsentzug durch Anthropic über Privataccounts weitergemacht habe. Rechtlich verdichtet sich die Lage: Der EU AI Act verpflichtet Anbieter von Allzweck-KI seit August 2025 zu einer Zusammenfassung ihrer Trainingsinhalte und einer Copyright-Policy, ab dem 2. August 2026 drohen Bußgelder. In den USA zahlt Anthropic im Fall Bartz 1,5 Milliarden US-Dollar für rund 500.000 Buchtitel, der größte Urheberrechtsvergleich des Landes. Für Unternehmen heißt das: Datenherkunft gehört in die Anbieterprüfung, in Verträge mit Freistellungsklauseln und in die eigene Daten-Governance.

Warum die Herkunft von KI-Daten zum Geschäftsrisiko wird

Die Datenherkunft entscheidet 2026 darüber, ob ein KI-Modell rechtssicher in einem Unternehmen eingesetzt werden kann. Die Frage Womit wurde dieses Modell trainiert? ist von einer akademischen zu einer Beschaffungsfrage geworden, weil Rechtsabteilungen die Datenlinie populärer Modelle prüfen, bevor sie diese in Finanzwesen, Gesundheit oder Verwaltung einsetzen.

1,5 Mrd.

US-Dollar Vergleich

Bartz v. Anthropic

24,2 Mrd.

web-gescrapte Seiten

im MAI-Trainingskorpus

KI-Copyright-Klagen

US-Gerichte, Anfang 2026

2. Aug 2026

GPAI-Durchsetzung

Bußgelder möglich

rund 500.000

erfasste Buchtitel

im Anthropic-Vergleich

rund 24

Code-of-Practice-Unterzeichner

GPAI-Anbieter

Datenprovenance ist die nachvollziehbare Herkunft der Trainingsdaten eines KI-Modells, also welche Quellen genutzt, wie sie erworben und ob Rechte und Opt-outs beachtet wurden.

Datenherkunft berührt drei Ebenen zugleich: das Urheberrecht, das Vertragsrecht und das Reputationsrisiko. Wer ein Modell einkauft, erbt indirekt die Trainingsdaten-Risiken des Anbieters. Wie sich rechtliche Pflichten und Praxis im Unternehmen verbinden lassen, ordnet innobu im Leitfaden zu ethischer und rechtlicher KI-Compliance ein.

Microsoft und xAI: zwei Lehrstücke über Datenprovenance

Beide Fälle zeigen denselben Kern: Marketing-Aussagen zu Trainingsdaten decken sich nicht zwangsläufig mit der technischen Realität, und Unternehmen müssen das selbst prüfen. Microsoft-KI-Chef Mustafa Suleyman beschrieb das Modell MAI-Thinking-1 als von Grund auf mit sauberen, kommerziell lizenzierten Daten ohne Distillation aus Drittmodellen trainiert. Das veröffentlichte technische Paper widerspricht dieser Darstellung.

Microsoft MAI: Anspruch gegen Paper

Werbeaussage: saubere, kommerziell lizenzierte Daten ohne Distillation

Paper: Pipeline startet mit rund 1,2 Billionen gecrawlten Seiten, gefiltert auf 794 Milliarden

Common Crawl als Bestandteil, 24,2 Milliarden web-gescrapte Seiten

Common Crawl macht keine Lizenzzusagen und vergütet keine Rechteinhaber

xAI: verdeckte Claude-Nutzung

Laut Bericht über Monate Claude-Ausgaben in eigene Coding-Modelle destilliert

Nach Zugangsentzug durch Anthropic im Januar 2026 über Privataccounts und Blackbox AI weiter

Anthropics Geschäftsbedingungen (Abschnitt D.4) verbieten das Training konkurrierender Modelle

Anthropic geht inzwischen gezielt gegen unautorisierte Claude-Nutzung vor

Von Grund auf mit sauberen, kommerziell lizenzierten Daten trainiert. Das eigene technische Paper nennt trotzdem Common Crawl.

Gegenüberstellung der Microsoft-Aussage und des MAI-Papers, Juni 2026

Die Lehre für Entscheider ist nüchtern: Eine Aussage wie sauber oder lizenziert ist keine Prüfung, sondern eine Behauptung. Belastbar wird sie erst durch die dokumentierte Datenquelle, und genau die verlangt der EU AI Act jetzt.

Der EU AI Act macht Datenherkunft zur Pflicht

Der EU AI Act verlangt von Anbietern von Allzweck-KI seit dem 2. August 2025 erstmals belastbare Angaben zu ihren Trainingsdaten. Kern ist eine hinreichend detaillierte Zusammenfassung der Trainingsinhalte nach einer verbindlichen Vorlage des AI Office (Artikel 53 Absatz 1 d) plus eine Copyright-Policy (Artikel 53 Absatz 1 c). Ab dem 2. August 2026 kann die Kommission Verstöße mit Bußgeldern durchsetzen.

Schichtdiagramm der Datenherkunft-Governance mit Datenquellen, Anbieterpflichten nach EU AI Act und Unternehmens-Sorgfalt — Datenherkunft-Governance in drei Ebenen: von der Datenquelle über die Anbieterpflichten nach Artikel 53 bis zur Sorgfalt der einsetzenden Unternehmen.

Die Vorlage des AI Office verlangt drei Blöcke: allgemeine Modellangaben, eine Liste der Datenquellen inklusive der wichtigsten 10 Prozent der Domainnamen bei Web-Scraping, sowie die Verarbeitung inklusive Umgang mit Opt-outs nach der Urheberrechts-Richtlinie. Rund 24 Anbieter haben den begleitenden GPAI Code of Practice unterzeichnet, darunter Anthropic, Google, Microsoft, Mistral und OpenAI. Meta hat nicht unterzeichnet.

Wichtig

Die Zusammenfassung ist kein Marketingtext, sondern ein prüfbares Dokument. Für vor dem 2. August 2025 veröffentlichte Modelle greift die Pflicht erst ab dem 2. August 2027, für neue Modelle gilt sie bereits. Wer Modelle beschafft, kann diese Unterlagen anfordern und gegen Werbeaussagen halten.

Wie sich die GPAI-Pflichten in den größeren Fahrplan des EU AI Act einordnen, zeigt innobu im Beitrag zu den Hochrisiko-Fristen des EU AI Act bis 2027 und 2028 .

Deutsche Perspektive: Paragraf 44b UrhG und der Opt-out

In Deutschland regelt Paragraf 44b UrhG das Text und Data Mining: Die Vervielfältigung rechtmäßig zugänglicher Werke ist erlaubt, solange der Rechteinhaber keinen Nutzungsvorbehalt erklärt. Bei online zugänglichen Werken ist dieser Vorbehalt nur wirksam, wenn er maschinenlesbar ist. Genau hier liegt 2026 der Streit.

Nutzungsvorbehalt ist die Erklärung eines Rechteinhabers, dass seine online zugänglichen Werke nicht für Text und Data Mining genutzt werden dürfen. Online ist er nur maschinenlesbar wirksam, etwa per robots.txt oder dem Protokoll TDM-Rep.

Das Landgericht Hamburg entschied im Fall des Fotografen Robert Kneschke gegen den Datensatz-Ersteller LAION, dass KI-Training nicht grundsätzlich aus dem Anwendungsbereich von Paragraf 44b fällt. Das Gericht hielt zudem für denkbar, dass ein in natürlicher Sprache erklärter Vorbehalt als maschinenlesbar genügt, weil moderne KI Sprache interpretieren kann.

Was das für eigene Inhalte heißt: Wer nicht in Trainingsdaten landen will, muss den Vorbehalt aktiv und maschinenlesbar setzen. Praktisch durchsetzbar ist das heute über robots.txt und das W3C-Protokoll TDM-Rep. Ein bloßer Hinweis im Impressum genügt nach verbreiteter Auslegung nicht.

Für Unternehmen, die personenbezogene Daten verarbeiten, kommt der Datenschutz hinzu, denn Trainings- und Eingabedaten können der DSGVO unterliegen. Wie sich KI-Sicherheit und Datenschutz im deutschen Kontext verzahnen, vertieft innobu im Beitrag zu KI-Sicherheit und Datenschutz in Deutschland .

Was der 1,5-Milliarden-Vergleich signalisiert

Der Vergleich im Fall Bartz v. Anthropic zeigt, dass nicht die Nutzung als solche, sondern die Art der Datenbeschaffung das größte Risiko ist. Anthropic zahlt 1,5 Milliarden US-Dollar in einen Vergleichsfonds, rund 500.000 Buchtitel sind erfasst, Rechteinhaber können mit mindestens rund 3.000 US-Dollar je Titel rechnen. Es ist der größte Urheberrechtsvergleich der USA.

Reihe abgenutzter gebundener Bücher in einem Bibliotheksregal, ein Band halb herausgezogen, dazwischen ein Papierstreifen — Bücher als Trainingsmaterial: Im US-Verfahren ging es um Werke, die aus Schattenbibliotheken stammten, nicht um die Modellnutzung selbst.

1,5 Mrd.

US-Dollar Vergleichsfonds

rund 500.000

erfasste Buchtitel

rund 3.000

US-Dollar je Titel

Richter William Alsup entschied 2025, dass Training mit legal erworbenen Büchern Fair Use sein kann, das Herunterladen aus Schattenbibliotheken wie LibGen jedoch nicht. Anfang 2026 waren rund 51 KI-Urheberrechtsklagen an US-Gerichten anhängig. Die Botschaft für Anbieter und Kunden lautet: Herkunft und Erwerbsweg der Trainingsdaten sind justiziabel, nicht nur die Modellnutzung.

Wichtig

Fair Use ist ein US-Konzept und in der EU nicht anwendbar. Für europäische Unternehmen zählt daher der Erwerbsweg plus die Opt-out-Lage nach Paragraf 44b UrhG, nicht eine pauschale Fair-Use-Annahme des Anbieters.

Herausforderungen und Risiken

Das Thema ist nicht einseitig. Vollständige Lizenzierung aller Trainingsdaten ist teuer und praktisch kaum umsetzbar, und ein Teil der Branche hält Web-Scraping für eine notwendige Grundlage von Innovation. Gleichzeitig tragen Unternehmen, die solche Modelle einsetzen, ein reales Restrisiko.

Argumente der Anbieter-Seite

Common Crawl ist seit Jahren Industriestandard für Web-Daten

Ein US-Gericht wertete Training auf legal zugänglichen Werken teils als Fair Use

Vollständige Lizenzierung würde kleinere Anbieter benachteiligen

Kritische Gegenstimmen

Manche halten die Transparenz-Vorlage für zu vage

Rechteinhaber sehen ihre Werke ohne Vergütung genutzt

Die Beweislast verschiebt sich faktisch zu den Urhebern

Das eigentliche Unternehmensrisiko: Modell-Anbieter offenbaren ihre Datenlinie oft nur teilweise, Freistellungen greifen nur unter Bedingungen, und in regulierten Branchen kann eine unklare Datenlinie eine Beschaffung blockieren. Wer das Risiko nicht prüft, trägt es trotzdem.

Was Unternehmen jetzt tun sollten

Unternehmen sollten Datenherkunft fest in ihre KI-Beschaffung einbauen, statt sich auf Marketing-Aussagen zu verlassen. Drei Hebel sind sofort umsetzbar: Anbieterprüfung, vertragliche Absicherung und eigene Daten-Governance.

Zwei Kolleginnen und Kollegen prüfen am Besprechungstisch einen gedruckten KI-Anbietervertrag, daneben ein aufgeklappter Laptop — Datenherkunft gehört in die Beschaffung: Anbieterprüfung und Vertrag entscheiden über das Restrisiko beim KI-Einsatz.

Anbieter prüfen

Fordere die GPAI-Trainingsdaten-Zusammenfassung und die Copyright-Policy an und gleiche sie mit den Marketing-Aussagen ab. Achte auf die genannten Datenquellen und den Umgang mit Opt-outs, nicht auf Schlagworte wie sauber oder lizenziert.
Vertraglich absichern

Nutze Freistellungsklauseln. Microsofts Copilot Copyright Commitment, Google Cloud, OpenAIs Copyright Shield und Anthropic bieten sie an, jeweils mit Bedingungen wie aktiven Schutzfiltern und Rechten an den Eingabedaten. Kläre, was die Freistellung wirklich abdeckt.
Eigene Daten ordnen

Dokumentiere bei eigenem Fine-Tuning die Herkunft deiner Trainingsdaten und respektiere fremde Opt-outs über robots.txt und TDM-Rep. So vermeidest du, das Problem in eigene Modelle zu tragen.
Branche und Workload einordnen

Lege fest, wo eine unklare Datenlinie tragbar ist und wo nicht. In Finanzwesen, Gesundheit und Verwaltung sollte die Datenherkunft Teil der Freigabe sein, bevor ein Modell in den Betrieb geht.

Wichtig

Datenherkunft ist 2026 kein Spezialthema für Juristen mehr, sondern Teil jeder ernsthaften KI-Beschaffung. Wer Anbieter prüft, Verträge absichert und eigene Daten ordnet, senkt sein Risiko deutlich, ohne den KI-Einsatz auszubremsen.

Weiterführende Informationen

EU AI Act: Hochrisiko-Fristen bis 2027 und 2028 Ethik und rechtliche KI-Compliance: Leitfaden KI-Sicherheit und Datenschutz in Deutschland EU-Souveränitätspaket 2026: Chips Act, CAIDA und Cloud EU AI Act, Artikel 53: Pflichten für GPAI-Anbieter Authors Guild: Was Autoren zum Anthropic-Vergleich wissen müssen Paragraf 44b UrhG: Text und Data Mining (Gesetzestext)

Häufig gestellte Fragen

Warum wird die Herkunft von KI-Trainingsdaten 2026 zum Risiko? +

Weil Rechtsabteilungen vor dem Einsatz prüfen, womit ein Modell trainiert wurde. Microsoft warb für seine MAI-Modelle mit sauberen, lizenzierten Daten, das eigene Paper nennt jedoch Common Crawl mit 24,2 Milliarden web-gescrapten Seiten. Wer ein Modell einkauft, erbt indirekt dessen Trainingsdaten-Risiken aus Urheber-, Vertrags- und Reputationssicht.

Was verlangt der EU AI Act zur Trainingsdaten-Transparenz? +

Anbieter von Allzweck-KI müssen seit dem 2. August 2025 eine hinreichend detaillierte Zusammenfassung der Trainingsinhalte nach einer Vorlage des AI Office veröffentlichen (Artikel 53 Absatz 1 d) und eine Copyright-Policy führen (Artikel 53 Absatz 1 c). Ab dem 2. August 2026 kann die Kommission Verstöße mit Bußgeldern durchsetzen.

Was bedeutet Paragraf 44b UrhG für KI-Training in Deutschland? +

Paragraf 44b UrhG erlaubt Text und Data Mining an rechtmäßig zugänglichen Werken, solange der Rechteinhaber keinen Nutzungsvorbehalt erklärt. Bei online zugänglichen Werken ist dieser Vorbehalt nur wirksam, wenn er maschinenlesbar ist, etwa über robots.txt oder das Protokoll TDM-Rep. Das Landgericht Hamburg entschied, dass KI-Training nicht grundsätzlich aus dem Anwendungsbereich fällt.

Worum ging es im 1,5-Milliarden-Vergleich von Anthropic? +

Im Fall Bartz v. Anthropic zahlt Anthropic 1,5 Milliarden US-Dollar in einen Vergleichsfonds, rund 500.000 Buchtitel sind erfasst, Rechteinhaber können mit mindestens rund 3.000 US-Dollar je Titel rechnen. Richter Alsup entschied 2025, dass Training mit legal erworbenen Büchern Fair Use sein kann, das Herunterladen aus Schattenbibliotheken jedoch nicht.

Was sollten Unternehmen jetzt konkret tun? +

Drei Schritte sind sofort umsetzbar: erstens die GPAI-Trainingsdaten-Zusammenfassung und die Copyright-Policy des Anbieters anfordern und mit dessen Marketing abgleichen, zweitens Freistellungsklauseln vertraglich nutzen, etwa Microsofts Copilot Copyright Commitment, OpenAIs Copyright Shield oder die Angebote von Google und Anthropic, jeweils mit Bedingungen, drittens bei eigenem Fine-Tuning die Datenherkunft dokumentieren und fremde Opt-outs respektieren.

KI-Trainingsdaten 2026: Wenn die Herkunft zum Geschäftsrisiko wird

Warum die Herkunft von KI-Daten zum Geschäftsrisiko wird

Microsoft und xAI: zwei Lehrstücke über Datenprovenance

Der EU AI Act macht Datenherkunft zur Pflicht

Deutsche Perspektive: Paragraf 44b UrhG und der Opt-out

Was der 1,5-Milliarden-Vergleich signalisiert

Herausforderungen und Risiken

Was Unternehmen jetzt tun sollten

Anbieter prüfen

Vertraglich absichern

Eigene Daten ordnen

Branche und Workload einordnen

Weiterführende Informationen

Häufig gestellte Fragen