KI-Trainingsdaten 2026: Wenn die Herkunft zum Geschäftsrisiko wird
Innerhalb einer Woche im Juni 2026 geriet Microsoft wegen widersprüchlicher Angaben zu seinen Trainingsdaten unter Druck, wurde ein Bericht über xAIs verdeckte Nutzung von Anthropics Claude bekannt, und der Start der EU-Durchsetzung für Allzweck-KI rückte näher. Für dich als Entscheider verschiebt sich damit eine bislang akademische Frage in die Beschaffung: Womit wurde dieses Modell eigentlich trainiert? Dieser Artikel ordnet die Fälle ein, erklärt EU AI Act und deutsches Urheberrecht und zeigt, wie du Datenherkunft prüfst, bevor du ein Modell einsetzt.
Die Herkunft von KI-Trainingsdaten ist 2026 zur Rechts- und Beschaffungsfrage geworden. Microsoft warb auf der Build 2026 für seine MAI-Modelle mit sauberen, kommerziell lizenzierten Daten ohne Distillation, das eigene technische Paper nennt jedoch Common Crawl mit 24,2 Milliarden web-gescrapten Seiten. Fast zeitgleich wurde berichtet, dass Elon Musks xAI über Monate Claude-Ausgaben in eigene Coding-Modelle destilliert und nach dem Zugangsentzug durch Anthropic über Privataccounts weitergemacht habe. Rechtlich verdichtet sich die Lage: Der EU AI Act verpflichtet Anbieter von Allzweck-KI seit August 2025 zu einer Zusammenfassung ihrer Trainingsinhalte und einer Copyright-Policy, ab dem 2. August 2026 drohen Bußgelder. In den USA zahlt Anthropic im Fall Bartz 1,5 Milliarden US-Dollar für rund 500.000 Buchtitel, der größte Urheberrechtsvergleich des Landes. Für Unternehmen heißt das: Datenherkunft gehört in die Anbieterprüfung, in Verträge mit Freistellungsklauseln und in die eigene Daten-Governance.
Warum die Herkunft von KI-Daten zum Geschäftsrisiko wird
Die Datenherkunft entscheidet 2026 darüber, ob ein KI-Modell rechtssicher in einem Unternehmen eingesetzt werden kann. Die Frage Womit wurde dieses Modell trainiert? ist von einer akademischen zu einer Beschaffungsfrage geworden, weil Rechtsabteilungen die Datenlinie populärer Modelle prüfen, bevor sie diese in Finanzwesen, Gesundheit oder Verwaltung einsetzen.
Datenherkunft berührt drei Ebenen zugleich: das Urheberrecht, das Vertragsrecht und das Reputationsrisiko. Wer ein Modell einkauft, erbt indirekt die Trainingsdaten-Risiken des Anbieters. Wie sich rechtliche Pflichten und Praxis im Unternehmen verbinden lassen, ordnet innobu im Leitfaden zu ethischer und rechtlicher KI-Compliance ein.
Microsoft und xAI: zwei Lehrstücke über Datenprovenance
Beide Fälle zeigen denselben Kern: Marketing-Aussagen zu Trainingsdaten decken sich nicht zwangsläufig mit der technischen Realität, und Unternehmen müssen das selbst prüfen. Microsoft-KI-Chef Mustafa Suleyman beschrieb das Modell MAI-Thinking-1 als von Grund auf mit sauberen, kommerziell lizenzierten Daten ohne Distillation aus Drittmodellen trainiert. Das veröffentlichte technische Paper widerspricht dieser Darstellung.
Von Grund auf mit sauberen, kommerziell lizenzierten Daten trainiert. Das eigene technische Paper nennt trotzdem Common Crawl.
Gegenüberstellung der Microsoft-Aussage und des MAI-Papers, Juni 2026Die Lehre für Entscheider ist nüchtern: Eine Aussage wie sauber oder lizenziert ist keine Prüfung, sondern eine Behauptung. Belastbar wird sie erst durch die dokumentierte Datenquelle, und genau die verlangt der EU AI Act jetzt.
Der EU AI Act macht Datenherkunft zur Pflicht
Der EU AI Act verlangt von Anbietern von Allzweck-KI seit dem 2. August 2025 erstmals belastbare Angaben zu ihren Trainingsdaten. Kern ist eine hinreichend detaillierte Zusammenfassung der Trainingsinhalte nach einer verbindlichen Vorlage des AI Office (Artikel 53 Absatz 1 d) plus eine Copyright-Policy (Artikel 53 Absatz 1 c). Ab dem 2. August 2026 kann die Kommission Verstöße mit Bußgeldern durchsetzen.
Die Vorlage des AI Office verlangt drei Blöcke: allgemeine Modellangaben, eine Liste der Datenquellen inklusive der wichtigsten 10 Prozent der Domainnamen bei Web-Scraping, sowie die Verarbeitung inklusive Umgang mit Opt-outs nach der Urheberrechts-Richtlinie. Rund 24 Anbieter haben den begleitenden GPAI Code of Practice unterzeichnet, darunter Anthropic, Google, Microsoft, Mistral und OpenAI. Meta hat nicht unterzeichnet.
Die Zusammenfassung ist kein Marketingtext, sondern ein prüfbares Dokument. Für vor dem 2. August 2025 veröffentlichte Modelle greift die Pflicht erst ab dem 2. August 2027, für neue Modelle gilt sie bereits. Wer Modelle beschafft, kann diese Unterlagen anfordern und gegen Werbeaussagen halten.
Wie sich die GPAI-Pflichten in den größeren Fahrplan des EU AI Act einordnen, zeigt innobu im Beitrag zu den Hochrisiko-Fristen des EU AI Act bis 2027 und 2028 .
Deutsche Perspektive: Paragraf 44b UrhG und der Opt-out
In Deutschland regelt Paragraf 44b UrhG das Text und Data Mining: Die Vervielfältigung rechtmäßig zugänglicher Werke ist erlaubt, solange der Rechteinhaber keinen Nutzungsvorbehalt erklärt. Bei online zugänglichen Werken ist dieser Vorbehalt nur wirksam, wenn er maschinenlesbar ist. Genau hier liegt 2026 der Streit.
Das Landgericht Hamburg entschied im Fall des Fotografen Robert Kneschke gegen den Datensatz-Ersteller LAION, dass KI-Training nicht grundsätzlich aus dem Anwendungsbereich von Paragraf 44b fällt. Das Gericht hielt zudem für denkbar, dass ein in natürlicher Sprache erklärter Vorbehalt als maschinenlesbar genügt, weil moderne KI Sprache interpretieren kann.
Was das für eigene Inhalte heißt: Wer nicht in Trainingsdaten landen will, muss den Vorbehalt aktiv und maschinenlesbar setzen. Praktisch durchsetzbar ist das heute über robots.txt und das W3C-Protokoll TDM-Rep. Ein bloßer Hinweis im Impressum genügt nach verbreiteter Auslegung nicht.
Für Unternehmen, die personenbezogene Daten verarbeiten, kommt der Datenschutz hinzu, denn Trainings- und Eingabedaten können der DSGVO unterliegen. Wie sich KI-Sicherheit und Datenschutz im deutschen Kontext verzahnen, vertieft innobu im Beitrag zu KI-Sicherheit und Datenschutz in Deutschland .
Was der 1,5-Milliarden-Vergleich signalisiert
Der Vergleich im Fall Bartz v. Anthropic zeigt, dass nicht die Nutzung als solche, sondern die Art der Datenbeschaffung das größte Risiko ist. Anthropic zahlt 1,5 Milliarden US-Dollar in einen Vergleichsfonds, rund 500.000 Buchtitel sind erfasst, Rechteinhaber können mit mindestens rund 3.000 US-Dollar je Titel rechnen. Es ist der größte Urheberrechtsvergleich der USA.
Richter William Alsup entschied 2025, dass Training mit legal erworbenen Büchern Fair Use sein kann, das Herunterladen aus Schattenbibliotheken wie LibGen jedoch nicht. Anfang 2026 waren rund 51 KI-Urheberrechtsklagen an US-Gerichten anhängig. Die Botschaft für Anbieter und Kunden lautet: Herkunft und Erwerbsweg der Trainingsdaten sind justiziabel, nicht nur die Modellnutzung.
Fair Use ist ein US-Konzept und in der EU nicht anwendbar. Für europäische Unternehmen zählt daher der Erwerbsweg plus die Opt-out-Lage nach Paragraf 44b UrhG, nicht eine pauschale Fair-Use-Annahme des Anbieters.
Herausforderungen und Risiken
Das Thema ist nicht einseitig. Vollständige Lizenzierung aller Trainingsdaten ist teuer und praktisch kaum umsetzbar, und ein Teil der Branche hält Web-Scraping für eine notwendige Grundlage von Innovation. Gleichzeitig tragen Unternehmen, die solche Modelle einsetzen, ein reales Restrisiko.
Das eigentliche Unternehmensrisiko: Modell-Anbieter offenbaren ihre Datenlinie oft nur teilweise, Freistellungen greifen nur unter Bedingungen, und in regulierten Branchen kann eine unklare Datenlinie eine Beschaffung blockieren. Wer das Risiko nicht prüft, trägt es trotzdem.
Was Unternehmen jetzt tun sollten
Unternehmen sollten Datenherkunft fest in ihre KI-Beschaffung einbauen, statt sich auf Marketing-Aussagen zu verlassen. Drei Hebel sind sofort umsetzbar: Anbieterprüfung, vertragliche Absicherung und eigene Daten-Governance.
-
Anbieter prüfen
Fordere die GPAI-Trainingsdaten-Zusammenfassung und die Copyright-Policy an und gleiche sie mit den Marketing-Aussagen ab. Achte auf die genannten Datenquellen und den Umgang mit Opt-outs, nicht auf Schlagworte wie sauber oder lizenziert.
-
Vertraglich absichern
Nutze Freistellungsklauseln. Microsofts Copilot Copyright Commitment, Google Cloud, OpenAIs Copyright Shield und Anthropic bieten sie an, jeweils mit Bedingungen wie aktiven Schutzfiltern und Rechten an den Eingabedaten. Kläre, was die Freistellung wirklich abdeckt.
-
Eigene Daten ordnen
Dokumentiere bei eigenem Fine-Tuning die Herkunft deiner Trainingsdaten und respektiere fremde Opt-outs über robots.txt und TDM-Rep. So vermeidest du, das Problem in eigene Modelle zu tragen.
-
Branche und Workload einordnen
Lege fest, wo eine unklare Datenlinie tragbar ist und wo nicht. In Finanzwesen, Gesundheit und Verwaltung sollte die Datenherkunft Teil der Freigabe sein, bevor ein Modell in den Betrieb geht.
Datenherkunft ist 2026 kein Spezialthema für Juristen mehr, sondern Teil jeder ernsthaften KI-Beschaffung. Wer Anbieter prüft, Verträge absichert und eigene Daten ordnet, senkt sein Risiko deutlich, ohne den KI-Einsatz auszubremsen.
Weiterführende Informationen
Häufig gestellte Fragen
Weil Rechtsabteilungen vor dem Einsatz prüfen, womit ein Modell trainiert wurde. Microsoft warb für seine MAI-Modelle mit sauberen, lizenzierten Daten, das eigene Paper nennt jedoch Common Crawl mit 24,2 Milliarden web-gescrapten Seiten. Wer ein Modell einkauft, erbt indirekt dessen Trainingsdaten-Risiken aus Urheber-, Vertrags- und Reputationssicht.
Anbieter von Allzweck-KI müssen seit dem 2. August 2025 eine hinreichend detaillierte Zusammenfassung der Trainingsinhalte nach einer Vorlage des AI Office veröffentlichen (Artikel 53 Absatz 1 d) und eine Copyright-Policy führen (Artikel 53 Absatz 1 c). Ab dem 2. August 2026 kann die Kommission Verstöße mit Bußgeldern durchsetzen.
Paragraf 44b UrhG erlaubt Text und Data Mining an rechtmäßig zugänglichen Werken, solange der Rechteinhaber keinen Nutzungsvorbehalt erklärt. Bei online zugänglichen Werken ist dieser Vorbehalt nur wirksam, wenn er maschinenlesbar ist, etwa über robots.txt oder das Protokoll TDM-Rep. Das Landgericht Hamburg entschied, dass KI-Training nicht grundsätzlich aus dem Anwendungsbereich fällt.
Im Fall Bartz v. Anthropic zahlt Anthropic 1,5 Milliarden US-Dollar in einen Vergleichsfonds, rund 500.000 Buchtitel sind erfasst, Rechteinhaber können mit mindestens rund 3.000 US-Dollar je Titel rechnen. Richter Alsup entschied 2025, dass Training mit legal erworbenen Büchern Fair Use sein kann, das Herunterladen aus Schattenbibliotheken jedoch nicht.
Drei Schritte sind sofort umsetzbar: erstens die GPAI-Trainingsdaten-Zusammenfassung und die Copyright-Policy des Anbieters anfordern und mit dessen Marketing abgleichen, zweitens Freistellungsklauseln vertraglich nutzen, etwa Microsofts Copilot Copyright Commitment, OpenAIs Copyright Shield oder die Angebote von Google und Anthropic, jeweils mit Bedingungen, drittens bei eigenem Fine-Tuning die Datenherkunft dokumentieren und fremde Opt-outs respektieren.