Yann LeCun hat mit JEPA eine Architektur vorgelegt, die Vorhersagen im latenten Raum statt im Pixelraum trifft. Diese tiefgreifende Analyse erklärt die mathematischen Grundlagen, die Architektur-Evolution und die industriellen Konsequenzen, einschließlich der Milliarden-Gründung von AMI Labs im März 2026.
Transformer-basierte Large Language Models beherrschen Syntax und Textgenerierung mit beeindruckender Präzision. Was sie jedoch nicht tun: die physikalische Realität kausal verstehen, auf die ihre Symbole verweisen. Diese Lücke manifestiert sich in den bekannten Halluzinationen. Wenn ein Modell ohne Verankerung in physikalischen Gesetzmäßigkeiten arbeitet, produziert es Inhalte, die statistisch kohärent, aber faktisch unmöglich sind.
Die bloße Skalierung, also mehr Parameter und mehr Daten, beseitigt das Kausalitätsproblem nicht. Yann LeCun bezeichnete autoregressive Sprachmodelle deshalb als konzeptionelle Sackgasse auf dem Weg zur Advanced Machine Intelligence (AMI). Sein Alternativvorschlag: Weltmodelle, die physikalische Kausalitäten erlernen, Konsequenzen hypothetischer Handlungen simulieren und auf mehreren Abstraktionsebenen planen.
LeCuns Positionspapier "A Path Towards Autonomous Machine Intelligence" beschreibt eine modulare, vollständig differenzierbare Architektur, die schnelles reaktives Handeln (System-1-Kognition) mit analytischem Planen (System-2-Kognition) integriert. Die sechs Module kommunizieren kontinuierlich miteinander:
Das Exekutivzentrum des Systems. Es moduliert Parameter, Aufmerksamkeitsfokussierung und Informationsflüsse aller anderen Module dynamisch in Abhängigkeit von der aktuellen Aufgabe.
Empfängt rohe, hochdimensionale Sensordaten (visuell, akustisch, taktil) und komprimiert diese in einen niedrigdimensionalen, aufgabenrelevanten Schätzwert des aktuellen Weltzustands.
Das Herzstück der Intelligenz und die primäre Domäne von JEPA. Inferiert fehlende Informationen und sagt plausible Zukunftszustände vorher, wenn eine spezifische Handlungssequenz ausgeführt wird.
Besteht aus einem fest verdrahteten intrinsischen Kostenblock (vergleichbar mit Schmerz) und einem trainierbaren Kritiker, der zukünftige Kosten auf Basis aktueller Beobachtungen vorhersagt.
Generiert Sequenzen potenzieller Aktionen und optimiert diese über Methoden der optimalen Steuerungstheorie, um diejenige Handlungssequenz zu finden, die akkumulierte Kosten minimiert.
Protokolliert die unmittelbare Historie von Wahrnehmungen, Zuständen und Aktionen. Liefert den zeitlichen Kontext für das Weltmodell zur Trajektorienextrapolation.
Da alle Komponenten differenzierbar sind, lassen sich Fehlergradienten vom Kostenmodul zurück durch das Weltmodell bis in den Actor propagieren. Das ermöglicht ein Planen zur Inferenzzeit, bei dem das Modell vor jeder physischen Handlung intensiv "nachdenkt", statt eine eingelernte Heuristik reaktiv abzuspulen.
Die konzeptionelle Überlegenheit von JEPA leitet sich direkt aus seinem mathematischen Fundament ab. Ein Energy-Based Model (EBM) definiert eine reellwertige, skalare Energiefunktion E(x, y), parametrisiert durch die Gewichte eines neuronalen Netzwerks. Kompatible, physikalisch plausible Zustandspaare erhalten niedrige Energiewerte, inkompatible Konfigurationen hohe.
Die Vorhersage wird nicht als probabilistisches Sampling formuliert, sondern als Minimierungsproblem:
Neuere formale Analysen zeigen tiefe Verbindungen zur theoretischen Physik. Die Energiefunktion kann als Ausdruck einer quasimetrischen Geometrie verstanden werden, die das Infimum der akkumulierten lokalen Arbeit entlang einer zulässigen Trajektorie repräsentiert. Entscheidend ist die Asymmetrie dieser Funktion: E(x, y) ist nicht gleich E(y, x).
Ein Glas kann vom Tisch fallen und zersplittern, was energetisch plausibel (niedrige Energie) ist. Der umgekehrte Prozess, bei dem sich Splitter spontan zu einem intakten Glas zusammensetzen, muss eine extrem hohe Energie erhalten. Probabilistische Kosinus-Ähnlichkeiten sind symmetrisch und scheitern an dieser grundlegenden Anforderung der Physikmodellierung vollständig.
EBMs benötigen keine Partitionierungsfunktion über alle möglichen Ausgaben, was die Berechnung drastisch vereinfacht.
EBMs können problemlos disjointen Regionen im Datenraum tiefe Energie-Täler zuweisen und mehrere gleichermaßen valide Zukünfte abbilden.
Energiefunktionen lassen sich additiv verknüpfen (Product of Experts), was eine immense Flexibilität beim Aufbau hierarchischer Systeme bietet.
Logarithmus und Exponentialfunktionen heben sich bei EBMs oft gegenseitig auf, was die mathematische Optimierung numerisch stabilisiert.
JEPA ist die spezifische architektonische Instanziierung, die Weltmodelle durch selbstüberwachtes Lernen (SSL) ohne manuell annotierte Labels trainiert. Der Paradigmenwechsel besteht darin, dass die Fehlerfunktion nicht im Datenraum (Pixel, Voxel), sondern im abstrakten Raum der Einbettungen angewendet wird.
Meist ein leistungsstarker Vision Transformer (ViT). Nimmt den beobachtbaren Kontext (vergangene Videoframes oder sichtbare Bildteile) und projiziert ihn in einen dichten, kontinuierlichen Repräsentationsraum. Die Kompression eliminiert unvorhersehbare Mikrostrukturen systematisch.
Strukturell identisch mit dem Context Encoder. Verarbeitet den Zielzustand (die Zukunft oder maskierte Bildbereiche) und erzeugt die Zielrepräsentation. Erhält keine direkten Gradienten-Updates, sondern wird als exponentiell gleitender Durchschnitt des Context-Encoders aktualisiert.
Bewusst als flaches Netzwerk konzipiert (leichtgewichtiges MLP oder wenige Transformer-Schichten). Modelliert ausschließlich die interne Dynamik des Zustandsübergangs und transformiert die Kontextrepräsentation in eine Vorhersage der Zielrepräsentation.
Ein kritisches Designelement ist die Integration einer latenten Variable z in den Prädiktor. Da die Welt nicht vollständig deterministisch ist, existiert oft eine Eins-zu-Viele-Kartierung zwischen einem aktuellen Zustand und möglichen Zukünften. Würde der Prädiktor nur den Kontext als Eingabe erhalten, würde er den statistischen Durchschnitt aller möglichen Zukünfte berechnen, was zu inkohärenten, verschwommenen Vorhersagen führt.
Die latente Variable z liefert die fehlende Information, die bestimmt, welche der vielen plausiblen Zukünfte eintritt. Zur Inferenzzeit fungiert z als Steuerungsvektor: Durch das Sampeln verschiedener Werte kann das Weltmodell systematisch einen Strauß alternativer Zukunftsszenarien simulieren, die das Kostenmodul bewertet.
Die grundlegende Schwäche selbstüberwachter Architekturen ist der Repräsentationskollaps: Das Netzwerk findet schnell ein triviales globales Minimum, bei dem alle Eingaben auf denselben konstanten Vektor abgebildet werden. JEPA bekämpft dies mit einer Kombination aus drei Methoden:
| Methode | Funktionsweise | Wirkung in JEPA |
|---|---|---|
| Exponential Moving Average (EMA) | Target-Encoder-Gewichte werden als gleitender Durchschnitt der Context-Encoder-Gewichte aktualisiert | Zielrepräsentationen ändern sich langsamer als Kontextrepräsentationen - stabilisiert das "bewegliche Ziel" |
| Latent Variable Regularization | Bestrafung des Informationsgehalts von z durch Regularisierungsterm | Verhindert, dass der Prädiktor alle Informationen ausschließlich aus z bezieht und den Kontext ignoriert |
| VICReg | Maximierung der Varianz jeder Einbettungsdimension, Minimierung der Kovarianz zwischen Dimensionen | Stellt sicher, dass das Embedding den Raum füllt und kein Information-Bottleneck-Kollaps entsteht |
Die Universalität des JEPA-Ansatzes zeigte sich in der rasanten Entwicklung modalitätsspezifischer Varianten zwischen 2023 und 2026. Jede Evolutionsstufe adressierte spezifische sensorische Modalitäten und architektonische Engpässe.
Die Image-based Joint Embedding Predictive Architecture war der erste groß angelegte Proof of Concept. Die Herausforderung: das Modell dazu zu bringen, globale semantische Konzepte (ein Hund) zu erlernen, ohne auf lokale Pixeltexturen zu überfiten.
I-JEPA löst dies durch eine mehrblockige Maskierungsstrategie. Ein substanzieller Bereich des Bildes bleibt als "Context Block" unmaskiert, während mehrere "Target Blocks" an anderen Stellen vollständig maskiert werden. Der Prädiktor inferiert die Semantik dieser fehlenden Bereiche rein aus dem Kontext, da die Vorhersage im abstrakten Einbettungsraum erfolgt und sich auf großflächige Kausalitäten konzentriert.
Effizienzgewinn: Beim Vortraining eines ViT-H/14 auf ImageNet-1K benötigte I-JEPA weniger als 1.200 GPU-Stunden, über 2,5-mal schneller als iBOT und mehr als zehnmal effizienter als Masked Autoencoders (MAE).
Empirische Forschung zeigte, dass der EMA-Mechanismus einen vollständigen Modellkollaps nicht bei jeder Architekturkonfiguration verhindert. C-JEPA (Contrastive-JEPA) integriert die VICReg-Strategie in das JEPA-Framework. Durch die explizite Steuerung der Varianz und Kovarianz der Einbettungsvektoren über Batches hinweg erreicht C-JEPA eine wesentlich schnellere Konvergenz und signifikant höhere Performance beim Linear Probing und Fine-Tuning auf ImageNet-1K.
Der Übergang zur Videoverarbeitung markierte einen weiteren Schritt: Die Modelle mussten nicht nur räumliche Anordnungen, sondern zeitliche Kausalität, Newtonsche Mechanik und Objektpermanenz erlernen. V-JEPA wendet das Maskierungsprinzip auf die zeitliche Dimension an.
V-JEPA 2 (1,2 Milliarden Parameter) wurde unüberwacht auf über einer Million Stunden diverser Videodaten und einer Million statischer Bilder vortrainiert. Das Modell erlernte ein implizites Verständnis physikalischer Realität: Gravitation, Trägheit, räumliche Verdeckung und Objektmanipulation.
Die Variante V-JEPA 2-AC (Action-Conditioned) wurde durch minimales Fine-Tuning mit Roboter-Interaktionsdaten zu einem Roboter-Weltmodell. Der entscheidende Durchbruch: Zero-Shot-Transferierbarkeit. Roboter lösten unbekannte Manipulationsaufgaben in fremden Umgebungen ohne aufwendiges Neutraining, weil das Weltmodell das "Denken vor dem Handeln" ermöglicht, d.h. die mentale Simulation kinematischer Aktionen vor der Aktivierung der Servomotoren.
Bewertet die Fähigkeit, zwischen physikalisch realistischen und unmöglichen Videoszenarien zu unterscheiden. Testet das Verständnis grundlegender Naturgesetze.
Video Question Answering, konstruiert um aufzudecken, ob Modelle statistische Korrelationen ausnutzen (Dataset Shortcuts) oder genuines physikalisches Verständnis besitzen.
Fokussiert explizit auf Ursache-Wirkung-Prinzipien, Antizipation zukünftiger Ereignisse und kontrafaktisches Denken (Was wäre passiert, wenn X nicht eingetreten wäre?).
Die Vision-Language Joint Embedding Predictive Architecture (VL-JEPA) adressiert direkt den größten Kritikpunkt etablierter Vision-Language-Modelle wie GPT-4V oder LLaVA: die massiven Ineffizienzen der Token-Generierung. Klassische VLMs konvertieren visuelle Inputs in Einbettungen, verketten diese mit Text-Queries und speisen sie in ein Sprachmodell ein, das die Antwort Token für Token autoregressiv generiert. Für ein 30-sekündiges Video erfordert dies oft über 50 sequentielle Forward-Passes durch ein massives LLM.
| Vergleichsebene | Klassische autoregressive VLMs | VL-JEPA (2026) |
|---|---|---|
| Architektur-Rückgrat | CLIP + LLM-Decoder | V-JEPA 2 (Vision) + Llama-3 Schichten (Prädiktor) |
| Lernziel | Rekonstruktion von Text-Tokens | Vorhersage kontinuierlicher Text-Einbettungen |
| Inferenz-Latenz | Extremer Flaschenhals durch Token-by-Token-Generierung | 2,85-fache Beschleunigung durch selektives Dekodieren |
| Trainierbare Parameter | Meist über 7 Milliarden | 790 Millionen (50 Prozent weniger als vergleichbare Modelle) |
| Daten-Effizienz | Hoher Bedarf an Text-Bild-Paaren | 43-mal effizienter (2,0 Milliarden Samples vs. 86 Milliarden beim Perception Encoder) |
Wenn VL-JEPA eine Videoeinspeisung überwacht, produziert es einen kontinuierlichen Strom von Ziel-Einbettungen. Verändert sich die Semantik einer Szene über dutzende Frames nicht (ein stehendes Glas), bleibt die Varianz der Einbettungen extrem gering und der Text-Decoder bleibt inaktiv. Erst wenn ein semantischer Bruch auftritt (das Glas kippt und verschüttet Wasser), schlägt die Einbettungsvarianz aus und der Decoder wird für einen einzigen Pass getriggert. Diese nicht-generative Natur eliminiert fast 65 Prozent der redundanten Rechenoperationen.
Die ursprüngliche Nutzung eines reinen quadratischen Fehlers (L2-Loss) führte zu "verschwommenen" Repräsentationen, da L2 dazu tendiert, den statistischen Mittelwert über multimodale Ziele zu ziehen. Meta implementierte stattdessen kontrastive InfoNCE-Loss-Funktionen sowie modifizierte Kosinus-Abstände im latenten Raum. Die Ergebnisse: InfoNCE verbesserte die VQA-Genauigkeit um 9,8 Punkte und die Retrieval-Recall@1 Rate um 18,6 Punkte gegenüber L2.
Die Text-Image Joint Embedding Predictive Architecture (TI-JEPA) fokussiert sich auf das Problem des modalitätsübergreifenden Alignments. Die Lücke zwischen syntaktischer Textstruktur und spatialer Pixelanordnung ist eine massive Hürde für komplexe Aufgaben wie multimodale Sentiment-Analyse.
TI-JEPA integriert elaborierte Cross-Attention-Mechanismen in das Energy-Based Framework. Die Architektur friert vortrainierte Text- und Bild-Encoder ein, um das bereits erlernte Feature-Wissen zu konservieren und einen Energie-Kollaps präventiv zu vermeiden. Die freigewordenen Rechenkapazitäten werden exklusiv genutzt, um Cross-Attention-Module zu optimieren, die modalitätsübergreifende Abhängigkeiten kartieren und eine robuste multimodale Repräsentation erzeugen.
Das Endziel von LeCuns Vision ist nicht das Klassifizieren von Videos oder Texten, sondern die Schaffung autonomer Agenten, die komplexe, mehrstufige Handlungssequenzen in der physischen und digitalen Welt orchestrieren. Hier greift das Konzept der Hierarchical JEPA (H-JEPA).
Menschliche Handlungsplanung ist intrinsisch hierarchisch: Das Überqueren einer Straße involviert abstrakte Ziele ("Erreiche die andere Seite"), mittlere Planungsstufen ("Warte auf die grüne Ampel") und mikroskopische Kontrollmechanismen ("Spanne den Quadrizeps an"). H-JEPAs stapeln mehrere JEPA-Module übereinander, wobei untere Ebenen feingranulare Zeitschritte modellieren und obere Ebenen Kausalitäten über lange Zeithorizonte interpolieren.
Im Gegensatz zu LLMs, die bei einem Fehler in der Generierungskette katastrophal entgleisen können, erlaubt die EBM-basierte Energieminimierung eine Evaluation partieller Trajektorien. Wenn die Energie eines Zwischenzustands einen Schwellenwert überschreitet, initiiert das System eine Kurskorrektur, bevor die finale Aktion ausgeführt wird.
Hierarchische Planung koordiniert Thermostate, Beleuchtung und Sicherheitssysteme. Die Energieminimierung optimiert Nutzerkomfort, Energieeffizienz und Sicherheit simultan.
JEPA kodiert Patientensymptome und klinisches Wissen in den latenten Raum. Strikte EBM-Kostenfunktionen minimieren das Halluzinationsrisiko bei Behandlungsempfehlungen.
Weltmodelle simulieren die physikalische Dynamik von Produktionsstraßen. Kurskorrektur durch Energiebewertung partieller Trajektorien verhindert Maschinenausfälle.
Portfolio-Umschichtungen werden als Minimierung finanzieller Risiken über verschiedene zeitliche Prognosehorizonte simuliert und durch Energiefunktionen bewertet.
Der eskalierende Disput über die Zukunft der KI-Architekturen manifestierte sich Ende 2025 und Anfang 2026 in tektonischen Marktverschiebungen. Während Meta, Google und OpenAI weiterhin Milliardenbeträge in gigantische Rechenzentren für massive LLMs investieren, verließ Yann LeCun Meta, um seine Theorie der Weltmodelle außerhalb starrer Unternehmensstrukturen zu kommerzialisieren.
Im März 2026 gründete LeCun Advanced Machine Intelligence (AMI) Labs mit Hauptsitz in Paris. Kofinanziert durch Cathay Innovation, Greycroft, Hiro Capital, HV Capital und Bezos Expeditions, positioniert sich AMI Labs als ideologischer und technologischer Gegenentwurf zu LLM-fokussierten Hyperscalern. Die Prämisse ist klar: Autoregressive Sprachmodelle werden niemals das Stadium menschlicher Intelligenz erreichen. Wahre AGI erfordert Weltmodelle, die im latenten Raum planen und physikalische Kausalität verstehen.
LeCun etabliert bewusst ein globales dezentrales Netzwerk, um den Talentpool außerhalb der monopolistischen Strukturen des kalifornischen Silicon Valley zu erschließen. Für den europäischen Technologiesektor, der im Bereich generativer Foundation-Modelle oft ins Hintertreffen geraten war, repräsentiert die Ansiedlung von AMI Labs in Paris eine Chance zur technologischen Eigenständigkeit in der Post-LLM-Ära.
AMI Labs fokussiert sich nicht auf Konversations-Chatbots, sondern zielt auf hochkomplexe industrielle und medizinische Märkte ab, in denen Zuverlässigkeit, Kontrollierbarkeit und Sicherheit keine Optionalitäten, sondern kritische Voraussetzungen sind. Dies deckt sich mit dem regulatorischen Rahmen des EU AI Acts, der für Hochrisikoanwendungen besonders strenge Anforderungen an Erklärbarkeit und Überprüfbarkeit stellt.
Für deutsche Unternehmen, insbesondere im Mittelstand mit starker Industriebasis, eröffnen JEPA-basierte Weltmodelle konkrete Perspektiven:
Weltmodelle können die physikalische Dynamik von Produktionsanlagen simulieren. Zero-Shot-Transfer durch V-JEPA 2 ermöglicht das Einführen von Robotern ohne aufwendiges anlagespezifisches Datensammeln und Neutraining.
Da JEPA im latenten Raum arbeitet und keine Pixel oder Texte rekonstruiert, lassen sich datenschutzrechtliche Anforderungen unter dem EU AI Act einfacher erfüllen als bei generativen Modellen, die Originaldaten reproduzieren können.
VL-JEPAs selektives Dekodieren und die 50-prozentige Parameterreduktion gegenüber vergleichbaren Modellen senken den Energieverbrauch erheblich, was für Unternehmen mit Nachhaltigkeitszielen relevant ist.
Die Analyse der Joint Embedding Predictive Architecture belegt einen bedeutsamen Wendepunkt in der KI-Forschung. Das Paradigma der generativen KI hat seine Leistungsfähigkeit in der Verarbeitung syntaktischer Muster demonstriert, ist jedoch an der Schwelle zum physikalischen Weltverständnis systematisch gescheitert.
Durch die konsequente Nutzung von Energy-Based Models im abstrakten latenten Raum löst JEPA das Kernproblem des Rauschens in sensorischen Datenströmen. I-JEPA bewies, dass semantische Konzepte drastisch recheneffizienter erlernt werden können, wenn der Zwang zur Pixelrekonstruktion entfällt. V-JEPA 2 erschuf Weltmodelle, die Robotern Zero-Shot-Manipulationen durch physikalisches Nachdenken vor dem Handeln ermöglichen. VL-JEPA 2026 demontierte den autoregressiven Flaschenhals durch selektives Dekodieren und erzielte einen Geschwindigkeitsschub von 285 Prozent bei gleichzeitiger Halbierung der trainierbaren Parameter und einer Reduktion des Datenbedarfs um das 43-fache.
Die Gründung von AMI Labs mit über einer Milliarde US-Dollar Startkapital signalisiert, dass der Markt die technologische Sättigung von LLMs antizipiert. Für Sektoren mit strikten Anforderungen an kausale Präzision, Fehlerkorrektur und Halluzinationsresistenz bieten JEPA-basierte Weltmodelle aktuell den wissenschaftlich fundiertsten Ansatz auf dem Weg zur fortgeschrittenen, autonomen maschinellen Intelligenz.
JEPA ist eine KI-Architektur, die Vorhersagen im abstrakten latenten Repräsentationsraum statt im Datenpixelraum trifft. Statt jeden Pixel eines Bildes oder Frames zu rekonstruieren, erlernt JEPA die semantische Bedeutung von Zustandsübergängen. Die Architektur wurde von Yann LeCun als Kernbaustein für Weltmodelle und autonome Maschinenintelligenz entwickelt und bildet das technische Fundament für Modelle wie I-JEPA, V-JEPA 2 und VL-JEPA.
Energy-Based Models (EBMs) definieren eine reellwertige Energiefunktion, die kompatiblen Zustandspaaren niedrige und inkompatiblen Paaren hohe Energiewerte zuweist. Vorhersagen entstehen durch Minimierung dieser Funktion statt durch probabilistisches Sampling. EBMs bilden das mathematische Fundament von JEPA und ermöglichen die Modellierung multimodaler Datenverteilungen ohne den Normalisierungsaufwand traditioneller generativer Modelle, was die physikalische Irreversibilität korrekt abbildet.
V-JEPA 2 erlernt physikalische Kausalität, Gravitation, Trägheit und Objektpermanenz durch unüberwachtes Training auf über einer Million Stunden Videodaten. Klassische Video-KI-Modelle generieren Pixel und modellieren Oberflächenrauschen. V-JEPA 2 hingegen arbeitet im latenten Raum und ermöglicht Zero-Shot-Transferierbarkeit auf Roboteraufgaben, die das Modell nie explizit trainiert hat, weil es echtes physikalisches Weltverständnis aufgebaut hat.
VL-JEPA erreicht eine 2,85-fache Inferenzbeschleunigung durch selektives Dekodieren: Der Text-Decoder wird nur aktiviert, wenn sich die semantische Bedeutung einer Szene tatsächlich verändert. Das Modell hat 50 Prozent weniger trainierbare Parameter als vergleichbare Modelle (790 Millionen) und benötigt 43-mal weniger Trainingsdaten. Statt Token für Token zu generieren, sagt es kontinuierliche semantische Einbettungsvektoren vorher und eliminiert damit fast 65 Prozent der redundanten Rechenoperationen.
AMI Labs (Advanced Machine Intelligence Labs) wurde im März 2026 von Yann LeCun in Paris gegründet und erhielt eine Seed-Finanzierung von 1,03 Milliarden US-Dollar bei einer Bewertung von 3,5 Milliarden US-Dollar. Das Unternehmen fokussiert sich auf Weltmodelle für industrielle Anwendungen, Robotik und das Gesundheitswesen. Für Europa bedeutet die Ansiedlung in Paris eine Chance, technologische Eigenständigkeit in der Post-LLM-Ära zu gewinnen und im globalen KI-Wettbewerb eine führende Rolle zu übernehmen.
JEPA kombiniert drei Strategien: Erstens wird der Target-Encoder als exponentiell gleitender Durchschnitt des Context-Encoders aktualisiert (EMA), sodass die Zielrepräsentationen sich langsamer ändern als die Kontextrepräsentationen. Zweitens begrenzt eine Regularisierung der latenten Variable z die Informationsentropie. Drittens maximiert die VICReg-Methode die Varianz jeder Einbettungsdimension und minimiert Kovarianzen zwischen Dimensionen, sodass das Embedding den Raum vollständig füllt und kein Kollaps entstehen kann.