Person im Zug arbeitet an einem MacBook am Fenstertisch, Sinnbild für KI, die ohne Cloud lokal auf dem Gerät läuft

Lokale agentische KI auf dem Mac mit Apple MLX

Apple hat auf der WWDC26 gezeigt, wie ein KI-Agent komplett auf dem Mac arbeitet: Code schreiben, Pull-Requests zusammenfassen, eine App bauen, ohne Cloud und ohne API-Schlüssel.

Der Stack heißt MLX. Er reicht vom Array-Framework bis zu einem OpenAI-kompatiblen Server, an den sich bestehende Agenten ohne Umbau anschließen lassen. Für dich als Entscheider ist das vor allem ein Datenschutzargument: Daten, die das Gerät nie verlassen, brauchen keinen Auftragsverarbeiter. Dieser Artikel ordnet die Technik ein, zeigt die Leistungszahlen der neuen M5-Beschleuniger und sagt, wo lokale KI heute trägt und wo nicht.

Zusammenfassung

Apple hat auf der WWDC26 einen kompletten Weg gezeigt, agentische KI lokal auf dem Mac auszuführen, ohne Cloud und ohne API-Schlüssel. Der Stack besteht aus vier Schichten: MLX als Array-Framework für Apple Silicon, MLX-LM zum Laden und Quantisieren von Modellen, dem MLX-LM Server mit OpenAI-kompatiblem API und Tool-Calls sowie einem beliebigen Agent-Framework darüber. Die Neural Accelerators im M5 machen die Prompt-Verarbeitung bis zu viermal schneller als im M4, die Zeit bis zum ersten Token liegt bei einem 14-Milliarden-Modell unter zehn Sekunden. Mit Ollama 0.19 stieg der Durchsatz auf einem Mac mini M4 Pro bei einem 30-Milliarden-Coding-Modell von 43 auf 130 Token pro Sekunde, rund das Dreifache. Der größte Gewinn für deutsche Unternehmen ist der Datenschutz: Lokale Ausführung hält Daten auf dem Gerät und vermeidet die Auftragsverarbeiter-Beziehung nach Artikel 28 DSGVO. Die Grenze bleibt die Modellqualität, denn offene Modelle in Mac-Größe liegen bei komplexen Aufgaben weiter hinter Spitzenmodellen wie Claude oder GPT. Sinnvoll ist deshalb ein datenschutzgetriebener Einstieg mit lokalem Stack für sensible Aufgaben und eine hybride Architektur für den Rest.

Was Apple auf der WWDC26 gezeigt hat

Apple hat auf der WWDC26 einen kompletten Weg gezeigt, agentische KI lokal auf dem Mac auszuführen, ohne Cloud und ohne API-Schlüssel. Die Session "Run local agentic AI on the Mac using MLX" demonstriert, wie ein Agent auf dem eigenen Rechner Code schreibt, GitHub-Pull-Requests zusammenfasst und eine SwiftUI-App von Grund auf baut. Keine dieser Daten verlässt den Mac. Für Unternehmen mit Datenschutzauflagen ist das ein konkreter Hebel, kein Marketingversprechen.

MLX ist ein quelloffenes Array-Framework von Apple für Apple Silicon. Es bildet die unterste Schicht eines Stacks, mit dem sich Sprachmodelle und KI-Agenten komplett auf dem Mac ausführen lassen, ohne Cloud-Dienst und ohne API-Schlüssel.
3 Schritte
von null zum lokalen Agenten
installieren, Server starten, Agent anbinden
~2 Min.
für eine komplette SwiftUI-App
Apple WWDC26-Demo, lokal erzeugt
bis 4x
schnellere Matrixmultiplikation
M5 gegenüber M4, Prompt-Verarbeitung
130 Tok/s
Coding-Modell auf Mac mini M4 Pro
Ollama 0.19 mit MLX, vorher 43
81 %
Entwickler sorgen sich um KI-Datenschutz
Stack Overflow Survey 2025
0 $
laufende Token-Kosten lokal
nur Strom und Hardware

Bemerkenswert ist nicht eine einzelne Funktion, sondern dass der ganze Weg quelloffen und sofort verfügbar ist. Apple stützt die Strategie auf 16 Jahre eigene Chip-Entwicklung und stellt lokale Modelle als Datenschutzargument heraus. Wie gut offene Modelle inzwischen mit den großen Anbietern mithalten, hat innobu im Beitrag zu Open-Source-KI-Modellen und der schrumpfenden Qualitätslücke eingeordnet.

Wie der lokale Stack funktioniert

Der Stack besteht aus vier Schichten, die aufeinander aufbauen. Ganz unten liegt MLX, das die Berechnung, die Metal-Beschleunigung und die Speicherverwaltung übernimmt. Darauf setzt MLX-LM, das Sprachmodelle lädt, quantisiert und feinjustiert und Tausende Modelle von Hugging Face unterstützt. Darüber liegt der MLX-LM Server, und ganz oben sitzt das Agent-Framework deiner Wahl.

Schichtmodell des lokalen MLX-Stacks auf dem Mac, von Agent-Framework und MLX-LM Server bis zu MLX und Apple Silicon
Vier Software-Schichten auf der Apple-Silicon-Hardware: vom Agent-Framework über den OpenAI-kompatiblen MLX-LM Server und MLX-LM bis zum MLX-Array-Framework.

Der MLX-LM Server ist das Herzstück für agentische Arbeit. Er ist ein OpenAI-kompatibler HTTP-Server, der strukturierte Tool-Calls und Reasoning-Modelle unterstützt. Weil das API dem Standard von OpenAI entspricht, funktioniert jedes Agent-Framework, das dieses Protokoll spricht, als direkter Ersatz. Bestehende Werkzeuge wie Xcode, OpenCode oder eigene Skripte zeigen statt in die Cloud einfach auf den lokalen Server.

  1. MLX-LM installieren

    Ein einziger Befehl per pip genügt, um das Framework und die Server-Komponente auf den Mac zu holen.

  2. Server mit Modell starten

    Den MLX-LM Server mit einem Modell starten, das Tool-Calls beherrscht. Wichtig ist, dass MLX-LM für das Modell einen Tool-Parser kennt.

  3. Agent anbinden

    Den vorhandenen Agenten auf die lokale Server-Adresse zeigen lassen. Ab hier läuft der Workflow vollständig auf dem Mac.

Warum der OpenAI-kompatible Server zählt: Er macht den Wechsel zwischen lokal und Cloud zu einer Konfigurationsfrage, nicht zu einem Umbau. Ein Team kann sensible Aufgaben lokal halten und unkritische Anfragen weiter an einen Cloud-Dienst geben, ohne den Agenten neu zu schreiben.

Leistung: M5-Beschleuniger und verteilte Inferenz

Die Leistung hängt an zwei Engpässen, und der M5 entschärft den wichtigeren davon. Die Zeit bis zum ersten Token ist rechenintensiv und profitiert von den Neural Accelerators im M5, während die spätere Token-Erzeugung von der Speicherbandbreite begrenzt wird. Genau die Prompt-Verarbeitung dominiert lange Agent-Schleifen mit viel Kontext, deshalb ist dieser Sprung für agentische Arbeit so wichtig.

Kennzahl Wert Quelle
Zeit bis erstes Token, 14B dicht (M5) unter 10 Sekunden Apple Machine Learning Research
Zeit bis erstes Token, 30B MoE (M5) unter 3 Sekunden Apple Machine Learning Research
Matrixmultiplikation M5 vs M4 bis zu 4x schneller Apple Machine Learning Research
Token-Erzeugung M5 vs M4 plus 19 bis 27 Prozent Apple Machine Learning Research
Speicherbandbreite M5 vs M4 153 statt 120 GB/s Apple Machine Learning Research
Ollama 0.19, Coding-Modell, Mac mini M4 Pro 130 statt 43 Token/s Ollama Blog

Der Sprung kommt nicht nur von der Hardware. Auf einem Mac mini M4 Pro mit dem Coding-Modell Qwen3-Coder-30B-A3B kletterte der Durchsatz allein durch den Wechsel auf das MLX-Backend in Ollama 0.19 von 43 auf 130 Token pro Sekunde, also rund das Dreifache. Unabhängige Vergleiche sehen MLX bei Modellen unter 14 Milliarden Parametern 20 bis 87 Prozent vor llama.cpp. Oberhalb von 27 Milliarden nähern sich beide an, weil dann die Speicherbandbreite zum Engpass wird.

112 Tok/s
Decoding mit Ollama 0.19, vorher 58, auf M5 Max
bis 3x
Tempo durch verteilte Inferenz über vier Macs
20-87 %
MLX-Vorsprung vor llama.cpp unter 14B

Für sehr große Modelle gibt es einen zweiten Weg. Verteilte Inferenz verteilt ein Modell über mehrere Macs per Thunderbolt oder Ethernet, mit bis zu dreifachem Tempo bei vier Knoten. Continuous Batching gruppiert eingehende Anfragen dynamisch, sodass mehrere Subagenten gleichzeitig bedient werden, ohne dass eine Warteschlange stockt. Das ist die Grundlage, wenn ein Team statt eines einzelnen Agenten ganze Schwärme lokal laufen lassen will.

Deutsche und EU-Perspektive: Datenschutz als Argument

Für deutsche Unternehmen ist lokale Ausführung vor allem ein Datenschutzargument. Wenn ein Modell auf dem eigenen Mac läuft, verlassen weder Prompts noch Ergebnisse das Gerät, und die Auftragsverarbeiter-Beziehung nach Artikel 28 DSGVO entfällt. Das senkt den Aufwand für Verträge, Transfer-Folgenabschätzungen und die Prüfung von Drittlandtransfers, der bei US-Cloud-Diensten oft erheblich ist.

Mac Studio auf einem Metallregal neben einem Netzwerk-Switch in einem kleinen Büro, ein privater lokaler KI-Knoten
Ein Mac mini oder Mac Studio wird zum privaten KI-Knoten im Unternehmen, der ohne laufende Token-Kosten arbeitet.

Die Sorge um Datenschutz ist real und messbar. Laut der Stack-Overflow-Entwicklerbefragung 2025 sorgen sich 81 Prozent der Entwickler um Datenschutz und Sicherheit bei KI-Agenten . Lokale Modelle sind eine direkte Antwort darauf. Apple will ihre Qualität über Distillation aus größeren Gemini-Modellen verbessern, behält die Ausführung aber auf dem Gerät. Wie Unternehmen Abhängigkeiten von einzelnen Anbietern vermeiden, zeigt der Beitrag zu Open-Weight-Agenten im Unternehmen .

Wichtig

Lokale KI ist kein Ersatz für jede Cloud-Anwendung, aber ein starkes Werkzeug dort, wo Daten sensibel sind. Wer personenbezogene Daten, Quellcode oder Geschäftsgeheimnisse verarbeitet, kann den Datenschutz auf der Architekturebene lösen, statt ihn vertraglich abzusichern. Das ist oft schneller, billiger und rechtlich klarer.

Herausforderungen und Grenzen

Lokale KI löst nicht jedes Problem, und die ehrliche Einordnung gehört dazu. Offene Modelle in der Größe, die auf einem Mac läuft, liegen bei mehrstufigem Schlussfolgern, Code-Erzeugung im großen Stil und komplexer Dokumentenanalyse weiter hinter Spitzenmodellen wie Claude oder GPT. Der Abstand schrumpft, ist aber nicht verschwunden.

Wofür lokal heute reicht
Code-Hilfe und Refactoring im Editor
interne Dokumentenarbeit und Entwürfe
sensible Daten, die das Gerät nicht verlassen dürfen
wiederkehrende Aufgaben ohne Token-Kosten
Wo es noch hakt
Qualitätslücke bei komplexem Schlussfolgern
starke Modelle ab 70B brauchen viel Speicher
Betrieb, Updates und Quantisierung im eigenen Haus
sehr lange Kontexte sind noch eine Schwachstelle

Auch die Kostenfrage ist differenziert. Lokale Ausführung spart Token-Gebühren, verlagert aber Anschaffung und Wartung ins Unternehmen. Unabhängige Schätzungen sehen den Punkt, ab dem Self-Hosting günstiger wird, je nach Modell und Last zwischen 10 und 30 Millionen Token pro Tag. Wer die Kostenseite genauer abwägen will, findet im Beitrag zur Preiswende bei KI-Coding-Tools die Hintergründe.

Vorsicht vor zwei Fehlschlüssen: Wer lokale KI als vollwertigen Ersatz für Spitzenmodelle verkauft, wird bei anspruchsvollen Aufgaben enttäuscht. Wer sie umgekehrt als Spielerei abtut, verschenkt einen klaren Datenschutz- und Kostenvorteil bei gut passenden Aufgaben. Die richtige Antwort ist meist hybrid, nicht entweder-oder.

Was Unternehmen jetzt tun sollten

Beginne klein und datenschutzgetrieben, nicht mit dem größten Modell. Ein lokaler Stack lohnt sich zuerst dort, wo Daten sensibel sind und die Aufgabe zur Modellgröße passt, etwa Code-Hilfe, interne Dokumentenarbeit oder Entwürfe. Für Aufgaben mit höchster Qualitätsanforderung bleibt eine hybride Architektur sinnvoll. Vier Schritte helfen beim Einstieg.

Entwickler am Schreibtisch arbeitet über die Schulter gesehen an einem MacBook mit Kaffeetasse und Notizbuch
Für viele Entwicklerteams ist die lokale Code-Hilfe der naheliegende erste Anwendungsfall.
  1. Testknoten aufsetzen

    Einen Mac mini oder Mac Studio mit 64 Gigabyte Speicher als Testknoten prüfen und Durchsatz und Qualität an echten Aufgaben messen, nicht an Benchmarks.

  2. OpenAI-kompatibel anbinden

    Auf den MLX-LM Server setzen, damit bestehende Agenten ohne Umbau zwischen lokal und Cloud wechseln können. So bleibt der Wechsel eine Konfigurationsfrage.

  3. Datengrenzen festlegen

    Klar bestimmen, welche Daten das Gerät nie verlassen dürfen, und nur unkritische Fälle in die Cloud routen. Diese Regel gehört in die Architektur, nicht in ein Dokument.

  4. Wechselpunkt rechnen

    Den Punkt durchrechnen, ab dem Self-Hosting günstiger wird, meist zwischen 10 und 30 Millionen Token pro Tag. So wird aus einem Bauchgefühl eine belastbare Entscheidung.

Wichtig

Lokale agentische KI ist 2026 keine Demo mehr, sondern eine echte Option für sensible Aufgaben. Wer mit einem klar umrissenen Anwendungsfall startet, die Datengrenzen sauber zieht und Qualität an der eigenen Arbeit misst, kann den Datenschutz- und Kostenvorteil heben, ohne sich von der Qualitätslücke überraschen zu lassen. Wie deutsche Unternehmen ihre KI-Strategie insgesamt aufstellen, vertieft der Beitrag zum Mittelstand zwischen KI-Boom und Strategielücke .

Weiterführende Informationen

Häufig gestellte Fragen

Was ist MLX und wofür nutzt man es? +

MLX ist ein quelloffenes Array-Framework von Apple für Apple Silicon. Es übernimmt die Berechnung, die Metal-Beschleunigung und die Speicherverwaltung. Darauf setzen MLX-LM, das Sprachmodelle lädt, quantisiert und feinjustiert, und der MLX-LM Server, der die Modelle über ein OpenAI-kompatibles HTTP-API mit Tool-Calls bereitstellt. So lassen sich KI-Agenten komplett lokal auf dem Mac ausführen.

Kann man agentische KI ohne Cloud auf dem Mac betreiben? +

Ja. Der MLX-LM Server ist ein OpenAI-kompatibler HTTP-Server, der lokale Modelle mit strukturierten Tool-Calls bereitstellt. Bestehende Agent-Frameworks wie Xcode, OpenCode oder eigene Skripte sprechen ihn ohne Codeänderung an. In Apples WWDC26-Demo schreibt ein Agent Code und baut eine SwiftUI-App, ohne dass Daten den Mac verlassen.

Wie schnell ist lokale KI auf dem M5? +

Laut Apple liegt die Zeit bis zum ersten Token auf dem M5 bei einem dichten 14-Milliarden-Modell unter zehn Sekunden und bei einem 30-Milliarden-MoE-Modell unter drei Sekunden. Die Matrixmultiplikation ist bis zu viermal schneller als im M4, die Token-Erzeugung liegt 19 bis 27 Prozent höher. Mit Ollama 0.19 stieg der Durchsatz auf einem Mac mini M4 Pro bei Qwen3-Coder-30B-A3B von 43 auf 130 Token pro Sekunde.

Welche Vorteile hat lokale KI für den Datenschutz? +

Wenn ein Modell auf dem eigenen Mac läuft, verlassen weder Prompts noch Ergebnisse das Gerät. Damit entfällt die Auftragsverarbeiter-Beziehung nach Artikel 28 DSGVO, und der Aufwand für Verträge, Transfer-Folgenabschätzungen und Drittlandtransfers sinkt. Ein Mac mini oder Mac Studio wird so zum privaten KI-Knoten im Unternehmen, ohne laufende Token-Kosten.

Wo liegen die Grenzen lokaler KI-Modelle? +

Offene Modelle in der Größe, die auf einem Mac läuft, liegen bei mehrstufigem Schlussfolgern, Code-Erzeugung im großen Stil und komplexer Dokumentenanalyse weiter hinter Spitzenmodellen wie Claude oder GPT. Der Abstand beträgt auf vielen Benchmarks etwa drei bis sechs Monate. Außerdem verlagern sich Modell-Updates, Quantisierung, Monitoring und Hardware-Wartung ins eigene Haus. Für höchste Qualitätsanforderungen bleibt eine hybride Architektur sinnvoll.