Open-Weights-Modelle wie Qwen3.5 oder Kimi 2.5 laufen mittlerweile auf Hardware, die unter den Schreibtisch passt. Für Unternehmen stellt sich damit eine konkrete Frage: Lohnt sich lokale Inference als Alternative oder Ergänzung zur Cloud?
Noch vor einem Jahr war lokale LLM-Inference vor allem eins: frustrierend. Die Modelle waren spürbar schlechter als ihre kommerziellen Gegenstücke, die Hardware teuer oder laut, das Setup aufwändig. Wer ernsthaft mit KI arbeiten wollte, kam an OpenAI, Anthropic oder Google nicht vorbei.
2026 sieht das anders aus. Modelle wie Qwen3.5-35B von Alibaba liefern bei vielen Standardaufgaben Ergebnisse, die an kommerzielle Cloud-Modelle heranreichen. Gleichzeitig sind dedizierte Inference-Geräte wie NVIDIAs DGX Spark oder das Asus GX10 ab etwa 3.000 EUR verfügbar. Klein, leise, mit vorinstalliertem Linux. Anschließen, Modell laden, fertig.
Open-Weights bedeutet: Die Modellgewichte sind frei verfügbar. Kein API-Key nötig, kein Abonnement, keine Nutzungsbedingungen eines Drittanbieters. Das Modell läuft auf dem eigenen Gerät. Daten verlassen das eigene Netzwerk nicht.
Für eine Reihe von Aufgaben ist lokale Inference bereits alltagstauglich:
Quellcode-Reviews, Refactoring-Vorschläge und Dokumentation laufen zuverlässig auf lokalen Modellen. Gerade bei proprietärem Code ein klarer Vorteil: Nichts verlässt dein Netzwerk.
Zusammenfassungen, Reviews, Brainstorming und Entwürfe für interne Dokumente. Viele Alltagsaufgaben, die bisher an ChatGPT oder Claude gingen, lassen sich lokal erledigen.
Automatisierte Abläufe mit klar definiertem Kontext liefern brauchbare Ergebnisse. Besonders für wiederkehrende, strukturierte Aufgaben geeignet.
E-Mail-Entwürfe, Meeting-Zusammenfassungen, Recherche-Notizen. Der Großteil der täglichen KI-Nutzung lässt sich lokal abdecken.
Lokale Modelle stoßen an Grenzen, wenn es um sehr komplexe Reasoning-Aufgaben mit langem Kontext geht. Multimodale Anwendungen (Bildanalyse, Video) sind lokal kaum sinnvoll nutzbar. Und wer für eine bestimmte Aufgabe das aktuell beste verfügbare Modell braucht, wird weiterhin bei den großen Cloud-Anbietern landen.
Claude, GPT oder Gemini in ihren jeweils stärksten Varianten sind den lokalen Alternativen bei anspruchsvollen Aufgaben noch voraus.
Das ist kein Makel. Es beschreibt den Stand der Technik. Die Frage ist nicht, ob lokale Modelle die Cloud komplett ersetzen. Sondern welcher Anteil der täglichen Arbeit sinnvoll lokal erledigt werden kann.
Jede Anfrage an eine externe API überträgt Daten an den Anbieter. Bei Coding-Assistenten ist das der komplette Quellcode. Bei Chat-Tools die gesamte Konversationshistorie. Bei Agenten zusätzlich Dateien und Systemkontexte. Vielen Nutzern ist nicht bewusst, wie viel dabei tatsächlich übertragen wird. Bei lokaler Inference stellt sich die Frage nicht.
Cloud-Inference wird pro Token abgerechnet. Bei intensiver Nutzung skalieren die Kosten mit. Ein lokales Gerät hat feste Anschaffungskosten und überschaubare Betriebskosten. Bei einem GB10-Gerät liegen die Stromkosten unter Volllast bei etwa 500 EUR pro Jahr. Im Normalbetrieb deutlich weniger.
Kein Rate-Limiting, keine API-Ausfälle, keine einseitigen Preisänderungen. Dein Modell läuft, wann du es brauchst, so oft du es brauchst.
Lokale Verarbeitung vermeidet Auftragsverarbeitung, Drittlandtransfers und die Komplexität von Data Processing Agreements. Das vereinfacht die datenschutzrechtliche Bewertung erheblich, besonders für Unternehmen in regulierten Branchen.
Lokale Inference ist kein Selbstläufer. Ein paar Punkte, die in der Begeisterung gerne untergehen:
Ein lokales Gerät will administriert werden. Betriebssystem-Updates, Modellwechsel, Monitoring, Netzwerkkonfiguration. Das braucht Know-how, das nicht in jedem Unternehmen vorhanden ist. Cloud-APIs abstrahieren diese Komplexität.
Dass Qwen3.5-35B bei Benchmarks an kommerzielle Modelle heranreicht, heißt nicht, dass die Ergebnisse in jeder Situation gleichwertig sind. Im Arbeitsalltag mit komplexen Prompts oder Nischenthemen können die Unterschiede deutlicher ausfallen.
Lokale Hardware ist eine Investition in den heutigen Stand der Technik. Cloud-Anbieter rollen laufend neue Modelle aus, ohne dass du Hardware tauschen musst. In zwei Jahren kann die Hardware veraltet sein.
Für ein Team von zwei Leuten reicht ein einzelnes Gerät. Für 50 gleichzeitige Nutzer nicht. Cluster-Lösungen wie exo existieren, erhöhen aber Kosten und Komplexität deutlich.
Benchmarks messen bestimmte Fähigkeiten unter definierten Bedingungen. Im Arbeitsalltag mit ungewöhnlichen Kontexten oder komplexen Prompts können die Unterschiede zwischen lokalen und Cloud-Modellen deutlicher ausfallen als auf dem Papier.
Ein Argument, das zunehmend Gewicht bekommt: Die großen KI-Anbieter sitzen in den USA und China. Regulatorische Eingriffe, Exportbeschränkungen oder politische Konflikte können die Verfügbarkeit von KI-Diensten beeinflussen.
Wer seine Geschäftsprozesse auf einen einzelnen Anbieter aufbaut, der in einer fremden Jurisdiktion operiert, geht ein Risiko ein, das nicht technischer Natur ist.
Das Gegenargument gilt genauso: Open-Weights-Modelle kommen aktuell überwiegend aus China (Alibaba, Moonshot AI, MiniMax). Wer lokale Inference nutzt, reduziert die operative Abhängigkeit. Die strategische Abhängigkeit von den Herstellern der Modelle und der Hardware (NVIDIA, Apple) bleibt bestehen.
Der Markt für lokale Inference-Hardware bewegt sich schnell. Ein Überblick über die relevanten Optionen:
| Hardware | Preis ab | Speicher | Geeignet für | Einschränkungen |
|---|---|---|---|---|
| NVIDIA GB10 (DGX Spark, Asus GX10) | ca. 3.000 EUR | 128 GB | LLM-Inference, Einstieg, Teams | Linux-Know-how hilfreich |
| Apple Mac (M-Chip, 16-64 GB) | ca. 1.500 EUR | 16-64 GB | Kleinere Modelle bis 14B Parameter | Begrenzt auf kleinere Modelle |
| Apple Mac Studio (256-512 GB) | ca. 8.000 EUR | 256-512 GB | Große Modelle, hohe Bandbreite | Hoher Preis |
| AMD Strix Halo Mini-PCs | ca. 2.000 EUR | variabel | Experimentell, Early Adopter | Kein CUDA, unreifes Ökosystem |
| Gebrauchte RTX 3090 (2-3x) | ca. 1.500 EUR | 48-72 GB VRAM | Startups, Linux-Erfahrene | Laut, stromhungrig, wartungsintensiv |
| exo-Cluster | ca. 15.000 EUR | variabel | Sehr große Modelle, Teams | Hohe Kosten und Komplexität |
Für den Einstieg sind die NVIDIA GB10-Geräte aktuell die praktikabelste Option: kompakt, leise, optimiert für LLM-Inference und mit einer vergleichsweise geringen Einstiegshürde.
Lokale Inference muss Cloud-KI nicht ersetzen. Eine pragmatische Aufteilung nach Datenklassifizierung funktioniert in der Praxis besser als ein Entweder-Oder:
HR-Daten, Verträge, Kundendaten, interne Strategiedokumente, proprietärer Code. Alles, was dein Unternehmen nicht in fremden Händen sehen möchte.
Öffentliche Recherche, Marketing-Texte, generische Code-Aufgaben ohne sensiblen Kontext. Aufgaben, bei denen das beste verfügbare Modell den Unterschied macht.
Wer Cloud-Inference nutzen will, aber US-Anbieter vermeiden möchte: Nebius (Rechenzentren in Frankreich und Finnland) oder AKI.IO (deutsche und europäische Server) stellen Open-Weights-Modelle DSGVO-konform über API bereit.
Lokale KI-Inference ist 2026 praxistauglich. Nicht für alles, aber für einen relevanten Teil der täglichen KI-Nutzung in Unternehmen. Die Hardware ist bezahlbar, die Modelle sind gut genug, die Argumente für Datenhoheit und Kostenkontrolle sind real.
Gleichzeitig ist lokale Inference kein Selbstläufer und kein Allheilmittel. Sie erfordert technisches Know-how, bindet Ressourcen für Betrieb und Wartung und kann bei komplexen Aufgaben nicht mit den besten Cloud-Modellen mithalten.
Die strategisch kluge Entscheidung ist wahrscheinlich keine Entweder-Oder-Wahl. Sondern eine bewusste Aufteilung: lokale Inference für den Alltag und sensible Daten, Cloud-Modelle für die schweren Aufgaben. Mit klaren Regeln, welche Daten wohin gehen.
Wer sich für den Einstieg interessiert, sollte nicht auf die perfekte Hardware warten. Die GB10-Geräte sind ein guter Anfang, um Erfahrung zu sammeln. Die eigentliche Arbeit ist nicht das Setup. Es ist die Frage, welche Aufgaben und Daten künftig lokal verarbeitet werden sollen.
Für den Einstieg eignen sich NVIDIA GB10-Geräte wie der DGX Spark oder das Asus GX10 ab etwa 3.000 EUR. Diese bieten 128 GB Speicher und sind für LLM-Inference optimiert. Apple Macs mit M-Chip funktionieren für kleinere Modelle bis 14B Parameter, für größere Modelle braucht es einen Mac Studio mit 256 oder 512 GB Unified Memory.
Für viele Standardaufgaben wie Code-Analyse, Textarbeit oder Brainstorming liefern Open-Weights-Modelle wie Qwen3.5-35B vergleichbare Ergebnisse. Bei sehr komplexem Reasoning, langen Kontexten oder multimodalen Aufgaben liegen die Cloud-Modelle von OpenAI, Anthropic und Google aber weiterhin vorne.
Die Stromkosten für ein GB10-Gerät liegen unter Volllast bei etwa 500 EUR pro Jahr, im Normalbetrieb deutlich weniger. Dazu kommen einmalige Anschaffungskosten ab circa 3.000 EUR. Im Vergleich zu Cloud-APIs, die pro Token abrechnen, sind die Kosten bei intensiver Nutzung oft günstiger und vor allem besser kalkulierbar.
Ja, lokale Verarbeitung vereinfacht die DSGVO-Compliance erheblich. Es entfallen Auftragsverarbeitung, Drittlandtransfers und Data Processing Agreements. Die Daten verlassen das eigene Netzwerk nicht, was die datenschutzrechtliche Bewertung deutlich einfacher macht.
Nein, eine komplette Ablösung ist derzeit nicht sinnvoll. Die beste Strategie ist eine bewusste Aufteilung: Sensible Daten wie HR-Unterlagen, Verträge oder proprietärer Code werden lokal verarbeitet. Für öffentliche Recherche, Marketing-Texte oder besonders anspruchsvolle Aufgaben bleiben Cloud-Modelle die bessere Wahl.
Open-Weights-Modelle sind KI-Sprachmodelle, deren trainierte Gewichte frei verfügbar sind. Du kannst sie herunterladen und auf eigener Hardware betreiben, ohne API-Key, Abonnement oder Nutzungsbedingungen eines Drittanbieters. Bekannte Beispiele sind Qwen3.5 von Alibaba, Kimi 2.5 von Moonshot AI und Llama von Meta.