KI-EntwicklungVeröffentlicht am 01. Juni 2026

Lokale KI im Unternehmen: Was sie kann und was sie braucht

Lokale KI kann für Unternehmen interessant sein, wenn Datenschutz, Kontrolle und wiederkehrende interne Workflows wichtig sind.

Viele Unternehmen interessieren sich für KI, aber sobald interne Dokumente, Kundendaten oder sensible Geschäftsprozesse ins Spiel kommen, wird die Frage schnell praktischer: Dürfen und sollen diese Daten überhaupt an externe Anbieter weitergegeben werden?

Genau an diesem Punkt wird eine lokale KI interessant. Nicht, weil sie automatisch besser ist. Sondern weil sie Unternehmen mehr Kontrolle über Daten, Modelle und interne Workflows gibt. Lokale KI ist kein magischer Ersatz für ChatGPT oder Claude, sondern eine kontrollierte Infrastruktur für konkrete interne Workflows.

Was lokale KI wirklich bedeutet

Lokale KI bedeutet, dass ein KI-Modell auf eigener oder kontrollierter Infrastruktur ausgeführt wird. Das kann ein leistungsfähiger Arbeitsplatzrechner, ein interner Server oder eine professionelle Serverumgebung sein. Die Eingaben werden dabei nicht automatisch an einen externen Anbieter gesendet.

In den meisten Unternehmensfällen geht es dabei nicht darum, ein eigenes Modell von Grund auf zu trainieren. Das wäre teuer, datenintensiv und für viele Betriebe nicht notwendig. Meist geht es um Inference. Ein bereits trainiertes Modell wird lokal ausgeführt und für neue Eingaben genutzt.

Ein wichtiger Begriff ist Open-Weight-Modell. Im Alltag wird oft von Open-Source-Modellen gesprochen. Die Modellgewichte sind verfügbar, aber nicht immer Trainingsdaten, Trainingscode und alle Details der Entwicklung. Beispiele sind Llama, Mistral, Qwen, Gemma oder DeepSeek-Modelle. Vor produktiver Nutzung muss man trotzdem Lizenz, Datenherkunft und Einsatzgebiet prüfen. (Qwen),(Mistral),(Llama)

Garantierter Datenschutz

Der häufigste Grund, warum Unternehmen lokale KI prüfen, ist Datenschutz. Diese Sorge ist berechtigt, besonders wenn Verträge, Personalunterlagen, Kundendaten oder interne Preislisten verarbeitet werden.

Eine lokale Ausführung kann helfen, weil Daten das Unternehmen nicht automatisch verlassen. Prompts, Dokumente, Zwischenergebnisse und Protokolle können intern bleiben. Das reduziert Abhängigkeiten von externen Anbietern und garantiert Datenhoheit.

Was ein lokales LLM-Setup technisch benötigt

Ein lokales Sprachmodell braucht zuerst Hardware. Entscheidend ist nicht nur die normale Rechenleistung, sondern vor allem Speicher. Bei Grafikkarten ist der VRAM wichtig, also der Speicher direkt auf der GPU. Größere Modelle brauchen mehr VRAM. Kleinere oder quantisierte Modelle können auf deutlich günstigerer Hardware laufen.

Quantisierung bedeutet vereinfacht: Die Zahlen im Modell werden kompakter gespeichert. Dadurch braucht das Modell weniger Speicher und kann auf bezahlbarer Hardware laufen. Die Qualität kann dabei etwas sinken, aber für viele interne Aufgaben ist ein gut gewähltes kleineres Modell ausreichend.

Daneben braucht man eine Laufzeitumgebung. Für einfache Tests ist Ollama beliebt, weil Modelle relativ schnell lokal gestartet werden können und GPU-Beschleunigung auf verschiedenen Plattformen unterstützt wird.

Für echte Unternehmensanwendungen kommt fast immer RAG dazu, kurz für Retrieval-Augmented Generation. Das Modell antwortet dann nicht nur aus seinem allgemeinen Training, sondern bekommt zuerst relevante Informationen aus einer ausgewählten Wissensbasis, zum Beispiel internen PDFs, Handbüchern, Richtlinien oder Produktdaten.

Ein gutes lokales Setup besteht daher aus mehreren Bausteinen: Hardware, Modell, Laufzeitumgebung, Benutzeroberfläche oder interne Anwendung, Dokumentenverarbeitung, Suchindex, Zugriffskontrolle, Protokollierung, Updates und Qualitätskontrolle.

Drei sinnvolle Ausbaustufen

Die richtige Infrastruktur hängt nicht nur von der Unternehmensgröße ab. Sie hängt vor allem vom Nutzungsprofil ab. Ein Betrieb mit 20 Mitarbeitern und täglich tausenden Dokumenten kann mehr KI-Infrastruktur brauchen als ein Unternehmen mit 150 Mitarbeitern, das nur gelegentlich KI nutzt.

Stufe 1: Privatnutzung und kleine Teams

Diese Stufe eignet sich für erste Tests und einzelne Teams. Typische Aufgaben sind lokale Chat-Nutzung, einfache Zusammenfassungen, erste Tests mit internen Dokumenten oder kleine Automatisierungen.

Die Hardware kann ein leistungsfähiger Laptop, ein Mac mit ausreichend Unified Memory, ein Mini-PC oder eine Workstation mit GPU sein. Praktisch werden meist kleine bis mittlere Modelle genutzt, etwa 7B bis 14B Parameter in quantisierter Form. Ein PC mit 32 bis 64 GB RAM und 12 bis 16 GB VRAM kann für solche Tests bereits sinnvoll sein.

Der Kostenrahmen liegt grob zwischen 0 und 2.500 Euro, wenn vorhandene Hardware genutzt oder moderat erweitert wird. Diese Stufe ist gut zum Lernen, aber noch keine verlässliche Unternehmensinfrastruktur.

Stufe 2: Kleines bis mittleres Unternehmen mit konkretem Workflow

Diese Stufe wird interessant, wenn ein Team regelmäßig mit sensiblen Dokumenten arbeitet. Beispiele sind eine Steuerkanzlei, ein technisches Büro, ein HR-Team oder ein Kundendienst mit vielen wiederkehrenden Anfragen.

Hier reicht ein einzelner Testrechner oft nicht mehr. Sinnvoller ist eine dedizierte Workstation oder ein kleiner Server mit starker GPU, 64 bis 128 GB RAM und Benutzerverwaltung. Beispiele wären eine Workstation mit RTX 4090 (24 GB VRAM) oder RTX 5090 (32 GB VRAM), je nach Verfügbarkeit, Budget und Softwarekompatibilität.

Die Kosten liegen grob zwischen 4.000 und 15.000 Euro für Hardware, ohne Integration, Wartung und Prozessdesign. Diese Stufe eignet sich für interne Wissenssuche, Dokumentenanalyse, E-Mail-Entwürfe oder Assistenzsysteme.

Stufe 3: Größeres Unternehmen bzw. hohe Anforderungen

Bei größeren Unternehmen geht es nicht mehr nur darum, ein Modell irgendwo laufen zu lassen. Es geht um Betriebsfähigkeit. Mehrere Abteilungen, parallele Nutzer, höhere Last, zentrale Rechteverwaltung, Monitoring, Audit-Logs, Backup-Strategien und klare Verantwortlichkeiten werden wichtig.

Hier kommen professionelle GPU-Server, mehrere Grafikkarten oder Workstation-GPUs mit großem Speicher infrage. Eine NVIDIA RTX PRO 6000 Blackwell bietet zum Beispiel 96 GB GDDR7-Speicher und zielt auf professionelle Workstation- und AI-Workloads. Solche Systeme sind nicht für einen lockeren Test gedacht, sondern für produktive Infrastruktur.

Der Kostenrahmen beginnt grob bei 25.000 Euro und kann deutlich über 100.000 Euro steigen, wenn Hochverfügbarkeit, mehrere GPUs, Wartung, Integration und Sicherheitsanforderungen dazukommen.

Wann sich lokale KI lohnt und wann nicht

Lokale KI lohnt sich besonders, wenn sensible Daten verarbeitet werden, die Nutzung regelmäßig ist und ein klarer interner Workflow existiert. Gute Kandidaten sind Dokumentenverarbeitung, interne Wissenssuche, strukturierte Textanalyse, E-Mail-Vorbereitung, Protokollzusammenfassungen oder wiederkehrende administrative Aufgaben.

Sie lohnt sich weniger, wenn ein Unternehmen KI nur gelegentlich nutzt, keine technische Betreuung leisten kann oder immer die stärksten verfügbaren Modelle braucht. Cloud-Modelle sind meist einfacher, schneller verfügbar und bei seltenem Gebrauch günstiger. Für manche Aufgaben ist ein hybrider Ansatz am vernünftigsten: sensible Standardprozesse lokal, spezielle Aufgaben bei Bedarf über geprüfte Cloud-Dienste.

Die Stärke lokaler KI liegt in Kontrolle, Datenschutz, planbaren Kosten und der Nähe zu internen Daten. Die Schwächen liegen im Betriebsaufwand, in der Hardwarebindung, in Modellgrenzen und in der notwendigen Wartung.

Die wichtigste Frage lautet: Welcher Prozess soll verbessert werden, welche Daten sind betroffen, und welche Kontrolle braucht das Unternehmen wirklich?

Für viele Betriebe beginnt der sinnvolle Weg nicht mit dem Kauf eines Servers. Er beginnt mit einem klaren Use Case, einem kleinen Prototyp und einer ehrlichen Prüfung, ob lokale KI für diesen konkreten Workflow wirklich die bessere Infrastruktur ist.