KI-TechnologieVeröffentlicht am 14. Mai 2026

Wie funktioniert generative KI

Viele reden über KI. Wenige kennen die statistische Pipeline dahinter. Dieser Artikel erklärt, wie moderne Sprachmodelle tatsächlich trainiert werden, von der ersten Datenflut bis zur menschlichen Präferenzoptimierung.

Viele KI-Berater sind wie Handwerker, die nur den Hammer bedienen können, aber keine Ahnung von Statik, Elektrik, Dämmung und Wasserführung haben. Sie versprechen dir ein fertiges Haus, rennen aber schon beim ersten schiefen Balken zum Youtube-Tutorial.

Das Problem ist real. Wer nicht versteht, wie generative KI funktioniert, kann sie auch nicht sinnvoll in Unternehmensprozesse einbetten. Er kann Demos zeigen, Werkzeuge empfehlen und Transformationsprojekte anpreisen. Aber er kann nicht beurteilen, warum ein Modell in einem bestimmten Kontext versagt, welche Daten für eine Anwendung geeignet sind, oder wie man ein System so aufbaut, dass es zuverlässig und kontrollierbar bleibt.

Genau das ist der Unterschied zwischen oberflächlichem KI-Wissen und echtem technischen Verständnis.

KI ist Statistik mit massivem Rechenaufwand

Künstliche Intelligenz ist im Kern nichts anderes als lernende Algorithmen. Statistik auf Steroiden. Viele der mathematischen Methoden, die heute in KI-Systemen stecken, sind nicht neu: Bayessche Inferenz, Gradientenverfahren, Regressionsmodelle, diese Konzepte existieren seit Jahrzehnten oder Jahrhunderten. Was sich verändert hat, ist die Menge an Daten und Rechenkapazität, mit der wir diese Methoden heute anwenden können.

Generative KI ist ein Teilbereich dieser breiteren Disziplin. Statt Ergebnisse zu klassifizieren oder Zahlen vorherzusagen, lernen diese Modelle, neue Inhalte zu erzeugen wie zum Beispiel Text, Code oder Bilder.

Wie ein Sprachmodell entsteht: die dreistufige Pipeline

Die Art, wie moderne Sprachmodelle trainiert werden, lässt sich in drei Phasen beschreiben. Diese Pipeline wurde von einem Forschungsteam bei OpenAI systematisch dokumentiert und bildete die Grundlage für InstructGPT, den direkten Vorläufer von ChatGPT. (Quelle)

Phase 1: Pretraining: Sprache verstehen

In der ersten Phase wird das Modell mit einer enormen Menge an Text trainiert. Bücher, Webseiten, wissenschaftliche Artikel, Code. Wir reden von Billionen von Wörtern. Das Modell lernt dabei wie Muster in der Sprache funktionieren und das nächste Wort vorherzusagen. Es wird nicht mit Regeln gefüttert. Es extrahiert statistische Muster aus den Daten bzw. welche Wörter in welchen Kontexten aufeinander folgen, mit welcher Wahrscheinlichkeit, in welcher Reihenfolge.

Das Ergebnis ist ein sogenanntes Grundmodell (Base Model). Ein System, das Sprache versteht und reproduzieren kann, aber noch kein nützliches Verhalten zeigt. Es beantwortet eine Frage nicht wie ein Assistant, sondern vervollständigt einen Text so, wie er statistisch auf eine Eingabe folgen würde.

Phase 2: Supervised Fine-Tuning: Verhalten einüben

Im zweiten Schritt wird das Grundmodell verfeinert. Menschliche Trainer schreiben Beispiele: Hier ist eine Frage, hier ist eine gute Antwort. Das Modell lernt, dieses Verhalten nachzuahmen.

Supervised Fine-Tuning (SFT) heißt dieser Schritt, weil das Modell anhand von menschlich annotierten Beispielen trainiert wird. Es ist vergleichbar mit einem Praktikanten, dem man zeigt, wie gute Antworten aussehen sollen, bevor er selbständig arbeitet. Das Modell wird dadurch hilfreicher, aber es hat noch kein Gespür dafür, welche Antworten Menschen wirklich bevorzugen.

Phase 3: Preference Optimization: Menschliche Präferenzen einbauen

Die dritte Phase ist die entscheidende. Hier werden menschliche Präferenzen systematisch in das Modell eingebaut. Das Modell generiert mehrere Antworten auf dieselbe Eingabe. Menschliche Bewerter vergleichen diese Antworten und sagen, welche sie bevorzugen.

Aus diesen Vergleichen wird ein sogenanntes Reward Model trainiert, ein eigenes Belohnungsmodell, das vorhersagen soll, welche Antworten Menschen als besser bewerten würden. Danach wird das eigentliche Sprachmodell optimiert, um möglichst hohe Bewertungen von diesem Reward Model zu erhalten. Diese Technik heißt Reinforcement Learning from Human Feedback, kurz RLHF. (Quelle)

Das Ergebnis ist ein Modell, das nicht nur sprachlich kompetent ist, sondern auch nützlich und weniger schädlich antwortet, weil genau diese Eigenschaften durch menschliche Bewertungen systematisch belohnt wurden.

Wo die Modelle heute stehen

Diese dreistufige Pipeline war der Ausgangspunkt. Aktuelle Modelle gehen erheblich weiter. GPT-5 von OpenAI beispielsweise ist kein einzelnes Modell mehr, sondern ein ganzes System: ein schnelles Modell für einfache Anfragen, ein tieferes Reasoning-Modell für komplexe Probleme, und ein Router, der in Echtzeit entscheidet, welches Modell für eine Anfrage genutzt wird. (Quelle)

Claude von Anthropic, Grok von xAI, alle führenden Anbieter bauen auf derselben statistischen Grundlage, aber mit zunehmend komplexen Erweiterungen: längere Kontextfenster, Multimodalität, agentische Fähigkeiten, verbesserte Reasoning-Architekturen. Die ursprüngliche dreistufige Pipeline bleibt das Fundament. Aber was darauf gebaut wird, ist heute erheblich anspruchsvoller.

Was das für Unternehmen bedeutet

Für ein Unternehmen, das KI einsetzen will, ist das technische Verständnis der Trainings- und Optimierungspipeline kein Selbstzweck. Es ist die Voraussetzung dafür, die richtigen Entscheidungen zu treffen: Welches Modell passt zu welchem Anwendungsfall? Welche Daten brauche ich, um ein Modell für meine Prozesse zu verfeinern? Warum verhält sich ein System in einem bestimmten Kontext anders als erwartet?

Wer die Mechanik versteht, kann sinnvolle KI-Anwendungen bauen. Wer nur weiß, wie ein Hammer funktioniert, kann nur auf Nägeln draufhämmern.