Familie 3 von 4

Foundation Models.

Die Familie, von der alle reden. LLMs, VLMs, Diffusion Models. Einmal in großem Maßstab trainiert, anschließend an deine Domain angepasst. Die meistgenutzte Familie im Jahr 2026.

These

Foundation Models sind vortrainierte Allzweckmodelle, dieemergente Fähigkeiten aufweisen. Obwohl sie lediglich darauf trainiert wurden, das nächste Token vorherzusagen, haben sie Grammatik, Weltwissen, Reasoning-Muster und Code gelernt. Man trainiert sie nicht. Man passt sie an. Für das richtige Problem sind sie unersetzlich.

Das mentale Modell

Der Kernsatz lautet:Ein LLM ist ein next-token predictor. Das ist das gesamte Modell. Der Chat ist eine darauf aufbauende Illusion.

Agents, RAG, reasoning models, MCP. Das sind alles Systeme, die auf diesem einen Mechanismus basieren. Halluzinationen sind keine Fehler. Sie sind der Preis dafür, wie das Modell funktioniert. Das Modell ruft keine Fakten ab. Es erzeugt plausible Fortsetzungen.

Das Anpassungsdreieck

Drei Wege, ein Foundation Model für deine Domain nutzbar zu machen:

Methode	Löst	Kostenstruktur
Prompting	Kommunikationsproblem	Am billigsten, am schnellsten, am schwächsten
RAG	Wissensproblem (das Modell kennt deine Daten nicht)	Mittel; laufende Abrufkosten
Fine-Tuning	Verhaltensproblem (das Modell verhält sich nicht so, wie du es brauchst)	Hohe Einmalzahlung, geringere Folgekosten
Nichts davon	Du brauchst kein LLM (Familie 1, 2 oder 4 passen)	Mit Abstand das Beste

Die meisten Teams greifen zu Fine-Tuning, obwohl sie eigentlich RAG brauchen. Teste zuerst Prompting. Dann RAG. Und erst dann fine-tune, wenn beide nicht funktionieren.

Agents, in einem Satz

Der AnkersatzEin Agent ist ein Loop. LLM-Aufruf → Tool-Aufruf → Ergebnis → wiederholen, bis er entscheidet, dass er fertig ist.

In Anthropics Beitrag vom Dezember 2024„Building Effective Agents“werden fünf Workflow-Muster aufgeführt, die in der Produktion immer wieder auftauchen: Verkettung, Routing, Parallelisierung, Orchestrator-Worker und Evaluator- Optimierer. Neue Framework-Namen tauchen vierteljährlich auf. Die zugrunde liegenden Muster sind jedoch stabil.

Reasoning Models

Reasoning Models (o-Serie,DeepSeek-R1, Claude Extended Thinking, Gemini Thinking) verbrennen interne Tokens für bessere Antworten. Oft sind sie pro Aufruf um eine Größenordnung teurer als ein entsprechendes Non-Reasoning-Modell. Setze sie ein, wenn ein kluger Mensch innehalten und einige Minuten nachdenken würde. Lass sie weg, wenn ein kluger Mensch sofort antworten würde.

Diffusion (die Unterfamilie für Bilder und Videos)

Generative Modelle für Bilder, Video, Audio und 3D. Frontier 2025–2026:FLUX 2,SD 3.5,Sora,Veo,Kling. ControlNet und IP-Adapter für die Konditionierung. C2PA / SynthID für den Herkunftsnachweis. Andere mathematische Familie als bei LLMs (Rauschunterdrückung statt Next-Token), aber dasselbe Muster: „Einmal in großem Maßstab trainieren, danach anpassen“.

MCP

Model Context Protocol. Das USB-C der KI-Tools: das Protokoll, mit dem Agents auf dein CRM, deinen Code und deine Datenbank zugreifen können. Veröffentlicht von Anthropic im November 2024, im Dezember 2025 an die Linux Foundation gespendet. Bis April 2026: ~97 Millionen monatliche SDK-Downloads, ~9.400 öffentliche Server, 78 % der Unternehmensteams nutzen es in der Produktion. Neue Angriffsfläche. Dein CISO braucht bis zum nächsten Quartal die OWASP LLM Top 10.

Die Entscheidungsregel

Wenn dein Problem...	Familie 3?
Unstrukturierter Text oder chaotische Freitexteingaben	Ja
Die Ausgabe sollte aus lesbarem Text bestehen	Ja
Du musst mit Fragen umgehen, die du nicht vorhergesehen hast	Ja
Das Latenzbudget beträgt Sekunden	Ja
Bild-/Videogenerierung	Ja (Diffusion)
Problem der tabellarischen Strukturvorhersage	Nein (Familie 1)
Echtzeit / Latenz unter 100 ms	Nein (Familie 2)

Wann du es NICHT verwenden solltest

Tabellarische Vorhersage. Familie 1 gewinnt in jeder Hinsicht.
Echtzeit-Inference. Selbst der schnellste LLM-Aufruf dauert über 200 ms.
Eindeutig nachvollziehbare Einzelentscheidungen. Die im EU-KI-Gesetz festgelegten Verpflichtungen für Hochrisikofälle sowie Artikel 22 der DSGVO treiben regulierte Systeme in Richtung erklärbarer Modelle; die maschinelle Interpretation von LLMs ist noch ein Forschungsprojekt.
Aufgaben mit hohem Volumen und geringer Marge. 0,001 € pro Call × 10 Millionen Calls pro Tag = 3,65 Millionen € pro Jahr für etwas, das eigentlich ein „Familie 1“-Modell hätte sein können.

Namentlich genannte Vorbilder

Chat-Dienste für Verbraucher.ChatGPT, Claude, Gemini.
Code-Copiloten.GitHub Copilot, Cursor.
Produkte für die Deep-Learning-Forschung.Perplexity, Anthropic Research, OpenAI Deep Research.
Bildgenerierung.Midjourney, FLUX, Stable Diffusion 3.5.
Voice Agents.Vapi, Retell. Familie 2 + Familie 3 Pipeline.

Die häufigste Falle:Familie 3 ist pro Inference die teuerste Familie. Sie ist auch die am stärksten vermarktete. Überprüfe jedes „Lasst uns KI nutzen“-Projekt darauf, ob es sich bei den Eingaben tatsächlich um unstrukturierten Text handelt. Wenn es sich um tabellarische Daten handelt, verschwendest du Geld für die falsche Familie.