Familie 3 von 4

Foundation Models.

Die Familie, von der alle reden. LLMs, VLMs, Diffusion Models. Einmal in großem Maßstab trainiert, anschließend an deine Domain angepasst. Die meistgenutzte Familie im Jahr 2026.

These

Foundation Models sind vortrainierte Allzweckmodelle, dieemergente Fähigkeiten aufweisen. Obwohl sie lediglich darauf trainiert wurden, das nächste Token vorherzusagen, haben sie Grammatik, Weltwissen, Reasoning-Muster und Code gelernt. Man trainiert sie nicht. Man passt sie an. Für das richtige Problem sind sie unersetzlich.

Das mentale Modell

Der Kernsatz lautet:Ein LLM ist ein next-token predictor. Das ist das gesamte Modell. Der Chat ist eine darauf aufbauende Illusion.

Agents, RAG, reasoning models, MCP. Das sind alles Systeme, die auf diesem einen Mechanismus basieren. Halluzinationen sind keine Fehler. Sie sind der Preis dafür, wie das Modell funktioniert. Das Modell ruft keine Fakten ab. Es erzeugt plausible Fortsetzungen.

Das Anpassungsdreieck

Drei Wege, ein Foundation Model für deine Domain nutzbar zu machen:

MethodeLöstKostenstruktur
PromptingKommunikationsproblemAm billigsten, am schnellsten, am schwächsten
RAGWissensproblem (das Modell kennt deine Daten nicht)Mittel; laufende Abrufkosten
Fine-TuningVerhaltensproblem (das Modell verhält sich nicht so, wie du es brauchst)Hohe Einmalzahlung, geringere Folgekosten
Nichts davonDu brauchst kein LLM (Familie 1, 2 oder 4 passen)Mit Abstand das Beste

Die meisten Teams greifen zu Fine-Tuning, obwohl sie eigentlich RAG brauchen. Teste zuerst Prompting. Dann RAG. Und erst dann fine-tune, wenn beide nicht funktionieren.

Agents, in einem Satz

Der AnkersatzEin Agent ist ein Loop. LLM-Aufruf → Tool-Aufruf → Ergebnis → wiederholen, bis er entscheidet, dass er fertig ist.

In Anthropics Beitrag vom Dezember 2024„Building Effective Agents“werden fünf Workflow-Muster aufgeführt, die in der Produktion immer wieder auftauchen: Verkettung, Routing, Parallelisierung, Orchestrator-Worker und Evaluator- Optimierer. Neue Framework-Namen tauchen vierteljährlich auf. Die zugrunde liegenden Muster sind jedoch stabil.

Reasoning Models

Reasoning Models (o-Serie,DeepSeek-R1, Claude Extended Thinking, Gemini Thinking) verbrennen interne Tokens für bessere Antworten. Oft sind sie pro Aufruf um eine Größenordnung teurer als ein entsprechendes Non-Reasoning-Modell. Setze sie ein, wenn ein kluger Mensch innehalten und einige Minuten nachdenken würde. Lass sie weg, wenn ein kluger Mensch sofort antworten würde.

Diffusion (die Unterfamilie für Bilder und Videos)

Generative Modelle für Bilder, Video, Audio und 3D. Frontier 2025–2026:FLUX 2,SD 3.5,Sora,Veo,Kling. ControlNet und IP-Adapter für die Konditionierung. C2PA / SynthID für den Herkunftsnachweis. Andere mathematische Familie als bei LLMs (Rauschunterdrückung statt Next-Token), aber dasselbe Muster: „Einmal in großem Maßstab trainieren, danach anpassen“.

MCP

Model Context Protocol. Das USB-C der KI-Tools: das Protokoll, mit dem Agents auf dein CRM, deinen Code und deine Datenbank zugreifen können. Veröffentlicht von Anthropic im November 2024, im Dezember 2025 an die Linux Foundation gespendet. Bis April 2026: ~97 Millionen monatliche SDK-Downloads, ~9.400 öffentliche Server, 78 % der Unternehmensteams nutzen es in der Produktion. Neue Angriffsfläche. Dein CISO braucht bis zum nächsten Quartal die OWASP LLM Top 10.

Die Entscheidungsregel

Wenn dein Problem...Familie 3?
Unstrukturierter Text oder chaotische FreitexteingabenJa
Die Ausgabe sollte aus lesbarem Text bestehenJa
Du musst mit Fragen umgehen, die du nicht vorhergesehen hastJa
Das Latenzbudget beträgt SekundenJa
Bild-/VideogenerierungJa (Diffusion)
Problem der tabellarischen StrukturvorhersageNein (Familie 1)
Echtzeit / Latenz unter 100 msNein (Familie 2)

Wann du es NICHT verwenden solltest

Namentlich genannte Vorbilder

Die häufigste Falle:Familie 3 ist pro Inference die teuerste Familie. Sie ist auch die am stärksten vermarktete. Überprüfe jedes „Lasst uns KI nutzen“-Projekt darauf, ob es sich bei den Eingaben tatsächlich um unstrukturierten Text handelt. Wenn es sich um tabellarische Daten handelt, verschwendest du Geld für die falsche Familie.
Mario Deubler

Wenn das beschreibt, woran dein Team gerade arbeitet

Series-A-Gründer und Heads of Product, die genau diese Symptome durcharbeiten (Teams liefern schnell, die Zahlen bewegen sich nicht), sprecht mich an. Ich arbeite als Fractional Head of Product, eingebettet in dein Team. Führen und bauen, kein PowerPoint.