Familie 3 von 4
Foundation Models.
Die Familie, von der alle reden. LLMs, VLMs, Diffusion Models. Einmal in großem Maßstab trainiert, anschließend an deine Domain angepasst. Die meistgenutzte Familie im Jahr 2026.
These
Foundation Models sind vortrainierte Allzweckmodelle, dieemergente Fähigkeiten aufweisen. Obwohl sie lediglich darauf trainiert wurden, das nächste Token vorherzusagen, haben sie Grammatik, Weltwissen, Reasoning-Muster und Code gelernt. Man trainiert sie nicht. Man passt sie an. Für das richtige Problem sind sie unersetzlich.
Das mentale Modell
Agents, RAG, reasoning models, MCP. Das sind alles Systeme, die auf diesem einen Mechanismus basieren. Halluzinationen sind keine Fehler. Sie sind der Preis dafür, wie das Modell funktioniert. Das Modell ruft keine Fakten ab. Es erzeugt plausible Fortsetzungen.
Das Anpassungsdreieck
Drei Wege, ein Foundation Model für deine Domain nutzbar zu machen:
| Methode | Löst | Kostenstruktur |
|---|---|---|
| Prompting | Kommunikationsproblem | Am billigsten, am schnellsten, am schwächsten |
| RAG | Wissensproblem (das Modell kennt deine Daten nicht) | Mittel; laufende Abrufkosten |
| Fine-Tuning | Verhaltensproblem (das Modell verhält sich nicht so, wie du es brauchst) | Hohe Einmalzahlung, geringere Folgekosten |
| Nichts davon | Du brauchst kein LLM (Familie 1, 2 oder 4 passen) | Mit Abstand das Beste |
Die meisten Teams greifen zu Fine-Tuning, obwohl sie eigentlich RAG brauchen. Teste zuerst Prompting. Dann RAG. Und erst dann fine-tune, wenn beide nicht funktionieren.
Agents, in einem Satz
In Anthropics Beitrag vom Dezember 2024„Building Effective Agents“werden fünf Workflow-Muster aufgeführt, die in der Produktion immer wieder auftauchen: Verkettung, Routing, Parallelisierung, Orchestrator-Worker und Evaluator- Optimierer. Neue Framework-Namen tauchen vierteljährlich auf. Die zugrunde liegenden Muster sind jedoch stabil.
Reasoning Models
Reasoning Models (o-Serie,DeepSeek-R1, Claude Extended Thinking, Gemini Thinking) verbrennen interne Tokens für bessere Antworten. Oft sind sie pro Aufruf um eine Größenordnung teurer als ein entsprechendes Non-Reasoning-Modell. Setze sie ein, wenn ein kluger Mensch innehalten und einige Minuten nachdenken würde. Lass sie weg, wenn ein kluger Mensch sofort antworten würde.
Diffusion (die Unterfamilie für Bilder und Videos)
Generative Modelle für Bilder, Video, Audio und 3D. Frontier 2025–2026:FLUX 2,SD 3.5,Sora,Veo,Kling. ControlNet und IP-Adapter für die Konditionierung. C2PA / SynthID für den Herkunftsnachweis. Andere mathematische Familie als bei LLMs (Rauschunterdrückung statt Next-Token), aber dasselbe Muster: „Einmal in großem Maßstab trainieren, danach anpassen“.
MCP
Model Context Protocol. Das USB-C der KI-Tools: das Protokoll, mit dem Agents auf dein CRM, deinen Code und deine Datenbank zugreifen können. Veröffentlicht von Anthropic im November 2024, im Dezember 2025 an die Linux Foundation gespendet. Bis April 2026: ~97 Millionen monatliche SDK-Downloads, ~9.400 öffentliche Server, 78 % der Unternehmensteams nutzen es in der Produktion. Neue Angriffsfläche. Dein CISO braucht bis zum nächsten Quartal die OWASP LLM Top 10.
Die Entscheidungsregel
| Wenn dein Problem... | Familie 3? |
|---|---|
| Unstrukturierter Text oder chaotische Freitexteingaben | Ja |
| Die Ausgabe sollte aus lesbarem Text bestehen | Ja |
| Du musst mit Fragen umgehen, die du nicht vorhergesehen hast | Ja |
| Das Latenzbudget beträgt Sekunden | Ja |
| Bild-/Videogenerierung | Ja (Diffusion) |
| Problem der tabellarischen Strukturvorhersage | Nein (Familie 1) |
| Echtzeit / Latenz unter 100 ms | Nein (Familie 2) |
Wann du es NICHT verwenden solltest
- Tabellarische Vorhersage. Familie 1 gewinnt in jeder Hinsicht.
- Echtzeit-Inference. Selbst der schnellste LLM-Aufruf dauert über 200 ms.
- Eindeutig nachvollziehbare Einzelentscheidungen. Die im EU-KI-Gesetz festgelegten Verpflichtungen für Hochrisikofälle sowie Artikel 22 der DSGVO treiben regulierte Systeme in Richtung erklärbarer Modelle; die maschinelle Interpretation von LLMs ist noch ein Forschungsprojekt.
- Aufgaben mit hohem Volumen und geringer Marge. 0,001 € pro Call × 10 Millionen Calls pro Tag = 3,65 Millionen € pro Jahr für etwas, das eigentlich ein „Familie 1“-Modell hätte sein können.
Namentlich genannte Vorbilder
- Chat-Dienste für Verbraucher.ChatGPT, Claude, Gemini.
- Code-Copiloten.GitHub Copilot, Cursor.
- Produkte für die Deep-Learning-Forschung.Perplexity, Anthropic Research, OpenAI Deep Research.
- Bildgenerierung.Midjourney, FLUX, Stable Diffusion 3.5.
- Voice Agents.Vapi, Retell. Familie 2 + Familie 3 Pipeline.
