Entscheidungsregel

Welche Familie passt?

Die Entscheidungsregel auf einer Seite. Fünf Fragen, die du beantworten solltest, bevor dein Team mit der Entwicklung beginnt. Setze ein Lesezeichen für diese Seite.

Die fünf Fragen

Ist der Input strukturiert (Zeilen + Spalten) oder unstrukturiert (Freitext, Bilder, Audio)?
Brauche ich als Ausgabe eine Zahl/Klasse oder einen Satz?
Wie hoch ist mein Latenzbudget?Unter 100 ms oder Sekunden?
Muss ich die Antwort einer Aufsichtsbehörde erklären?
Wie viele beschriftete Trainingsdaten habe ich?Hunderte, Tausende oder Millionen?

Beantworte diese fünf Fragen, und die Familie ergibt sich meist von selbst.

Die Karte

Problemstellung	Familie	Warum
Strukturiert + Nummer/Klasse + unter 100 ms + nachprüfbar	Familie 1: Klassisches ML	Die Heimat tabellarischer Daten. Gradient Boosting punktet bei Genauigkeit, Latenz, Kosten und Interpretierbarkeit.
Bild / Video / Audio / Zeitreihen + Echtzeit	Familie 2: Specialist DL	Pre-LLM-Spezialisten sind bei ihrer Methode schneller und kostengünstiger.
Freitext-Input oder -Output + Latenz in Sekunden OK	Familie 3: Foundation Models	Offene Struktur, generative Ergebnisse, bewältigt neuartige Abfragen.
Schrittweise Entscheidungen + klare Belohnung + kostengünstig auszuprobieren	Familie 4: RL	Die einzige Familie, die nicht nur Vorhersagen trifft, sondern auch handelt.
Nichts davon. Regeln und SQL würden ausreichen	Familie 0: Keine KI verwenden	Die Hälfte aller „KI-Projekte“ sollte aus einer SQL-Abfrage und einem Dashboard bestehen.

Drei Prüfungsfragen für jeden KI-Vorschlag

Wenn dein Team dir einen Punkt für die KI-Roadmap vorlegt, frag diese drei Dinge, bevor du grünes Licht gibst:

Um welche Familie handelt es sich hier?Wenn sie keine Begriffe aus dem Familienvokabular verwenden, ist das ein Zeichen dafür, dass sie sich darüber noch keine Gedanken gemacht haben.
Zeig mir deine Evals.Keine Evals, kein Projekt. Nur eine Demo.
Zeig mir einen einzigen Produktions-Trace.Wenn sie das nicht können, haben sie keine Observability. Sie können keine Fehler beheben. Sie können nichts ausliefern.

Drei Prüfungsfragen für jeden KI-Anbieter

Wenn dir ein Anbieter KI anbietet, stell ihm diese drei Fragen, bevor du unterschreibst:

Welche Familie steckt hinter deinem Produkt?Viele verpacken einfach ein LLM und nennen es KI. Das ist in Ordnung, wenn Familie 3 zur Problemstellung passt, aber teuer, wenn nicht.
Wie hoch ist deine Latenz im 95. Perzentil?Demos zeigen das 50. Perzentil. Das 95. Perzentil ist das, was deine Kunden spüren.
Was passiert, wenn das Modell falsch ist?Ein Anbieter ohne eine „halluzinationsbewusste“ Benutzererfahrung hat ein anfälliges Produkt.

Häufige Fehlklassifizierungen

Prognostiziere die Kundenabwanderung anhand von Kundendaten mit GPT-5.Tabellarische Daten → Familie 1. XGBoost ist um ein Vielfaches kostengünstiger und genauer.

Erkenne Fertigungsfehler am Fließband mit Claude Vision.Echtzeit-Bildverarbeitung → Familie 2. YOLO liefert 30 FPS auf der Linienkamera, komplett auf dem Gerät.

Prognostiziere den Quartalsumsatz mithilfe von GPT-5 mit Prompt-Engineering.Zeitreihen → Familie 2. Prophet-Baseline plus TFT oder Chronos für den Lift.

Bau einen Kundensupport-Agent mit einem fine-getunten LLM.Wahrscheinlich Familie 3 mit RAG über deinem Hilfe-Center, nicht Fine-Tuning. Teste zuerst Prompting, dann RAG, und mach Fine-Tuning erst, wenn beide nicht funktionieren.

Montagmorgen

Überprüfe deine aktuelle KI-Roadmap nach Produktfamilien. Finde die Ausreißer.
Stell dem nächsten KI-Anbieter, der dir sein Produkt vorstellt, diese drei Fragen.
Abonniere einen technischen Newsletter, den du auch wirklich lesen wirst.latent.space,simonwillison.net unddeeplearning.ai/the-batch sind die besten im Jahr 2026.

Häufige Fragen

Sollte ich ein LLM nutzen, um Kundenabwanderung vorherzusagen?

Nein. Churn-Daten sind tabellarisch (Zeilen pro Kunde, Spalten pro Feature), und Familie 1 (klassisches ML) gewinnt auf jeder Dimension: Genauigkeit, Latenz, Kosten, Interpretierbarkeit. Gradient Boosting (XGBoost, LightGBM) ist der Standard auf tabellarischen Daten und um Größenordnungen günstiger als ein LLM-Call pro Vorhersage.

Wann verwende ich RAG statt ein LLM zu fine-tunen?

RAG nutzt du, wenn dem Modell Wissen über deine spezifischen Daten fehlt (Dokumente, Help-Center, Produktkatalog). Fine-Tuning, wenn das Modell das Wissen hat, sich aber nicht so verhält wie nötig (Ton, Format, Verweigerungslogik). Teste zuerst Prompting, dann RAG, und Fine-Tune nur wenn beide nicht reichen. Die meisten Teams greifen zu Fine-Tuning, wenn sie eigentlich RAG brauchen.

Welche KI-Familie passt für Echtzeit-Computervision am Fließband?

Familie 2, spezialisiertes Deep Learning. Modelle wie YOLO liefern 30 Bilder pro Sekunde auf der Linienkamera, komplett on-device, mit sub-100ms-Latenz. Foundation-Model-Vision-APIs (Claude Vision, GPT-4o) sind zu langsam und zu teuer pro Inferenz für industrielle Echtzeit-Anwendungen.

Ist Reinforcement Learning je die richtige Wahl für ein Startup?

Selten. Familie 4 (RL) passt für sequentielle Entscheidungen mit klarem Reward-Signal und günstig simulierbaren Umgebungen: Trading, Robotik, Recommendation-Ranking, LLM-Post-Training. Wenn dein Problem One-Shot-Prediction, Klassifikation oder Generierung ist, brauchst du kein RL. Die Infrastruktur ist teuer und das Talent rar.

Wie prüfe ich das Produkt eines KI-Anbieters?

Drei Fragen. Erstens: Welche Familie steckt im Produkt? Viele verpacken ein LLM und nennen es KI; das ist okay, wenn Familie 3 zur Problemstellung passt, und teuer wenn nicht. Zweitens: Wie hoch ist die p95-Latenz unter Last? Demos zeigen p50, Kunden spüren p95. Drittens: Was passiert, wenn das Modell falsch liegt? Ein Anbieter ohne halluzinations-bewusste UX hat ein anfälliges Produkt.

Was ist die Produktions-Triade, die jedes KI-Team braucht?

Eval, Trace, Loop. Evals definieren vor dem Launch, wie „gut“ aussieht. Traces lassen dich rekonstruieren, was passiert ist, wenn ein Nutzer einen Bug meldet. Der Loop ist Bauen, Eval, Fixen, Ausliefern, wiederholen mit jeweils schärferem Eval. Ein Team, das dir alle drei nicht zeigen kann, baut eine Demo, kein Produkt.