Produktion
Warum die meisten KI-Projekte scheitern.
95 % der KI-Projekte in Unternehmen schaffen es nie in die Produktion. Die Gründe sind vorhersehbar und hängen mit der technischen Umsetzung zusammen, nicht mit dem Modell.
Das 90-Prozent-Problem
Eine funktionierende Demo macht etwa 10 % eines KI-Produkts aus. Die restlichen 90 % sind die Lücke zwischen „funktioniert in diesem Notebook“ und „funktioniert in der Produktion für jeden Nutzer, bei jeder Eingabe, jeden Tag“. Demos zeigen den handverlesenen Sonderfall. In der Produktion taucht jede noch so seltsame Eingabe auf. Die Lösung ist kein intelligenteres Modell. Es ist technische Disziplin.
Die drei strukturellen Gründe
- Keine Evals.Das Team hat nie definiert, wie „gut“ eigentlich aussieht. Ohne ein Eval-Set ist jede Änderung ein Blindflug. Jede Regression bleibt unbemerkt. Jede Optimierung ist reiner Aberglaube.
- Kostenüberraschungen.Ein Agent läuft in einem Loop, ruft Tools 12 Mal auf und verschlingt 40 € pro Nutzer. Multipliziert man das mit der Nutzerzahl, ist das eine Katastrophe für die Gewinnmarge. Die meisten Teams stellen das erst im großen Maßstab fest, nicht vor dem Start.
- Keine Traces.Wenn ein Nutzer eine fehlerhafte Ausgabe meldet, hat das Team keine Möglichkeit, nachzuvollziehen, was passiert ist. Ohne Observability kannst du nicht debuggen. Und ohne Debugging gibt es auch keine Verbesserung.
Die Produktions-Triade
Drei Dinge, die jedes ernstzunehmende KI-Team hat und jedem erfolglosen KI-Team fehlen. Wenn ein Team, das du finanzierst, dir nicht alle drei vorweisen kann, entwickelt es eine Demo, kein Produkt.
1. Eval. Definiere es.
Ein Golden Dataset aus Eingaben und erwarteten Ausgaben. Testfälle, die Regressionen aufspüren. LLM-as-Judge mit Spot-Checks bei harten Fällen. Ohne Evals ist jede Änderung reine Spekulation.
Die Regel:Du darfst kein Feature ausliefern, dessen Definition von „funktionierend“ du nicht schriftlich festgehalten hast.Für ein Feature, das von einem LLM gesteuert wird, bedeutet das, dass du den Evaluierungssatz vor dem Prompt schreiben musst.
2. Trace. Schau hin.
Jeder Agent-Lauf erzeugt einen Trace: die Prompts, Tool-Aufrufe, Modellantworten, Latenzen, Kosten, Fehler. Tools, die das im Jahr 2026 gut können:Langfuse,LangSmith,Helicone,Arize Phoenix,Weights & Biases Weave.
Mit Traces kannst du einen Bug-Report diagnostizieren. Ohne sie kannst du nur raten.
3. Loop. Verbessere.
Bauen → Eval → Fixen → Ausliefern. Dann wiederholen, mit einem schärferen Eval. Das ist der „AI-Engineering-Loop“. Er sieht aus wie normale Entwicklung mit einem zusätzlichen Schritt (dem Eval) — und genau dieser Schritt unterscheidet KI-Produkte, die sich verbessern, von denen, die sich verschlechtern.
Das Muster der Kostenüberraschung
Ein typisches Szenario: Ein Chat-Produkt startet mit 0,001 € pro Konversation. Die Entwickler fügen einen Agent-Loop hinzu, der Dokumente abruft und Schlussfolgerungen zieht. Die Kosten steigen auf 0,05 € pro Konversation. Dann schlägt jemand Reasoning Models vor. Die Kosten steigen auf 0,30 € pro Konversation. Bei einer Million Konversationen pro Tag hast du ein Produkt entwickelt, das allein an Modellkosten 300.000 € pro Tag verliert.
Halluzinationsbewusste Benutzererfahrung
Bei Familie-3-Features sind Halluzinationen keine Option. Sie sind der Default. Die Aufgabe des Produkts ist es, das sicher zu machen.
Bewährte Vorgehensweisen:
- Quellenangaben als primäre UX.Zeige die Quellen an, die das Modell verwendet hat. Lass den Nutzer das überprüfen.
- Konfidenz-bewusste Ausgabe.Wenn das Modell unsicher ist, zeigt die Benutzeroberfläche dies an. „Das könnte falsch sein“ ist ein legitimer UX-Zustand.
- Menschliche Überprüfung bei irreversiblen Aktionen.Ein Agent sollte einen Kundendatensatz nicht ohne Bestätigung löschen. Niemals.
- Ablehnung als Feature.Wenn das Modell eine Frage nicht gut beantworten kann, ist „Ich weiß es nicht“ die richtige Antwort. Belohne das Team für die Ablehnung.
Das Sieben-Punkte-Produktionstor
Bevor ein KI-Feature ausgeliefert wird:
- Das Eval-Set existiert, enthält mindestens 50 Fälle und das Feature liegt über einem Zielschwellenwert.
- Die Kosten pro Task bei 10-fachem Volumen sind prognostiziert und akzeptabel.
- Die P95-Latenz wird unter Last gemessen und liegt im Rahmen der Vorgaben.
- Tracing ist durchgängig implementiert. Ein Bug-Report lässt sich anhand seines Traces reproduzieren.
- Ein Red-Team-Pass wurde durchgeführt und hat die offensichtlichen Prompt-Injection- und Jailbreak-Vektoren geschlossen.
- Eine Hallucination-aware UX ist implementiert: Quellenangaben, Konfidenz, Ablehnung, „Human-in-the-Loop“-Mechanismen bei irreversiblen Aktionen.
- Ein wöchentlicher Eval-Rerun ist geplant. Drift wird entdeckt, nicht erlitten.
Wenn du auch nur einen davon verpasst, landet das Projekt bei den 95 %, die nie auf den Markt kommen.
