Familie 2 von 4

Specialist Deep Learning.

Ein Spezialmodell pro Anwendungsbereich. Bildverarbeitung, Zeitreihen, Sprache, Empfehlungssysteme, Anomalien. Die Modellfamilie, die still und leise die Produkte antreibt, die du jeden Tag nutzt.

These

Familie 2 ist eine Sammlung von Deep-Learning-Modellen, die jeweils für eine bestimmte Anwendungsdomäne entwickelt wurden. CNNs für Bilder. YOLO für die Objekterkennung. Whisper für Sprache. TFT für Zeitreihen. Sie schlagen LLMs und VLMs auf ihrem eigenen Terrain, weil sie genau dafür entwickelt wurden: schneller, kostengünstiger und in der Regel genauer bei der modalspezifischen Aufgabe.

Sobald wir multimodale LLMs haben, brauchen wir keine Spezialisten mehr.Spezialisten haben überall dort die Nase vorn, wo es auf Echtzeit, Edge oder Kosten pro Inference ankommt. Das ist der Großteil der Produktion.

Die wichtigsten Unterfamilien

Bildverarbeitung

YOLO(Objekterkennung),U-NetundSAM 2(Segmentierung),DINOv2(Universal Vision Features),RT-DETRundRF-DETR(moderne Transformer-basierte Erkennung). YOLO bietet Echtzeit-Objekterkennung auf Consumer-Hardware und läuft vollständig auf dem Gerät. RF-DETR erreicht 54,7 % mAP bei einer Latenz von unter 5 ms auf COCO. Gehostete Vision-LLM-Aufrufe benötigen Hunderte von Millisekunden pro Bild und senden das Bild vom Gerät weg.

Zeitreihen und Prognosen

Klassische Referenzmodelle: ARIMA,Prophet, exponentielle Glättung. Moderne neuronale Modelle: N-BEATS,TFT,TiDE. Foundation Models für Zeitdaten:TimesFM,Chronos,Lag-Llama,Moirai. GPT-4 einfach auf eine Prognose loszulassen, ist ein Anfängerfehler; zeitliche Daten haben Strukturen (Autokorrelation, Saisonalität), die generative Modelle nicht ausnutzen können.

Empfehlungssysteme

Die Zwei-Tower-Abfrageliefert die Top-Ergebnisse innerhalb von Millisekunden im einstelligen Bereich – und das über Kataloge mit mehr als 10 Millionen Artikeln hinweg. Dieses Kostenprofil entspricht nicht dem, wofür LLMs entwickelt wurden.SASRec,BERT4Recfür sequenzielle Abfragen. Neue Grenze im generativen RecSys: HSTU(Meta) unter Verwendung von Transformer-Architekturen, jedoch nicht als LLMs.

Sprache (ASR + TTS)

Whisper v3 / Turbo– Sprach-zu-Text für alle. Moderne TTS: VITS,XTTS,F5-TTS(Flow Matching). Ein Voice Agent ist eine Pipeline aus ASR + LLM + TTS.

Anomalieerkennung

Isolation Forest, Autoencoder, statistische Kontrollkarten. Für Betrugsfälle, unbefugte Zugriffe, Fertigungsfehler. Oft in Kombination mit Basismodellen der Familie 1.

Die Entscheidungsregel

Wenn dein Problem...	Familie 2?
Anforderung an die Echtzeit-Latenz (<100 ms)	Ja
Edge-/On-Device-Bereitstellung (Datenschutz, Offline)	Ja
Hohes Volumen (Millionen von Abfragen pro Tag)	Ja
Modalitätsspezifische Aufgabe (Sehen, Sprache, Zeit, Empfehlungssysteme)	Ja
Es muss mit frei formulierten Eingaben in natürlicher Sprache umgegangen werden	Nein (Familie 3)

Wann du es NICHT verwenden solltest

Die Spezialisierung bei Familie 2 ist eng gefasst. Ein YOLO-Modell, das darauf trainiert ist, Autos zu erkennen, erkennt keine Hunde. Wenn deine Eingaben unübersichtlich, multimodal oder in ihrer Form offen sind, brauchst du eventuell Familie 3 oder eine kombinierte Familie-2-plus-Familie-3-Pipeline (klassisches Beispiel: ein Voice Agent — ASR speist ein LLM, das wiederum TTS speist).

Namentlich genannte Vorbilder

Tesla Autopilot.Mehrere spezielle CV-Modelle, die mit ca. 30 Hz auf dem Bordcomputer laufen.
Spotify-Empfehlungen.Two-Tower-Retrieval plus Ranking-Modelle. Familie 2 auf einem Katalog mit einer Milliarde Einträgen.
Amazon-Prognosen für die Lieferung am nächsten Tag.Baum mit speziellen Modellen pro Lager und Produktkategorie.
Transkription von Apple Voice Memos.Whisper-class On-Device-ASR.

Eine häufige Falle:Teams ersetzen funktionierende Familie-2-Systeme durch LLM-Pipelines und liefern langsamere, teurere Produkte. Das LLM ist bei der ursprünglichen Aufgabe selten genauer. Überprüfe das System, bevor du umsteigst.