Familie 2 von 4
Specialist Deep Learning.
Ein Spezialmodell pro Anwendungsbereich. Bildverarbeitung, Zeitreihen, Sprache, Empfehlungssysteme, Anomalien. Die Modellfamilie, die still und leise die Produkte antreibt, die du jeden Tag nutzt.
These
Familie 2 ist eine Sammlung von Deep-Learning-Modellen, die jeweils für eine bestimmte Anwendungsdomäne entwickelt wurden. CNNs für Bilder. YOLO für die Objekterkennung. Whisper für Sprache. TFT für Zeitreihen. Sie schlagen LLMs und VLMs auf ihrem eigenen Terrain, weil sie genau dafür entwickelt wurden: schneller, kostengünstiger und in der Regel genauer bei der modalspezifischen Aufgabe.
Die wichtigsten Unterfamilien
Bildverarbeitung
YOLO(Objekterkennung),U-NetundSAM 2(Segmentierung),DINOv2(Universal Vision Features),RT-DETRundRF-DETR(moderne Transformer-basierte Erkennung). YOLO bietet Echtzeit-Objekterkennung auf Consumer-Hardware und läuft vollständig auf dem Gerät. RF-DETR erreicht 54,7 % mAP bei einer Latenz von unter 5 ms auf COCO. Gehostete Vision-LLM-Aufrufe benötigen Hunderte von Millisekunden pro Bild und senden das Bild vom Gerät weg.
Zeitreihen und Prognosen
Klassische Referenzmodelle: ARIMA,Prophet, exponentielle Glättung. Moderne neuronale Modelle: N-BEATS,TFT,TiDE. Foundation Models für Zeitdaten:TimesFM,Chronos,Lag-Llama,Moirai. GPT-4 einfach auf eine Prognose loszulassen, ist ein Anfängerfehler; zeitliche Daten haben Strukturen (Autokorrelation, Saisonalität), die generative Modelle nicht ausnutzen können.
Empfehlungssysteme
Die Zwei-Tower-Abfrageliefert die Top-Ergebnisse innerhalb von Millisekunden im einstelligen Bereich – und das über Kataloge mit mehr als 10 Millionen Artikeln hinweg. Dieses Kostenprofil entspricht nicht dem, wofür LLMs entwickelt wurden.SASRec,BERT4Recfür sequenzielle Abfragen. Neue Grenze im generativen RecSys: HSTU(Meta) unter Verwendung von Transformer-Architekturen, jedoch nicht als LLMs.
Sprache (ASR + TTS)
Whisper v3 / Turbo– Sprach-zu-Text für alle. Moderne TTS: VITS,XTTS,F5-TTS(Flow Matching). Ein Voice Agent ist eine Pipeline aus ASR + LLM + TTS.
Anomalieerkennung
Isolation Forest, Autoencoder, statistische Kontrollkarten. Für Betrugsfälle, unbefugte Zugriffe, Fertigungsfehler. Oft in Kombination mit Basismodellen der Familie 1.
Die Entscheidungsregel
| Wenn dein Problem... | Familie 2? |
|---|---|
| Anforderung an die Echtzeit-Latenz (<100 ms) | Ja |
| Edge-/On-Device-Bereitstellung (Datenschutz, Offline) | Ja |
| Hohes Volumen (Millionen von Abfragen pro Tag) | Ja |
| Modalitätsspezifische Aufgabe (Sehen, Sprache, Zeit, Empfehlungssysteme) | Ja |
| Es muss mit frei formulierten Eingaben in natürlicher Sprache umgegangen werden | Nein (Familie 3) |
Wann du es NICHT verwenden solltest
Die Spezialisierung bei Familie 2 ist eng gefasst. Ein YOLO-Modell, das darauf trainiert ist, Autos zu erkennen, erkennt keine Hunde. Wenn deine Eingaben unübersichtlich, multimodal oder in ihrer Form offen sind, brauchst du eventuell Familie 3 oder eine kombinierte Familie-2-plus-Familie-3-Pipeline (klassisches Beispiel: ein Voice Agent — ASR speist ein LLM, das wiederum TTS speist).
Namentlich genannte Vorbilder
- Tesla Autopilot.Mehrere spezielle CV-Modelle, die mit ca. 30 Hz auf dem Bordcomputer laufen.
- Spotify-Empfehlungen.Two-Tower-Retrieval plus Ranking-Modelle. Familie 2 auf einem Katalog mit einer Milliarde Einträgen.
- Amazon-Prognosen für die Lieferung am nächsten Tag.Baum mit speziellen Modellen pro Lager und Produktkategorie.
- Transkription von Apple Voice Memos.Whisper-class On-Device-ASR.
