Familie 4 von 4

Reinforcement Learning.

Sequentielle Entscheidungen mit Belohnungssignalen. Handel, Robotik, Steuerungssysteme, zunehmend auch Empfehlungssysteme. In der Praxis selten anzutreffen, aber unersetzlich, wenn es passt.

These

Reinforcement Learning ist die Kategorie für Probleme, bei denen du eine Reihe von Entscheidungen triffst und das Ergebnis messen kannst. Klassifikationsmodelle sagen Klassifikationen voraus; RL-Modelle handeln. Die Strategie ist das, was in jedem Schritt entscheidet, was zu tun ist.

Die meisten Unternehmen werden ein Familie-4-System nie direkt einsetzen. Aber du solltest erkennen können, wann es die richtige Lösung ist.

Das mentale Modell

Zustand, Aktion, Belohnung, Strategie. Der Agent beobachtet den Zustand der Welt, wählt eine Aktion aus, erhält eine Belohnung (oder eine Strafe), aktualisiert seine Strategie und wiederholt. Über Millionen Episoden hinweg verbessert sich die Strategie darauf hin, die kumulative Belohnung zu maximieren.

Das entscheidende Merkmal: Man kann die richtige Antwort nicht vorgeben. Es gibt im Voraus keine „richtige“ Handelsentscheidung oder Roboterbewegung. Die Umgebung liefert das Signal durch die Ergebnisse.

Die wichtigsten Unterfamilien

Wertbasiert.Q-Learning,DQN. Lerne den Wert jedes Zustands-Aktions-Paares.
Policy-Gradient.PPO,SAC,TD3. Direkte Optimierung der Policy.
Modellbasiert.MuZero,Dreamer-V3. Ein Modell der Umgebung erlernen, darin planen.
Multi-Agent.Mehrere RL-Agents interagieren miteinander. Die Gleichgewichtsdynamik spielt eine Rolle.
RLHF und RLVR.RL in der Anwendung auf Sprachmodelle. Der Bezug zurück zu Familie 3.

Die verborgene Verbindung zu Familie 3

Gut zu wissen:RLHF (Reinforcement Learning aus menschlichem Feedback) ist das, was ChatGPT nützlich gemacht hat. Die Nützlichkeit von Familie 3 wird durch Familie 4 ermöglicht.

Reasoning Models (o-Serie,DeepSeek-R1) gehen noch einen Schritt weiter: Sie werden mit RL unter Verwendung überprüfbarer Belohnungen (RLVR) trainiert, um zu lernen, wie man denkt. Die Grenze des LLM-Trainings ist die Grenze des RL.

Die Entscheidungsregel

Wenn dein Problem...	Familie 4?
Eine Abfolge von Entscheidungen im Laufe der Zeit	Vielleicht
Ein klares, messbares Belohnungssignal	Ja (erforderlich)
Ein Simulator oder eine kostengünstige Möglichkeit, Dinge auszuprobieren	Ja
Einmalige Vorhersage	Nein (Familie 1, 2 oder 3)
Kein messbares Ergebnis	Nein
Ich kann mir nicht Millionen von Testepisoden leisten	Nein (verwende Offline-RL oder Imitationslernen)

Wann du es NICHT verwenden solltest

RL ist die am schwierigsten zu implementierende Familie. Das Entwerfen von Belohnungen ist schwieriger, als es aussieht. Agents finden zuverlässig Wege, eine falsch spezifizierte Belohnung zu maximieren („Reward Hacking“). Die Sample-Effizienz ist schlecht. Du brauchst Millionen von Episoden oder einen hochpräzisen Simulator. Die meisten Entscheidungsprobleme lassen sich als Klassifizierung (Familie 1) oder Generierung (Familie 3) umformulieren und schneller bereitstellen.

Namentlich genannte Vorbilder

Spiele.AlphaGo, AlphaZero, MuZero (DeepMind).
Quant-Handelsfirmen.Sequenzielle Handelsentscheidungen, oft eine Mischung aus RL und klassischen Methoden.
Robotik.Boston Dynamics, Tesla Optimus. Fortbewegung und Handhabung.
Algorithmus-Entdeckung.AlphaTensor, AlphaDev.
RLHF in Chat-Modellen.ChatGPT, Claude, Gemini. Im Training, nicht im Einsatz.
Kühlung der Rechenzentren bei Google.RL steuert die Sollwerte für die Kühlung.

Die gängige FalleRL-Ingenieure sind rar und teuer. Wenn ein Start-up dir verspricht: „Wir nutzen RL, um X zu optimieren“, ohne einen klaren Simulator und eine überprüfbare Belohnung zu nennen, frag nach, wie ihre Belohnungsfunktion aussieht und wie sie Reward-Hacking messen. Die Antwort unterscheidet echte RL-Teams von reinem Marketing-Geschwätz.