Familie 4 von 4
Reinforcement Learning.
Sequentielle Entscheidungen mit Belohnungssignalen. Handel, Robotik, Steuerungssysteme, zunehmend auch Empfehlungssysteme. In der Praxis selten anzutreffen, aber unersetzlich, wenn es passt.
These
Reinforcement Learning ist die Kategorie für Probleme, bei denen du eine Reihe von Entscheidungen triffst und das Ergebnis messen kannst. Klassifikationsmodelle sagen Klassifikationen voraus; RL-Modelle handeln. Die Strategie ist das, was in jedem Schritt entscheidet, was zu tun ist.
Die meisten Unternehmen werden ein Familie-4-System nie direkt einsetzen. Aber du solltest erkennen können, wann es die richtige Lösung ist.
Das mentale Modell
Zustand, Aktion, Belohnung, Strategie. Der Agent beobachtet den Zustand der Welt, wählt eine Aktion aus, erhält eine Belohnung (oder eine Strafe), aktualisiert seine Strategie und wiederholt. Über Millionen Episoden hinweg verbessert sich die Strategie darauf hin, die kumulative Belohnung zu maximieren.
Das entscheidende Merkmal: Man kann die richtige Antwort nicht vorgeben. Es gibt im Voraus keine „richtige“ Handelsentscheidung oder Roboterbewegung. Die Umgebung liefert das Signal durch die Ergebnisse.
Die wichtigsten Unterfamilien
- Wertbasiert.Q-Learning,DQN. Lerne den Wert jedes Zustands-Aktions-Paares.
- Policy-Gradient.PPO,SAC,TD3. Direkte Optimierung der Policy.
- Modellbasiert.MuZero,Dreamer-V3. Ein Modell der Umgebung erlernen, darin planen.
- Multi-Agent.Mehrere RL-Agents interagieren miteinander. Die Gleichgewichtsdynamik spielt eine Rolle.
- RLHF und RLVR.RL in der Anwendung auf Sprachmodelle. Der Bezug zurück zu Familie 3.
Die verborgene Verbindung zu Familie 3
Reasoning Models (o-Serie,DeepSeek-R1) gehen noch einen Schritt weiter: Sie werden mit RL unter Verwendung überprüfbarer Belohnungen (RLVR) trainiert, um zu lernen, wie man denkt. Die Grenze des LLM-Trainings ist die Grenze des RL.
Die Entscheidungsregel
| Wenn dein Problem... | Familie 4? |
|---|---|
| Eine Abfolge von Entscheidungen im Laufe der Zeit | Vielleicht |
| Ein klares, messbares Belohnungssignal | Ja (erforderlich) |
| Ein Simulator oder eine kostengünstige Möglichkeit, Dinge auszuprobieren | Ja |
| Einmalige Vorhersage | Nein (Familie 1, 2 oder 3) |
| Kein messbares Ergebnis | Nein |
| Ich kann mir nicht Millionen von Testepisoden leisten | Nein (verwende Offline-RL oder Imitationslernen) |
Wann du es NICHT verwenden solltest
RL ist die am schwierigsten zu implementierende Familie. Das Entwerfen von Belohnungen ist schwieriger, als es aussieht. Agents finden zuverlässig Wege, eine falsch spezifizierte Belohnung zu maximieren („Reward Hacking“). Die Sample-Effizienz ist schlecht. Du brauchst Millionen von Episoden oder einen hochpräzisen Simulator. Die meisten Entscheidungsprobleme lassen sich als Klassifizierung (Familie 1) oder Generierung (Familie 3) umformulieren und schneller bereitstellen.
Namentlich genannte Vorbilder
- Spiele.AlphaGo, AlphaZero, MuZero (DeepMind).
- Quant-Handelsfirmen.Sequenzielle Handelsentscheidungen, oft eine Mischung aus RL und klassischen Methoden.
- Robotik.Boston Dynamics, Tesla Optimus. Fortbewegung und Handhabung.
- Algorithmus-Entdeckung.AlphaTensor, AlphaDev.
- RLHF in Chat-Modellen.ChatGPT, Claude, Gemini. Im Training, nicht im Einsatz.
- Kühlung der Rechenzentren bei Google.RL steuert die Sollwerte für die Kühlung.
