Familie 1 von 4
Klassisches ML.
Wenn dein Unternehmen Tabellen hat, ist das deine KI. Die größte und leiseste Familie auf dem Markt.
These
Das klassische Machine Learning ist das Arbeitstier der Produktions-KI im Jahr 2026. Lineare und logistische Regression, Entscheidungsbäume, Random Forests, Gradient Boosting. Bei tabellarischen Daten schlägt es Deep Learning und übertrifft große Sprachmodelle in jeder Hinsicht, die in der Produktion zählt: Genauigkeit, Latenz, Kosten, Interpretierbarkeit, Nachvollziehbarkeit.
So funktioniert es – in einem Absatz
Du hast 100.000 historische Beispiele. Jede Zeile steht für einen Kunden, eine Transaktion oder einen Sensorwert. Eine Spalte enthält die Klassifizierung: ob der Kunde abgewandert ist oder ob es sich bei der Transaktion um Betrug handelte. Das Modell lernt das Muster, das die Eingabespalten mit der Klassifizierungsspalte verbindet. Bei der Vorhersage gibst du ihm eine neue Zeile und es gibt eine Zahl oder eine Klasse zurück. Das ist der gesamte Mechanismus.
Die drei Methoden, die 95 % abdecken
- Lineare und logistische Regression.Schnell, verständlich, die richtige Ausgangsbasis. Fang immer hier an.
- Entscheidungsbäume und Random Forests.Das Modell stellt nacheinander Ja- oder Nein-Fragen. Ein „Wald“ fasst die Ergebnisse von Hunderten von Bäumen zusammen. Robust und nachvollziehbar.
- Gradient Boosting(XGBoost,LightGBM,CatBoost). Bäume, die nacheinander aufgebaut werden, wobei jeder die Fehler des vorherigen korrigiert. Seit etwa 2014 die Standardmethode für tabellarische Daten. Das ist es, was dein Datenwissenschaftler tatsächlich nutzt.
Die Entscheidungsregel
| Wenn dein Problem... | Familie 1? |
|---|---|
| Tabellendaten (Zeilen + Spalten) | Ja |
| Latenz unter 100 ms | Ja |
| Aufsichtsrechtliche oder prüfungsrechtliche Anforderung | Ja |
| Die Ausgabe ist eine Zahl oder eine Klasse | Ja |
| Weniger als ~1 Mio. Trainingsbeispiele | Ja |
| Die Ausgabe ist Freitext | Nein (Familie 3) |
| Die Eingabe besteht aus unordentlichem, unstrukturiertem Text oder Bildern | Nein (Familie 2 oder 3) |
Wann du es NICHT verwenden solltest
Familie 1 kann keinen Text generieren. Sie kann kein Bild mit einer Bildunterschrift versehen. Sie kann keine Fragen beantworten, auf die sie nicht speziell trainiert wurde. Wenn dein Problem kommunikativer Natur ist (ein Chatbot, eine Zusammenfassung, ein Bericht), dann ist Familie 3 genau das Richtige für dich.
Auch Familie 1 kann nicht über ihre Trainingsverteilung hinaus extrapolieren. Wenn du mit Daten aus den Jahren 2020–2024 trainierst und sich die Welt verändert, verschlechtert sich die Modellleistung unbemerkt. Erkenne Abweichungen durch Überwachung; führe vierteljährlich ein neues Training durch.
Die verborgene Superkraft: Feature-Technik
In Familie 1 besteht die eigentliche Aufgabe des Datenwissenschaftlers nicht darin, das Modell auszuwählen. Es geht darum, die richtigen Input-Features zu entwickeln.Tage seit dem letzten Kauf, durchschnittlicher Bestellwert über 30 Tage, Verhältnis von Retouren zu Bestellungen. Diese abgeleiteten Features sind der Schlüssel zur Genauigkeit. Junior-Mitarbeiter, die XGBoost ausführen können, gibt es zuhauf. Ein Senior, der weiß, welche Features er erstellen muss, ist selten und das Fünffache wert.
Namentlich genannte Vorbilder
- Aufdeckung von Bankbetrug.Gradient Boosting auf aufbereitetem Feature-Set, Entscheidungen unter 50 ms, gemäß DSGVO erklärbar über SHAP.
- B2B-Abwanderungsprognose.Basismodell mit logistischer Regression plus XGBoost-Lift. Schau dir dasNotebook „Four Families of AI“für eine Live-Demonstration an.
- Versicherungstarifgestaltung.Verallgemeinerte lineare Modelle, von der Aufsichtsbehörde vorgeschriebene Interpretierbarkeit.
- Erkennung von Fertigungsfehlern.Gradient Boosting bei Sensortelemetrie.
