Familie 1 von 4

Klassisches ML.

Wenn dein Unternehmen Tabellen hat, ist das deine KI. Die größte und leiseste Familie auf dem Markt.

These

Das klassische Machine Learning ist das Arbeitstier der Produktions-KI im Jahr 2026. Lineare und logistische Regression, Entscheidungsbäume, Random Forests, Gradient Boosting. Bei tabellarischen Daten schlägt es Deep Learning und übertrifft große Sprachmodelle in jeder Hinsicht, die in der Produktion zählt: Genauigkeit, Latenz, Kosten, Interpretierbarkeit, Nachvollziehbarkeit.

Klassisches ML ist eine veraltete Technologie, die durch LLMs abgelöst wurde.Klassisches ML ist das richtige Werkzeug für tabellarische Daten, und die meisten KI-Anwendungen laufen auf tabellarischen Daten.

So funktioniert es – in einem Absatz

Du hast 100.000 historische Beispiele. Jede Zeile steht für einen Kunden, eine Transaktion oder einen Sensorwert. Eine Spalte enthält die Klassifizierung: ob der Kunde abgewandert ist oder ob es sich bei der Transaktion um Betrug handelte. Das Modell lernt das Muster, das die Eingabespalten mit der Klassifizierungsspalte verbindet. Bei der Vorhersage gibst du ihm eine neue Zeile und es gibt eine Zahl oder eine Klasse zurück. Das ist der gesamte Mechanismus.

Die drei Methoden, die 95 % abdecken

  1. Lineare und logistische Regression.Schnell, verständlich, die richtige Ausgangsbasis. Fang immer hier an.
  2. Entscheidungsbäume und Random Forests.Das Modell stellt nacheinander Ja- oder Nein-Fragen. Ein „Wald“ fasst die Ergebnisse von Hunderten von Bäumen zusammen. Robust und nachvollziehbar.
  3. Gradient Boosting(XGBoost,LightGBM,CatBoost). Bäume, die nacheinander aufgebaut werden, wobei jeder die Fehler des vorherigen korrigiert. Seit etwa 2014 die Standardmethode für tabellarische Daten. Das ist es, was dein Datenwissenschaftler tatsächlich nutzt.

Die Entscheidungsregel

Wenn dein Problem...Familie 1?
Tabellendaten (Zeilen + Spalten)Ja
Latenz unter 100 msJa
Aufsichtsrechtliche oder prüfungsrechtliche AnforderungJa
Die Ausgabe ist eine Zahl oder eine KlasseJa
Weniger als ~1 Mio. TrainingsbeispieleJa
Die Ausgabe ist FreitextNein (Familie 3)
Die Eingabe besteht aus unordentlichem, unstrukturiertem Text oder BildernNein (Familie 2 oder 3)

Wann du es NICHT verwenden solltest

Familie 1 kann keinen Text generieren. Sie kann kein Bild mit einer Bildunterschrift versehen. Sie kann keine Fragen beantworten, auf die sie nicht speziell trainiert wurde. Wenn dein Problem kommunikativer Natur ist (ein Chatbot, eine Zusammenfassung, ein Bericht), dann ist Familie 3 genau das Richtige für dich.

Auch Familie 1 kann nicht über ihre Trainingsverteilung hinaus extrapolieren. Wenn du mit Daten aus den Jahren 2020–2024 trainierst und sich die Welt verändert, verschlechtert sich die Modellleistung unbemerkt. Erkenne Abweichungen durch Überwachung; führe vierteljährlich ein neues Training durch.

Die verborgene Superkraft: Feature-Technik

In Familie 1 besteht die eigentliche Aufgabe des Datenwissenschaftlers nicht darin, das Modell auszuwählen. Es geht darum, die richtigen Input-Features zu entwickeln.Tage seit dem letzten Kauf, durchschnittlicher Bestellwert über 30 Tage, Verhältnis von Retouren zu Bestellungen. Diese abgeleiteten Features sind der Schlüssel zur Genauigkeit. Junior-Mitarbeiter, die XGBoost ausführen können, gibt es zuhauf. Ein Senior, der weiß, welche Features er erstellen muss, ist selten und das Fünffache wert.

Namentlich genannte Vorbilder

Für dein Team: Drei Fragen, die du stellen solltest, bevor du zum LLM greifst:Ist die Eingabe eine Tabelle? Ist die Ausgabe eine Zahl oder eine Klasse? Müssen wir die Vorhersage erklären?Wenn alle drei Fragen mit „Ja“ beantwortet werden, ist Familie 1 die richtige Wahl.
Mario Deubler

Wenn das beschreibt, woran dein Team gerade arbeitet

Series-A-Gründer und Heads of Product, die genau diese Symptome durcharbeiten (Teams liefern schnell, die Zahlen bewegen sich nicht), sprecht mich an. Ich arbeite als Fractional Head of Product, eingebettet in dein Team. Führen und bauen, kein PowerPoint.