Datenqualität vor KI: Warum schlechte Stammdaten jede Automatisierung bremsen

Die meisten gescheiterten KI-Projekte im Mittelstand sind nicht an Modellen gescheitert. Sie sind an Daten gescheitert — an Dubletten, unklaren Quellen, fehlenden Verantwortlichkeiten und einem Excel-Schattenprozess, den niemand offiziell kennt.

Der gefährlichste Satz über KI lautet: „Garbage in, garbage out." Er stimmt nur halb. In Wahrheit gilt: Garbage in, überzeugend aussehender Garbage out.

Warum KI das Datenproblem verschärft

Eine klassische Auswertung mit schlechten Daten liefert ein offensichtlich schlechtes Ergebnis. Eine KI mit schlechten Daten liefert ein flüssiges, selbstbewusstes, professionell formuliertes falsches Ergebnis. KI repariert keine Datenqualität — sie kaschiert sie.

Der Accelerate State of DevOps Report 2024 von DORA zeigt das Muster auch hier: Tempo und Stabilität entstehen aus sauberen, verlässlichen Grundlagen — nicht aus mehr Werkzeug auf wackligem Fundament. Der NIST-AI-Risikorahmen nennt Datenqualität ausdrücklich als Kernrisiko.

Der eigentliche Engpass ist selten das Modell

Wenn ein KI-Projekt klemmt, liegt es fast nie am Modell. Es liegt an vier Dingen:

1. Keine Quelle der Wahrheit

Drei Systeme kennen „den Kunden", jedes etwas anders. Ohne festgelegte führende Quelle automatisiert KI den Konflikt, nicht die Lösung.

2. Unklare Definitionen

Was ist ein „aktiver Kunde"? Ein „abgeschlossener Auftrag"? Wenn fünf Abteilungen fünf Antworten haben, hat die KI keine Chance — und gibt trotzdem eine.

3. Dubletten und Lücken

Derselbe Lieferant viermal, halb gepflegte Felder, historisch gewachsene Sonderfälle. Menschen kompensieren das intuitiv; ein automatischer Prozess nicht.

4. Der Schatten-Excel-Prozess

Der eigentliche Ablauf lebt oft nicht im System, sondern in einer Excel-Datei auf einem Laufwerk. Wer den ignoriert, automatisiert das falsche Modell der Realität.

Datenqualität ist keine IT-Aufgabe allein

Der häufigste Fehler ist, Datenqualität als technisches Aufräumen zu behandeln. Sie ist vor allem eine Frage von Verantwortlichkeit: Wer besitzt eine Datenart, wer entscheidet Definitionen, wer pflegt? Ohne diese Klärung ist jede Bereinigung nur eine Momentaufnahme, die sofort wieder verfällt.

Der pragmatische Weg: nicht alles, sondern das Nötige

Datenqualität heißt nicht „erst drei Jahre aufräumen, dann KI". Es heißt: genau die Datenfelder belastbar machen, die der erste konkrete Anwendungsfall braucht — derselbe schmale, messbare Schnitt wie bei jedem guten KI-Piloten (siehe KI-Automatisierung: der 90-Tage-Pilot).

Checkliste vor der KI-Automatisierung

Gibt es pro Datenart eine Quelle der Wahrheit?
Sind die Kernbegriffe eindeutig definiert (z. B. „aktiver Kunde")?
Sind Dubletten und Lücken im relevanten Ausschnitt bekannt?
Ist der Schatten-Excel-Prozess erfasst statt ignoriert?
Ist Verantwortlichkeit je Datenart geklärt (Besitz, Pflege)?
Machen wir nur die nötigen Felder belastbar, nicht alles?
Ist Datenqualität ein laufender Prozess, keine Einmalaktion?

Häufige Fragen

Müssen wir erst alle Daten bereinigen? Nein. Nur den Ausschnitt, den der erste Anwendungsfall braucht. „Alles zuerst" ist genauso ein Fehler wie „Daten ignorieren".

Kann KI nicht selbst die Daten bereinigen? Bei Teilaufgaben helfen, ja — aber kontrolliert und geprüft. KI als unbeaufsichtigter Datenreiniger erzeugt überzeugende neue Fehler.

Woran erkennen wir schlechte Datenqualität früh? An widersprüchlichen Zahlen zwischen Systemen, an „welche Liste gilt jetzt", an Excel-Dateien, die per Mail kreisen.

Ist das nicht teuer? Teurer ist eine automatisierte Falschentscheidung im Maßstab. Datenqualität ist die billigste Phase eines KI-Projekts — wenn sie zuerst kommt.

Fazit

KI macht gute Daten schneller nutzbar und schlechte Daten gefährlicher. Wer eine Quelle der Wahrheit festlegt, Begriffe definiert, den Schatten-Excel ernst nimmt und nur das Nötige belastbar macht, automatisiert Substanz statt überzeugend aussehenden Unsinn.

Weiterlesen

KI-Automatisierung im Mittelstand: der 90-Tage-Pilot — schmaler, messbarer Schnitt statt Großprojekt.
Dokumenten-Workflows automatisieren mit kontrollierter KI — Datenqualität am Eingang des Prozesses.

Nächster Schritt

Ihr KI-Vorhaben hängt an unklaren Daten? Beginnen Sie mit einer kurzen Einschätzung Ihrer Anforderungen. Wir klären Quelle der Wahrheit und Definitionen für genau den ersten Anwendungsfall — nicht für alles.

Quellen

DORA, Accelerate State of DevOps Report 2024 — dora.dev
NIST, AI Risk Management Framework — nist.gov
Destatis, Unternehmen mit Nutzung von KI — destatis.de