Datenlokalität als Anforderung für die Produktisierung von KI

KI-Produktteams sprechen häufig über Datenpipelines, Data Lakes und Data Readiness. Diese Konzepte sind notwendig, können aber ein tieferes Problem verdecken: Daten sind keine neutralen Inputs. Yanni Alexander Loukissas’ “All Data Are Local” erinnert daran, dass jeder Datensatz durch lokale Praktiken, Infrastrukturen, Klassifikationen und Geschichten geprägt ist. Für KI-Produktisierung ist das kein philosophisches Detail, sondern eine Systemanforderung.

Das Beispiel des Buches behandelt Sammlungsdaten des American Wing im Metropolitan Museum of Art. Die Daten wirken wie strukturierte Objektinformationen, wurden aber für kuratorische Arbeit geschaffen. Felder wie Galerieposition unterstützten interne Aufgaben wie Reinigung, Fotografie, Ausstellung und Sicherheit. Alte Labeltexte, Schwarz-Weiß-Bilder, Lücken und interne Kategorien ergaben im Backstage-Kontext Sinn, waren aber nicht automatisch für Besucheroberflächen geeignet.

Genau dieses Problem begegnet Enterprise-KI ständig. Daten, die für einen operativen Zweck entstanden sind, werden für einen anderen analytischen oder KI-Zweck wiederverwendet. CRM-Daten werden zum Churn-Modell, ERP-Daten zur Nachfrageprognose, Ticketdaten zur Support-Automation, Sensorlogs zur Predictive Maintenance. Der lokale Kontext reist immer mit, ob das Produktteam ihn sieht oder nicht.

Aus Produktsicht beeinflusst Datenlokalität Anforderungen, Modelldesign, Evaluation und UX. Zuerst braucht es Provenance: Wer hat die Daten erzeugt? Welcher Workflow produzierte sie? Welche Felder sind Pflicht, optional oder sozial ausgehandelt? Welche Kategorien spiegeln organisatorische Bequemlichkeit statt Realität?

Zweitens muss Modelldesign lokale Verzerrung und Missingness berücksichtigen. Fehlende Werte sind oft nicht zufällig. Labels können historische Prozesse abbilden. Kategorien können institutionelle Annahmen kodieren. Ohne dieses Verständnis optimiert ein Modell Artefakte des Systems statt Geschäftsrealität.

Drittens muss Evaluation Domain-Nutzer einbeziehen. Im Museumsbeispiel hatten Sicherheitskräfte praktisches Wissen über Besucherbewegung und Orientierung, das kuratorische Daten nicht vollständig enthielten. In Enterprise-KI verstehen Frontline-Mitarbeiter Datennutzung oft besser als zentrale Teams.

Viertens müssen Interfaces Daten zwischen Kontexten übersetzen. Ein KI-Output, der für Data Scientists verständlich ist, kann für Vertrieb, Fabrik, Compliance oder Kunden eine andere Darstellung brauchen.

Für OzyCore ist die praktische Empfehlung, jedes KI-Produkt um eine Datenlokalitätsprüfung zu ergänzen: Lineage Mapping, Stakeholder-Interviews, Workflow-Beobachtung, Felddefinitionen, bekannte Lücken, Pflegeverantwortung und kontextspezifische Evaluationskriterien. Daten sprechen nie allein; sie sprechen mit dem Akzent des Ortes, der sie erzeugt hat.

Datenlokalität als Anforderung für die Produktisierung von KI

Weitere Beiträge

Datenproduktisierung beginnt vor dem Datensatz

Für Aneignung gestalten: Die fehlende Schicht der KI-Adoption

Datenprodukte jenseits des Mythos „mehr Daten“ gestalten