KI-Automatisierung im Mittelstand: Der 90-Tage-Pilot als Playbook

Es gibt genug Artikel, die erklären, warum KI im Mittelstand mit einem kleinen Piloten beginnen sollte. Dieser hier erklärt das Wie — als konkretes Playbook.

Wenn Sie noch beim Warum sind, lesen Sie zuerst, warum KI-bereite Unternehmen mit Entscheidungen statt mit Modellen starten und warum viele KMU über KI reden, aber wenige skalieren. Dieser Artikel setzt voraus, dass die Entscheidung für einen Piloten gefallen ist, und beantwortet die nächste Frage: Was passiert in den nächsten 90 Tagen, konkret, Woche für Woche?

Warum 90 Tage und nicht 9 Monate

Laut Bitkom (März 2026) setzen 41 Prozent der deutschen Unternehmen mit mindestens 20 Mitarbeitenden bereits KI ein, weitere 48 Prozent planen oder diskutieren den Einsatz. Die Hürde ist also nicht mehr Interesse — es ist Umsetzung.

McKinseys Analyse zum „Pilot Purgatory" der digitalen Fertigung beschreibt das Muster: Viele Unternehmen fahren Piloten, wenige bringen sie in den Regelbetrieb. 90 Tage sind bewusst gewählt: lang genug, um einen echten Prozess zu verändern, kurz genug, um nicht im endlosen Konzeptmodus zu versanden. Der Accelerate State of DevOps Report 2024 von DORA nennt zudem instabile Prioritäten als einen der stärksten Produktivitätskiller — ein fixer 90-Tage-Rahmen schützt genau davor.

Die drei Rollen, ohne die ein Pilot scheitert

Bevor wir zum Wochenplan kommen: Ein Pilot braucht drei benannte Personen. Nicht drei Abteilungen — drei Namen.

Decision Owner. Die Fachperson, deren Entscheidung besser werden soll. Nicht IT. Wer den Prozess heute verantwortet.
Data Owner. Die Person, die sagen kann, wo die Daten liegen und ob man ihnen vertraut.
Approver. Wer die KI-gestützte Aktion in der Praxis freigibt.

Fehlt eine dieser Rollen, ist der Pilot nicht startklar — egal wie gut das Modell ist.

Das 90-Tage-Playbook

Woche 1–2: Eine Entscheidung, ein KPI

Kein Tool, kein Modell, keine Plattform in diesen zwei Wochen. Nur drei Ergebnisse:

Eine Entscheidung ist benannt — nicht „KI im Einkauf", sondern „Wir wollen riskante Eingangsrechnungen vor der Buchung erkennen".
Ein Business-KPI ist definiert, mit Ist-Wert. Beispiel: „Heute werden 6 Prozent fehlerhafter Rechnungen erst nach Buchung entdeckt. Ziel: unter 2 Prozent."
Ein Abbruchkriterium ist vereinbart. Was muss eintreten, damit wir den Piloten nicht skalieren? Das ist kein Pessimismus — es ist die Bedingung, die einen Piloten von einem unkündbaren Projekt unterscheidet.

Artefakt am Ende: ein einseitiges Pilot-Charter. Eine Seite, keine zwanzig.

Woche 3–6: Minimales Kontextmodell

Jetzt Daten — aber nur die, die für diese eine Entscheidung nötig sind.

Der häufigste Fehler ist, mit einem Data-Lake-Projekt zu starten. Stattdessen: Welche fünf bis zwölf Felder braucht das Modell, um die Entscheidung zu stützen? Wo liegen sie? Wer besitzt sie? Sind sie verlässlich?

Parallel wird die Berechtigungsstufe festgelegt — das ist eine Designentscheidung, keine Detailfrage:

Liest die KI nur und zeigt einen Vorschlag (read-only)?
Schlägt sie eine Aktion vor, die ein Mensch freigibt (assistierte Aktion)?
Schreibt sie etwas zurück in ein Fachsystem (automatisiertes Write-back)?

Für einen ersten Piloten ist die Antwort fast immer „assistierte Aktion". Artefakt: Datenkontrakt (Felder, Quelle, Owner) plus Berechtigungsentscheidung, dokumentiert.

Woche 7–10: Workflow mit Human-in-the-Loop

Jetzt erst entsteht der KI-gestützte Ablauf. Entscheidend ist: Die KI erzeugt keinen Endzustand, sie erzeugt einen Vorschlag mit Konfidenz und Begründung. Der Approver entscheidet.

Drei Dinge müssen in dieser Phase entstehen:

Ein Workflow, in dem die KI vorschlägt und ein Mensch freigibt — eingebettet in den realen Arbeitsalltag, nicht in ein separates Demo-Tool.
Eine Nachvollziehbarkeit: Welche Daten wurden genutzt, was wurde vorgeschlagen, wer hat freigegeben, was war das Ergebnis. Ohne diese Spur wird KI nie Teil eines auditierbaren Geschäftsprozesses.
Ein Eskalationspfad für die Fälle, in denen die KI unsicher ist. Unsicherheit sichtbar machen ist ein Feature, kein Mangel.

Woche 11–12: Messen und entscheiden

Kein „sieht gut aus". Der in Woche 1 definierte KPI wird gegen den Ist-Wert gemessen. Dann fällt genau eine von drei Entscheidungen:

Skalieren auf eine weitere Abteilung, Linie oder Region.
Iterieren: Der Ansatz trägt, braucht aber eine weitere Runde.
Stoppen, weil das Abbruchkriterium erreicht ist. Ein sauber gestoppter Pilot ist kein Misserfolg — er hat eine teure Fehlinvestition verhindert.

Was im Pilotvertrag stehen sollte

Ein häufig übersehener Punkt: Die Vertragsstruktur entscheidet mit über den Erfolg. Ein gut strukturierter 90-Tage-Pilot regelt vorab:

Den konkreten KPI und seinen Ist-Wert als Erfolgsmaß — nicht „KI einführen".
Datenzugriff, Hosting-Region und Löschregeln — bei EU-Bezug ist das kein Nachgedanke.
Eigentum an Code, Modellartefakten und Daten nach Pilotende.
Eine Exit-Klausel: Was passiert mit Daten und Ergebnissen, wenn nicht skaliert wird?

Wer einen Piloten ohne diese vier Punkte startet, hat keinen Piloten, sondern den unkontrollierten Anfang eines Projekts.

Beispiel: Rechnungsprüfung in einem 70-Personen-Betrieb

Entscheidung: riskante Eingangsrechnungen vor der Buchung erkennen.
KPI: Anteil nach Buchung entdeckter Fehler von 6 % auf unter 2 %.
Kontextmodell: Lieferant, Betrag, USt-Kategorie, Bestellbezug, Zahlungsziel, historische Auffälligkeit.
Berechtigung: assistiert — KI markiert, Buchhaltung entscheidet.
Ergebnis nach 90 Tagen: messbarer KPI plus klare Skalierungsentscheidung.

Nicht spektakulär. Genau deshalb funktioniert es.

Häufige Fragen

Braucht ein 90-Tage-Pilot ein großes KI-Team? Nein. Er braucht drei benannte Rollen (Decision Owner, Data Owner, Approver) und einen Umsetzungspartner. Größe ist nicht der Erfolgsfaktor — Fokus ist es.

Was, wenn unsere Daten nicht sauber sind? Dann ist genau das das Ergebnis von Woche 3–6 — und eine wertvolle Erkenntnis. Ein Pilot, der ein Datenproblem sichtbar macht, hat sich bereits gelohnt.

Können wir mehrere Anwendungsfälle parallel pilotieren? Möglich, aber nicht empfohlen. Ein Pilot, eine Entscheidung, ein KPI. Parallelität verwässert die Aussagekraft und kollidiert mit der DORA-Erkenntnis über instabile Prioritäten.

Was passiert nach Tag 90 bei „Skalieren"? Der Pilot wird zum Produkt: gleicher Workflow, breiterer Geltungsbereich, härtere Betriebs-, Monitoring- und Berechtigungsanforderungen.

Fazit

Ein KI-Pilot scheitert selten am Modell. Er scheitert an fehlender Entscheidung, unklarem KPI, fehlenden Rollen und einem Rahmen, der nie endet.

90 Tage, drei Rollen, ein KPI, ein Abbruchkriterium und ein sauberer Vertrag schlagen jedes große KI-Strategiepapier — weil am Ende eine messbare Geschäftsentscheidung steht, nicht eine Demo.

Nächster Schritt

Sie haben eine Entscheidung im Kopf, aber keinen Wochenplan? Starten Sie mit einem AI-Readiness-Check. Wir definieren KPI, Rollen und das minimale Kontextmodell und entwerfen einen kontrollierten 90-Tage-Piloten mit klarem Abbruchkriterium.

Quellen

Bitkom, Digitalisierung der Wirtschaft: Fast jedes Unternehmen beschäftigt sich mit KI (2026) — bitkom.org
McKinsey, How digital manufacturing can escape 'pilot purgatory' — mckinsey.com
DORA, Accelerate State of DevOps Report 2024 — dora.dev
Europäische Kommission, AI Act — digital-strategy.ec.europa.eu