Zurück zum Blog

ROI von KI-Agenten messen: Das KPI-Framework, das CFOs in 90 Tagen überzeugt

Henri Jung, Co-founder bei Superkind
Henri Jung

Co-Gründer bei Superkind

Präzisions-Messuhr als Symbol für KI-Agent-ROI-Messung

Der Agent ging im Februar live. Im April nannte das Operations-Team es einen Erfolg - er hat 4.200 Tickets bearbeitet, die Antwortzeit gesenkt, Mitarbeiter für komplexere Fälle freigespielt. Der CFO sass durch die Demo, sagte, das sehe beeindruckend aus, und fragte dann: „Wie hoch waren die Kosten pro Ticket vorher, wie hoch sind sie jetzt, und welche versteckten Kosten fehlen mir?“ Im Raum wurde es still. Niemand hatte die Baseline gemessen.

Diese Geschichte ist die Regel, nicht die Ausnahme. McKinseys State of AI 2025 zeigt, dass 88 Prozent aller Organisationen KI in mindestens einer Funktion einsetzen, aber nur 6 Prozent als „AI High Performer“ mit EBIT-Impact über 5 Prozent gelten1. IBM-Daten zeigen: 79 Prozent der Organisationen sehen Produktivitätsgewinne aus KI, aber nur 29 Prozent können den ROI mit Sicherheit messen14. Die Produktivität ist real - die Messung fehlt.

Dieser Leitfaden richtet sich an CFOs, Controller und Geschäftsführer, die einen KI-Agent-Pilot freigegeben haben und jetzt wissen müssen, ob sich die Sache rechnet. Kein Vendor-Pitch. Keine Vanity-Metriken. Nur das vier-stufige KPI-Framework, die versteckten Kosten, der 90-Tage-Messplan und die Drei-Panel-Folie für das nächste Finance-Meeting.

TL;DR

Die meisten KI-ROI-Zahlen scheitern am CFO-Test aus drei Gründen: keine Baseline, versteckte Kosten, Vanity-Metriken. Alle drei beheben - dann wird ROI verteidigbar.

Das vier-stufige KPI-Framework: Operativ (Bearbeitungszeit, Containment), Qualität (CSAT, Fehlerrate), Finanziell (Kosten pro Aufgabe, freigesetzte Stunden), Strategisch (Fähigkeiten, Optionalität). Alle vier landen im CFO-Report.

Die echten Total Cost of Ownership liegen 1,4- bis 1,7-fach über dem Build-Angebot. Wartung 15-25 Prozent des Builds pro Jahr. Engineer-Zeit für Operations: 3.000-6.000 EUR pro Monat.

90 Tage reichen, um zu beweisen oder einzustellen. Bis Monat drei muss die ROI-Kurve sichtbar sein, auch wenn der Break-Even später liegt. Ist die Kurve flach: re-scopen oder stoppen.

Die CFO-Präsentation ist eine Folie, drei Panels: Baseline vs. aktuell vs. Ziel mit der Finanz-Brücke, woher der Wert kommt. Mehr ist Lärm.

Das 6-Prozent-Problem

Die Headline-Zahlen zum KI-ROI 2026 widersprechen sich. Die Adoption ist auf Rekordniveau, Anbieter geben Durchbruch-Renditen an, aber auf Unternehmensebene bleibt der echte Bottom-Line-Impact schmal. Die Lücke zwischen beiden ist das 6-Prozent-Problem.

  • Adoption ist hoch - 88 Prozent der Organisationen nutzen KI in mindestens einer Geschäftsfunktion, gegenüber 78 Prozent in 20241
  • Echter EBIT-Impact ist selten - 39 Prozent der Befragten schreiben KI irgendeinen EBIT-Impact zu; die meisten davon sagen weniger als 5 Prozent1
  • Die High-Performer-Schwelle - Nur etwa 6 Prozent qualifizieren als „AI High Performer“ mit über 5 Prozent EBIT-Impact aus KI1
  • Produktivität schlägt Messbarkeit - 79 Prozent berichten Produktivitätsgewinne, nur 29 Prozent messen ROI mit Sicherheit14
  • Piloten bleiben vor der Produktion stecken - Etwa zwei Drittel der Organisationen sind noch im Experiment- oder Pilot-Modus1,21. 88 Prozent aller Agent-Piloten erreichen die Produktion nie21
  • Der Mittelstand hängt nicht hinterher, die Welt tut es - Bitkom 2026: 41 Prozent der deutschen Firmen nutzen KI aktiv, 62 Prozent experimentieren, 23 Prozent skalieren Agenten13. Die Lücke zwischen Adoption und Wirkung ist strukturell, nicht regional

Schlüssel-Datenpunkt

Die globalen KI-Ausgaben werden 2026 über 2 Billionen EUR liegen22. Die 6 Prozent der Organisationen, die diese Ausgaben in echten EBIT-Impact verwandeln, werden ihren Vorsprung in den nächsten drei Jahren ausbauen. Die anderen 94 Prozent bekommen einen CFO, der keine KI-Budgets mehr freigibt.

Die Frage des CFOs ist nicht, ob KI funktioniert - sondern, ob Ihre KI in Ihrem Unternehmen funktioniert. Generische Adoptionszahlen beantworten das nicht. Spezifische, gegen Baselines gemessene KPIs schon.

MetrikStand 2025-2026Quelle
KI-Einsatz in mind. 1 Funktion88 % der OrganisationenMcKinsey 20251
Irgendein EBIT-Impact39 % (meist < 5 %)McKinsey 20251
AI High Performer (> 5 % EBIT)~6 %McKinsey 20251
Produktivitätsgewinne berichtet79 %IBM via Larridin 202614
ROI mit Sicherheit gemessen29 %IBM via Larridin 202614
Agent-Piloten in Produktion~12 %Anaconda/Forrester 202621

Warum die meisten Mittelstands-KI-ROI-Zahlen falsch sind

Wenn ein CFO eine KI-ROI-Aussage hinterfragt, lässt sich das Scheitern meist auf eines von drei Mustern zurückführen. Sie in den eigenen Zahlen zu erkennen, bevor das Finance-Review beginnt, ist die billigste Korrektur dieses Artikels.

1. Die Baseline wurde nie gemessen

  • Was schiefgeht - Das Team launcht den Agenten ohne den Vorzustand zu erfassen. Nach 90 Tagen lässt sich nicht sagen, ob die neuen Kosten pro Ticket besser oder schlechter sind - weil die alten nie quantifiziert wurden
  • Warum es passiert - Pre-Launch-Energie geht in den Build, nicht in die Messung. „Die Metriken klären wir während des Piloten“ ist die häufigste Phrase, die in einem gescheiterten CFO-Review endet
  • Lösung - Die ersten zwei Wochen jedes KI-Projekts mit Messung des Ist-Zustands verbringen. Ohne Baseline ist ROI nicht verteidigbar
  • Praktische Baseline-Liste - Volumen, Zykluszeit, Fehlerrate, Stückkosten, FTE-Stunden, Kundenzufriedenheit, Eskalationsrate

2. Versteckte Kosten wurden weggelassen

  • Was schiefgeht - Das Build-Angebot deckt den Agenten ab. Die ROI-Rechnung nutzt das Build-Angebot. Die echten Kosten umfassen Wartung, Monitoring, Nachschulung, Vendor-Migrationen und Engineer-Zeit - nichts davon stand im Angebot
  • Die 1,4-1,7-Regel - Echte Total Cost of Ownership liegen 40 bis 70 Prozent über den Headline-Build-Kosten9
  • Wartungs-Realität - Jährliche Wartung läuft mit 15 bis 25 Prozent der initialen Build-Kosten - Prompt-Updates, Modell-Upgrades, Integrations-Pflege9
  • Engineer-Zeit-Verbrauch - Produktive Agenten brauchen 20-30 Prozent eines Senior-Engineers, rund 3.000-6.000 EUR pro Monat zu deutschen Sätzen9
  • Token-Ökonomie-Fallen - Günstigere Modelle brauchen oft längere Prompts, mehr Retries und mehr menschliches Review. Output-Tokens kosten 3-10x mehr als Input-Tokens. Reasoning-Tokens schaffen stillen Overhead11

3. Vanity-Metriken haben Geschäfts-Metriken ersetzt

  • Was schiefgeht - Das Dashboard zeigt „15.000 verarbeitete Prompts“ oder „Agent-Verfügbarkeit 99,9 Prozent“. Keine davon übersetzt sich in Euro
  • Die Falle - Operative Metriken sind leicht zu erfassen; Geschäfts-Metriken brauchen Arbeit. Das Team wählt das Bequeme statt das Wichtige
  • Lösung - Für jede operative Metrik die zugehörige Geschäfts-Metrik definieren. „Verarbeitete Prompts“ wird „erledigte Aufgaben“ wird „Kosten pro Aufgabe“ wird „EUR-Einsparung gegen Baseline“

Vanity- vs. Geschäfts-Metriken

Vanity (vermeiden)

  • Verarbeitete Prompts - Volumen ohne Ergebnis
  • Agent-Verfügbarkeit - Infrastruktur-Metrik, kein Wert
  • Verbrauchte Tokens - Kostentreiber, kein Nutzen
  • Begonnene Gespräche - Engagement, keine Lösung
  • Durchschnittliche Antwortzeit - Latenz ohne Kontext

Geschäft (nutzen)

  • Kosten pro gelöster Aufgabe - die Headline-Finanzkennzahl
  • Zykluszeit-Reduktion - Tage/Stunden von Start bis fertig
  • FTE-Stunden freigesetzt - in höherwertige Arbeit umgelenkt
  • Containment / Completion-Rate - Anteil komplett vom Agent
  • CSAT oder Qualitätswert - Hat die Ergebnisqualität gehalten?

Der CFO-Test

Wenn Ihr KI-Dashboard nicht innerhalb von drei Klicks eine Euro-Zahl zeigt, ist es für das IT-Team gebaut, nicht für den CFO. Jedes Dashboard, das ein Finance-Review übersteht, hat eine einzelne Headline-Metrik in Euro - mit der Brücke zur Baseline direkt darunter.

Das 4-Stufen-KPI-Framework

Ein verteidigbarer KI-Agent-ROI-Report hat vier Stufen. Jede Stufe beantwortet die Frage einer anderen Stakeholder-Gruppe. Eine Stufe weglassen, und das Bild bricht unter Finance-Prüfung zusammen.

Stufe 1: Operative Metriken (Wie performt der Agent?)

  • Containment / Completion-Rate - Anteil der Interaktionen, die der Agent komplett bearbeitet. Ziel: 60-80 % bei fokussierten Use Cases
  • Durchschnittliche Bearbeitungs- / Zykluszeit - Zeit von Start bis Lösung. Vergleich gegen Mensch-Baseline beim selben Scope
  • Durchsatz - Verarbeitetes Volumen pro Zeiteinheit. Nützlich beim Vergleich der Kapazität, nicht der Kosten
  • Eskalationsrate - Anteil der Übergaben an Menschen. Niedriger ist nicht immer besser - zu niedrig kann heissen, der Agent greift über
  • Latenz / Antwortzeit - Kritisch für Voice und kundenseitige Agenten. Bei Back-Office-Agenten zweitrangig

Stufe 2: Qualitäts-Metriken (Ist das Ergebnis gut?)

  • Resolution-Rate - Anteil der Interaktionen, in denen das Kundenanliegen wirklich gelöst wurde. Verschieden von Containment
  • Fehler- oder Halluzinationsrate - Häufigkeit fachlich falscher oder Policy-widriger Ausgaben. Per Stichproben-Review erfassen
  • CSAT / Qualitätswert - Kundenseitige Agenten brauchen CSAT. Interne Agenten brauchen Qualitäts-Review durch Fach-Experten
  • Compliance- / Audit-Bestehensrate - Anteil der Agent-Aktionen, die das Compliance-Review bestehen. Kritisch bei regulierten Workflows
  • Nacharbeits-Rate - Anteil der Agent-Outputs, die ein Mensch korrigieren musste. Die versteckte Kostenzahl

Stufe 3: Finanzielle Metriken (Was kostet und spart es?)

  • Kosten pro gelöster Aufgabe - Die Headline-Finanzkennzahl. Inklusive LLM-Kosten, Infrastruktur und allokierter Wartung
  • FTE-äquivalente Stunden freigesetzt - Stunden pro Woche, von Agent-bearbeiteter Arbeit auf höherwertige Aufgaben umgelenkt. Mit voll geladenen Lohnkosten in EUR umrechnen
  • Total Cost of Ownership - Build + Wartung + Operations + Nachschulung über definierten Zeitraum (typisch 12 oder 24 Monate)
  • Amortisationszeit - Monate, bis kumulierte Einsparungen die kumulierten Kosten übersteigen. Ziel: 4-9 Monate für fokussierte Use Cases
  • Kostenvermeidung - EUR-Wert vermiedener Fehler, Eskalationen oder Compliance-Probleme. Audit-trail gegen historische Stückkosten

Stufe 4: Strategische Metriken (Werden Optionen geschaffen?)

  • Fähigkeitsgewinn - Neue Fähigkeiten freigeschaltet (24/7-Abdeckung, Mehrsprachigkeit, After-Hours-Service). Schwer zu monetarisieren, real für Kunden
  • Workforce-Reallocation - Anteil der FTE-Zeit, die von Routine auf strategische Arbeit verschoben wurde. Die Wettbewerbs-Kennzahl
  • Kundenbindungs-Effekt - Veränderung der Abwanderungsrate, die schnellerem Service oder 24/7-Abdeckung zuzurechnen ist
  • Wettbewerbs-Optionalität - Geschwindigkeit, mit der der nächste Agent gebaut werden kann, weil der erste die Grundlage gelegt hat
  • Compliance-Posture - Vollständigkeit des Audit-Trails, EU-KI-VO-Bereitschaft, DSGVO-Dokumentation - reduziert künftige Risikokosten
StufeHeadline-KPIStakeholderAktualisierung
1. OperativContainment-RateOperations-LeadTäglich
2. QualitätResolution-Rate / CSATService- / Qualitäts-LeadWöchentlich
3. FinanziellKosten pro gelöster AufgabeCFO / ControllerMonatlich
4. StrategischFTE-Stunden umverteiltGeschäftsführer / BeiratQuartalsweise

„KI folgt nicht einer Kostenkurve, und sie produziert nicht eine einheitliche Art von Wert. CFOs müssen das berücksichtigen, wenn sie ein vollständiges Bild davon haben wollen, was KI wirklich liefert.“

- Twisha Sharma, Senior Principal Research bei Gartner25

Bauen Sie den ROI-Report, dem Ihr CFO wirklich vertraut

Buchen Sie ein 30-Minuten-Gespräch. Wir skizzieren das vier-stufige Framework gegen Ihren Live-Agenten oder Ihren geplanten Pilot.

Demo buchen →
Aufsteigende Präzisionsgewichte als Symbol für vier KPI-Stufen von operativ bis strategisch

Die versteckten Kosten, nach denen CFOs fragen

Die erste Frage in jedem ehrlichen CFO-Review ist „was fehlt in dieser Zahl?“. Sechs Kostenkategorien werden routinemässig aus KI-Agent-ROI-Rechnungen weggelassen. Allen sechs vor dem Finance-Meeting voraus sein.

1. Wartung und Prompt-Iteration

  • Was sie umfasst - Prompt-Updates, Regressions-Tests, Edge-Case-Handling, Nachschulung bei Prozessänderungen
  • Faustregel - 15-25 Prozent der initialen Build-Kosten pro Jahr9
  • Mittelstands-Realität - Höher als bei Konzernen, weil sich Mittelstands-Workflows kontinuierlich entwickeln statt in Big-Bang-Releases

2. Modell- und Infrastrukturkosten-Drift

  • Was sie umfasst - LLM-Token-Kosten, Vector-DB-Hosting, Telefonie für Voice-Agenten, Observability-Tooling
  • Token-Ökonomie-Falle - Output-Tokens kosten 3-10x Input-Tokens. Reasoning-Modelle erzeugen stillen Overhead. Kontextfenster-Inflation, wenn der Agent reift11
  • Forecast-Annahme - 12-Monats-Flach-Baseline, 24-Monats-Plus-30-Prozent-Stresstest

3. Engineer-Zeit für Operations

  • Was sie umfasst - Monitoring, Incident Response, Versions-Upgrades, Vendor-Koordination
  • Allokations-Regel - 20-30 Prozent eines Senior-Engineers pro produktivem Agenten9
  • EUR-Übersetzung - Rund 3.000-6.000 EUR pro Monat zu voll geladenen deutschen Engineering-Sätzen

4. Menschliches Review und Qualitätssicherung

  • Was sie umfasst - Stichproben-Review der Agent-Outputs, Qualitäts-Scoring, Pflege der Feedback-Loops
  • Warum sie auftaucht - Produktive Agenten brauchen laufende QA. Sie wegzulassen ist der schnellste Weg zu schleichendem Qualitätsverfall
  • Allokations-Regel - 5-10 Prozent eines Fach-Reviewers pro aktivem Agent in regulierten Workflows

5. Vendor-Migration und Lock-in-Kosten

  • Was sie umfasst - Kosten des LLM-Anbieter-Wechsels, Prompt-Re-Engineering bei Modellwechsel, Integrations-Nacharbeit
  • Versteckter Trigger - Modelle werden abgekündigt. Vendor-Preise ändern sich. Ihre Prompts funktionieren auf dem nächsten Modell schlechter
  • Mitigation - Auf Portabilität bauen (MCP-basiertes Tooling, Abstraktions-Schichten). Quartalsweise auf Alternativ-Modellen testen

6. Compliance und Audit-Overhead

  • Was sie umfasst - DSFA-Vorbereitung, KI-Inventar-Pflege, Audit-Trail-Review, EU-KI-VO-Konformitäts-Arbeit
  • Mittelstands-Realität - Oft an externen DSB oder Kanzlei vergeben, zu Stundensätzen abgerechnet
  • Kostenerwartung - 5.000-15.000 EUR pro Agent für initiale DSFA, 1.000-3.000 EUR pro Quartal für laufendes Review
Versteckte KostenJahresrahmen (EUR)Wo dokumentieren
Wartung & Prompt-Iteration15-25 % der Build-KostenOperations-Budget
Modell & Infrastruktur3.000-30.000+ EURDirekte OPEX
Engineer-Operations-Zeit36.000-72.000 EURAllokierte Lohnkosten
Menschliches QA5.000-25.000 EURAllokierte Lohnkosten
Vendor-Migration-Reserve10-15 % der Build-KostenRisiko-Reserve
Compliance & Audit9.000-25.000 EURDirekte OPEX

Die 1,4-1,7-Regel

Build-Kosten mit 1,4 (leichtes Wartungs-Szenario) bis 1,7 (schweres Ops-/Compliance-Szenario) multiplizieren - das sind die echten Total Cost of Ownership im ersten Jahr. Wenn Ihr ROI auch bei 1,7x noch trägt, ist das Projekt real. Funktioniert er nur bei 1,0x, ist es ein verkleideter Vendor-Pitch.

Der 90-Tage-Messplan

ROI-Messung beginnt nicht beim Launch - sie beginnt vor Woche eins. Der folgende Plan deckt einen typischen 90-Tage-Pilot ab. Bis Monat drei sollten Sie einen CFO-fähigen ROI-Report haben oder ein klares Signal, den Use Case einzustellen.

Phase 1: Baseline und Instrumentierung (Wochen 1-3)

  1. Woche 1: Pre-Launch-Baseline - Den aktuellen Stand für jeden Stufe-1-3-KPI messen, den Sie tracken werden. Volumen, Zykluszeit, Kosten pro Aufgabe, Fehlerrate, FTE-Stunden, CSAT. Ohne dies ist keine spätere ROI-Aussage verteidigbar
  2. Woche 2: Kostenforecast inkl. versteckter Kosten - 12-Monats-TCO-Forecast in 1,0x-, 1,4x-, 1,7x-Szenarien bauen. Jede Kostenkategorie dokumentieren. Vor Launch Freigabe vom Controller einholen
  3. Woche 3: Erfolgs- und Stopp-Kriterien definieren - Spezifische, numerische Schwellen für „weiter“, „re-scopen“, „stoppen“ in Woche 12. Ohne Stopp-Kriterien übernimmt Sunk-Cost und das Projekt zieht sich

Phase 2: Live-Messung (Wochen 4-9)

  1. Wochen 4-5: Soft-Launch mit Shadow-Vergleich - Agent läuft parallel zum bestehenden Prozess. KPIs für beide gemessen. Lücke zur Baseline wird zum laufenden ROI-Signal
  2. Wochen 6-7: Begrenzter Live-Lauf - 10-30 Prozent der In-Scope-Arbeit an den Agenten routen. Tägliches KPI-Review. Anomalien für menschliches Review markieren
  3. Woche 8: Erster Finanz-Puls - Kosten-pro-Aufgabe-Rechnung gegen aktuelles Volumen laufen lassen. Mit Baseline vergleichen. TCO-Modell mit Ist-Werten aktualisieren
  4. Woche 9: Mid-Pilot-Review - Entscheidungspunkt. Tendieren KPIs Richtung Erfolgsschwelle, auf 50-80 Prozent skalieren. Sind sie flach, Use Case re-scopen. Sinken sie, einstellen

Phase 3: ROI-Report und CFO-Präsentation (Wochen 10-12)

  1. Woche 10: Voller Rollout (falls weiter) - Auf volles In-Scope-Volumen skalieren. Tägliche Stufe-1-, wöchentliche Stufe-2-, monatliche Stufe-3-Kadenz
  2. Woche 11: ROI-Berechnung und Stresstests - Finanzmodell in 1,0x-, 1,4x-, 1,7x-Kosten-Szenarien. Payback in jedem berechnen. Übersteigt Payback bei 1,7x die 12 Monate, an Geschäftsführung eskalieren
  3. Woche 12: CFO-Report und Entscheidungs-Review - Drei-Panel-Eine-Folie-Zusammenfassung (nächster Abschnitt). Entscheidung: weiter, ausweiten, einstellen

90-Tage-ROI-Readiness-Checkliste

  • Pre-Launch-Baseline für alle Stufe-1-3-KPIs gemessen
  • TCO-Forecast in 1,0x-, 1,4x-, 1,7x-Szenarien modelliert
  • Stopp-Kriterien schriftlich vor Launch definiert
  • Benannter „Agent Owner“ mit Budget-Verantwortung und Zielwert
  • Tages-/Wochen-/Monats-KPI-Kadenz läuft ab Woche 4
  • Stichproben-Review (5-10 % der Outputs) wöchentlich
  • Mid-Pilot-Entscheidung in Woche 9 dokumentiert
  • CFO-Drei-Panel-Report bis Woche 11 entworfen

Was Erfolg nach 90 Tagen heisst

  • Stufe 1 (Operativ) - Containment 60-80 % bei fokussierten Use Cases. Zykluszeit 30-50 % unter Baseline
  • Stufe 2 (Qualität) - CSAT oder Qualitätswert auf oder über Mensch-Baseline. Fehlerrate auf oder unter Baseline
  • Stufe 3 (Finanziell) - Kosten pro Aufgabe 40-70 % unter Baseline bei 1,4x TCO. Payback-Projektion 4-9 Monate
  • Stufe 4 (Strategisch) - 30-50 % der FTE-Zeit auf dem Ziel-Workflow auf höherwertige Aufgaben umverteilt

CFO-Präsentation: Die Drei-Panel-Eine-Folie-Vorlage

CFOs lesen keine 40-Folien-KI-ROI-Decks. Sie lesen eine Folie, drei Panels, mit der Finanz-Brücke von Baseline zu aktuellem Stand auf einen Blick sichtbar. Diese Folie zuerst bauen; alles andere ist Anhang.

Panel 1: Die Headline-Zahl

  • Eine Metrik in EUR - Annualisierte Kosteneinsparung oder Kapazitäts-Gewinn auf aktueller Run-Rate. Keine Prozente ohne absolute Zahlen daneben
  • Konfidenzband - Best-, Mid-, Worst-Case basierend auf TCO-Szenarien
  • Amortisationszeit - Monate bis Break-Even im Mid-Case-TCO
  • Entscheidungs-Frame - Weiter / ausweiten / einstellen, mit Ein-Satz-Begründung

Panel 2: Die Brücke zur Baseline

  • Baseline-Stand - Pre-Launch-Zahlen für die relevanten KPIs in einer Zeile
  • Aktueller Stand - Dieselben KPIs in Woche 12, nächste Zeile
  • Delta - Absolute und prozentuale Veränderung. EUR-Umrechnung wo zutreffend
  • Kosten-Brücke - Build-Kosten + 12-Monats-Operating-Kosten = Gesamt-Investition. Annualisierte Einsparung = Rückfluss. Netto = ROI

Panel 3: Die Risiken und was als Nächstes kommt

  • Top 3 Risiken - Vendor-Lock-in, Modellkosten-Drift, Compliance-Änderung, Qualitäts-Regression - was zutrifft
  • Mitigation - Ein Satz pro Risiko. Der CFO will Risiken benannt sehen, nicht versteckt
  • Nächste 90 Tage - Ausweitungs-Plan, zweiter Use Case, Skalierungs-Kosten. Konkrete Zahlen, keine Wünsche
  • Kapital-Anforderung - Falls vorhanden. Klar getrennt vom aktuellen Pilot-ROI
PanelWas es zeigtHäufiger Fehler
1. HeadlineEUR-Einsparung, Payback-Monate, EntscheidungProzente ohne absolute Zahlen
2. BrückeBaseline → aktuell → Delta in EURBaseline weglassen, weil sie nie gemessen wurde
3. Risiko & nächstesTop 3 Risiken + 90-Tage-PlanRisiken hinter „positivem Momentum“ verstecken

„Die Unternehmen, die den meisten Wert aus KI ziehen, werden nicht die sein, die einem Durchbruch hinterherjagen oder jede Initiative durch dieselbe ROI-Linse pressen. Es werden die sein, die KI wie ein Portfolio behandeln - laufende Produktivitätsgewinne, gezielte Prozessverbesserungen und selektive transformative Wetten ausbalancieren, Sieger skalieren und schwache Ideen früh kappen.“

- Gartner, KI-ROI-Portfolio-Leitlinie für CFOs26

Wie Superkind passt

Superkind baut individuelle KI-Agenten für den Mittelstand und liefert das ROI-Mess-Framework mit dem Build, nicht als separates Beratungsprojekt. Process-first heisst: Die Baseline wird gemessen, bevor Code geschrieben wird.

  • Pre-Launch-Baseline inklusive - Die ersten zwei Wochen messen wir den Ist-Zustand des Ziel-Workflows. Volumen, Zykluszeit, Kosten pro Aufgabe, FTE-Stunden, Qualität. Keine Baseline, kein Go-live
  • Vier-Stufen-KPI-Dashboard geliefert - Operative, qualitative, finanzielle und strategische KPIs ab Launch automatisch gemessen, mit Brücke zur Baseline sichtbar
  • 1,4-1,7-TCO upfront modelliert - Wir liefern das Finanzmodell mit allen versteckten Kostenkategorien gepreist. Wartung, Engineer-Zeit, Compliance, Vendor-Migrations-Reserve. CFO-fertig vor Woche eins
  • Stopp-Kriterien im Vertrag - Spezifische Schwellen in Woche 12, die „weiter“, „re-scope“ oder „einstellen“ auslösen. Wir profitieren nicht von Agenten, die nicht existieren sollten
  • EU-Datenresidenz - Modelle, Telefonie, Transkripte in EU-Rechenzentren. Reduziert Compliance-Overhead und die Audit-Kostenposition
  • Outcome-basiertes Pricing - Preisgestaltung an messbare Containment- und Resolution-Quoten gebunden, nicht an Sitzlizenzen. Vendor-Anreiz mit CFO-Interesse aligned
  • Monatlicher CFO-Report - Drei-Panel-Eine-Folie-Vorlage jeden Monat geliefert, nicht erst zum Pilot-Ende. Der Report ist das Deliverable, kein Add-on
  • Quartals-Scope-Review - Jedes Quartal re-baselinen wir, testen auf Alternativ-Modellen und bestätigen, dass der Use Case sich noch trägt
AnsatzGenerischer KI-AnbieterSuperkind
Baseline-MessungProblem des KundenZwei-Wochen-Pre-Launch-Baseline inkludiert
TCO-ModellNur Build-Angebot1,0x / 1,4x / 1,7x Szenarien mit gepreisten versteckten Kosten
Stopp-KriterienImplizit, um jeden Preis verteidigtVor Launch in den Vertrag geschrieben
PricingPro-Sitz oder pro-Minute SaaSOutcome-basiert, an KPIs gebunden
CFO-ReportGenerisches DashboardMonatliche Drei-Panel-Folie
Scope-ReviewJährliche VertragsverlängerungQuartalsweise Re-Baseline und Re-Test

Superkind

Pros

  • Baseline + TCO inklusive - vor Launch geliefert, nicht nachträglich abgerechnet
  • Outcome-basiertes Pricing - mit CFO-Ökonomie aligned
  • Schriftliche Stopp-Kriterien - eliminiert Sunk-Cost-Verteidigung schwacher Use Cases
  • Monatlicher CFO-Report - die Drei-Panel-Folie ist das Deliverable
  • EU-Datenresidenz - reduziert Compliance-Overhead und Audit-Kosten

Cons

  • Kein Self-Service-SaaS - erfordert Engagement mit unserem Team
  • Langsamerer Start als Off-the-Shelf - zwei Wochen Baseline vor jedem Agenten
  • Ehrliche TCO können Käufer schrecken - wir machen versteckte Kosten sichtbar, die Anbieter verstecken
  • Kapazitäts-limitiert - wir arbeiten mit einer fokussierten Anzahl Kunden gleichzeitig

Entscheidungs-Framework: Weiter, re-scopen oder einstellen?

In Woche 12 jedes KI-Agent-Piloten entscheiden drei Zahlen das Schicksal. Dieses Framework strikt anwenden. Die grösste Quelle verschwendeten Mittelstands-KI-Budgets ist Sunk-Cost-Verteidigung von Piloten, die in Monat drei hätten gestoppt werden müssen.

Signal in Woche 12DiagnoseEntscheidung
Containment 60 %+, CSAT auf/über Baseline, Payback unter 9 Monaten bei 1,4x TCOFunktioniert wie geplantAuf vollen Scope skalieren und Use Case #2 planen
Containment 40-60 %, Qualität auf Baseline, Payback 9-15 MonateUse Case ist machbar, Scope ist falschAuf engeren Workflow re-scopen, re-baselinen, 60 Tage neu testen
Containment unter 40 %, oder CSAT unter Baseline, oder Payback über 18 Monate bei 1,7x TCOFalscher Use Case oder falsches ToolEinstellen. Lehren dokumentieren. Nächsten Use Case wählen
KPIs instabil, gemischte Signale über StufenMess-System nicht stark genug zum EntscheidenAusweitung pausieren. Observability fixen, in 30 Tagen neu entscheiden
Alle KPIs positiv im Trend, absolute Werte noch unter SchwelleUse Case stimmt, Lernkurve unvollständigBei aktuellem Scope 60 Tage weiter, dann neu entscheiden

Weiter vs. einstellen

Weiter-Signale

  • Containment-Trend - steigt Monat um Monat
  • Qualität stabil oder steigend - CSAT und Resolution-Rate halten
  • Payback in Sicht - unter 9 Monaten bei ehrlicher TCO
  • Workflow einfacher - weniger Nacharbeit, weniger Eskalationen

Stopp-Signale

  • Containment-Plateau - flach 60+ Tage unter 40 %
  • CSAT-Regression - Kunden bevorzugen den alten Weg
  • Kosten klettern - TCO wächst schneller als Einsparung
  • Team umgeht den Agenten - Mitarbeiter routen darum herum

Verwandte Artikel

Häufig gestellte Fragen

Die meisten produktiven KI-Agenten mit Fokus auf einen Workflow erreichen den Break-Even in 4 bis 9 Monaten. Vorstände erwarten typischerweise erste Amortisation innerhalb von 90 bis 180 Tagen für Workflow-Deployments. Der richtige Vergleich ist nicht "ist der Agent in Monat eins profitabel?", sondern "zeigt die Kurve bis Monat sechs Richtung Break-Even?". Wenn der Anstieg in Monat drei nicht erkennbar ist, stimmt der Use Case nicht.

Drei Gründe. Die Baseline wurde vor dem Launch nie gemessen, also gibt es nichts zum Vergleichen. Versteckte Kosten (Wartung, Nachschulung, Modell-Upgrades, Eskalations-Review) tauchen in der Rechnung nicht auf. Und Vanity-Metriken (bearbeitete Anrufe, beantwortete Prompts) ersetzen Geschäfts-Metriken (Kosten pro gelöstem Fall, freigesetzte Stunden). Alle drei beheben - dann wird ROI messbar.

Sechs Zahlen: Containment- oder Completion-Rate, durchschnittliche Bearbeitungs- oder Zykluszeit, Kosten pro Aufgabe, Fehler- oder Eskalationsrate, freigesetzte Stunden pro FTE und CSAT oder Qualitätswert. Jede braucht eine Baseline vor Launch, einen aktuellen Wert und einen 30-Tage-Trend. Alles andere ist Kontext, kein Headline-KPI.

Auf das Vendor- oder Build-Angebot 30 bis 40 Prozent für die echten Total Cost of Ownership aufschlagen. Jährliche Wartung läuft mit 15 bis 25 Prozent der initialen Build-Kosten. 20 bis 30 Prozent eines Senior-Engineers für laufenden Betrieb einplanen - rund 3.000 bis 6.000 EUR pro Monat zu deutschen Sätzen. Wenn die Rechnung danach noch aufgeht, sind die Zahlen real.

Ja, das ist der richtige Bezugspunkt. McKinsey berichtet, dass 88 Prozent aller Organisationen KI in mindestens einer Funktion einsetzen, aber nur 6 Prozent mehr als 5 Prozent EBIT-Impact zuschreiben. Der Mittelstand hängt nicht hinter Konzernen zurück - es ist ein globales Problem. Die Firmen, die die Lücke schliessen, messen rigoros und skalieren das Funktionierende, nicht das Gefühlte.

FTE-äquivalente Stunden pro Woche und Mitarbeiter erfassen, Output-Volumen bei gleichbleibender Belegschaft, Umverteilung der Zeit auf höherwertige Arbeit. Stunden mit voll geladenen Lohnkosten in Euro umrechnen (Bruttogehalt plus Sozialabgaben plus Overhead, typisch 1,5 bis 1,8 mal Brutto). Damit wird Produktivität zu einer Zahl, die CFOs akzeptieren.

Containment ist der Anteil der Interaktionen, die der Agent ohne menschliche Übergabe von Anfang bis Ende erledigt. Resolution-Rate ist der Anteil der Interaktionen, in denen das Kundenanliegen tatsächlich gelöst wurde. Hohe Containment bei niedriger Resolution heisst: der Agent ist gut darin, nicht zu eskalieren, aber schlecht im Lösen - eine Mess-Falle.

Beides. Die Mensch-Baseline beantwortet "sind wir besser als vorher?". Absolute Ziele beantworten "sind wir gut genug für den Kunden?". Wenn der Agent die Mensch-Bearbeitungszeit schlägt, aber die Kundenzufriedenheit sinkt, ist der Mensch-Vergleich irreführend. Die Baseline als Meilenstein nutzen, nicht als Decke.

Kostenvermeidung ist echter ROI, aber schwerer zu verteidigen. Vor dem Launch die historische Kosten der vermiedenen Ereignisse dokumentieren (z.B. durchschnittliche Kosten einer Reklamation, eines Rückrufs, eines Compliance-Verstosses). Die Rate vor und nach Launch erfassen. Reduktion mit Stückkosten multiplizieren. CFOs prüfen Kostenvermeidungs-Zahlen strenger als Umsatzzahlen.

Drei Signale: Containment unter 50 Prozent nach 90 Tagen, keine messbare Veränderung bei Zykluszeit oder Kosten pro Aufgabe, CSAT unter Mensch-Baseline zum selben Zeitpunkt. Jedes einzelne Signal heisst: Use-Case-Scope ist falsch. Re-scopen oder einstellen. Sunk-Cost-Verteidigung schwacher Agenten ist die grösste Quelle verschwendeten KI-Budgets.

RPA liefert schnelleren, schmaleren Payback (oft 3 bis 6 Monate) bei rigide skriptbaren Aufgaben. KI-Agenten liefern langsameren, breiteren Payback (4 bis 9 Monate) bei Aufgaben mit Ausnahmen und Urteilsvermögen. Sie sind keine Substitute - gut gebaute Systeme nutzen beide. Die CFO-Frage ist nicht "KI vs. RPA", sondern "wird jedes Tool dort eingesetzt, wo seine Wirtschaftlichkeit greift?".

Monatlich in den ersten 6 Monaten, danach quartalsweise. Re-baselinen, sobald sich der zugrundeliegende Prozess ändert (neues Produkt, neues System, neue Compliance-Anforderung). Ohne Re-baseline sieht der Agent besser aus, als er ist - weil sich die Welt weiterbewegt hat.

Modellkosten sind historisch jährlich gefallen (60 bis 80 Prozent pro Jahr für vergleichbare Fähigkeit), das ist aber nicht garantiert. Das Finanzmodell mit einer 12-Monats-Flachannahme und einem 24-Monats-Plus-30-Prozent-Stresstest bauen. Vendor-Verträge jährlich neu verhandeln. Modellwechsel-Option behalten - Vendor-Lock-in wird zum CFO-Thema, sobald die Kosten sich bewegen.

Henri Jung, Co-founder bei Superkind
Henri Jung

Co-Gründer von Superkind, wo er KMU und Konzernen hilft, individuelle KI-Agenten so einzusetzen, dass sie wirklich zur Arbeitsweise der Teams passen. Henri schliesst leidenschaftlich die Lücke zwischen dem, was KI kann, und dem Wert, den sie in echten Unternehmen schafft. Er ist überzeugt: Der Mittelstand hat alles, was er braucht, um in KI führend zu sein - er braucht nur den richtigen Ansatz.

Bereit, Ihren nächsten KI-Agenten CFO-fähig zu machen?

Buchen Sie ein 30-Minuten-Gespräch mit Henri. Wir gehen Ihren aktuellen Pilot oder geplanten Use Case durch und bauen das ROI-Framework gemeinsam - ohne Verpflichtung, ohne Verkaufspitch.

Demo buchen →