Software 3.0 im Mittelstand: Warum Programmieren jetzt Prompten heißt - und was das für Ihre IT-Strategie bedeutet

2. Mai 202636 Min. Lesezeit

Co-Founder bei Superkind

Industrielle dunkle Schreibmaschine mit frischem Blatt Papier und einem orangefarbenen Walzenknopf - Englisch als neue Programmiersprache

Irgendwann Ende 2025 hat Ihr neugierigster Engineer aufgehört, Code zu schreiben. Er liefert mehr aus als je zuvor, aber die Datei, die er offen hält, ist keine IDE mehr - sie ist ein Chat-Fenster mit einem Frontier-Modell und ein langer, sorgfältiger Prompt, der gleichzeitig die Spec ist. Die heißeste neue Programmiersprache in Ihrem Unternehmen ist plötzlich Englisch.

Das ist die Schlagzeile dessen, was Andrej Karpathy Software 3.0 nennt. An der YC AI Startup School im Juni 2025 hat er es klar formuliert: Large Language Models sind eine neue Art von Computer, man programmiert sie in Englisch, und sie verdienen ein größeres Versions-Upgrade in der Art, wie wir über Software denken¹. Software 1.0 war der Code, den Menschen geschrieben haben. Software 2.0 waren die Gewichte trainierter neuronaler Netze. Software 3.0 sind Prompts in natürlicher Sprache, die ein LLM steuern⁴. Alle drei Schichten leben heute in denselben Produkten nebeneinander.

Für den deutschen Mittelstand ist die strategische Frage nicht mehr, ob das wichtig ist. Bitkom hat im Februar 2026 berichtet, dass 41 Prozent der deutschen Unternehmen KI aktiv einsetzen, gegenüber 17 Prozent nur zwei Jahre zuvor⁹. Gartner prognostiziert, dass 40 Prozent aller Enterprise-Apps bis Ende 2026 aufgabenspezifische KI-Agenten enthalten werden, gegenüber weniger als 5 Prozent zu Beginn 2025¹⁴. Die Frage ist, wie eine IT-Strategie aussieht, wenn sich die Bausteine von Software so schnell verschieben - und was ein Mittelständler am Montagmorgen tatsächlich tun sollte.

TL;DR

Programmieren wird Prompten - Karpathys Software-3.0-These ist, dass LLMs eine neue Art von Computer sind, programmiert in Englisch. Software 1.0 (Code), 2.0 (Gewichte) und 3.0 (Prompts) leben nebeneinander in jeder modernen App.

Das Context Window ist der neue Quellcode - der Prompt plus abgerufene Daten plus Tools plus Memory ist das Programm. Gartner sagt CIOs bereits, die Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst.

Der Mittelstand hat einen asymmetrischen Vorteil - 41 Prozent der deutschen Firmen nutzen jetzt KI (Bitkom 2026), aber der IT-Fachkräftemangel ist permanent und der Arbeitsmarkt schrumpft bis 2030 um 3,9 Millionen. Software 3.0 ist der einzige Hebel, der beide Lücken innerhalb eines Planungszyklus schließt.

Manche Apps werden vom Modell aufgefressen - Dünnlogik-SaaS (einfache OCR, simple Formulargeneratoren, Single-Purpose-Tools) wird ersetzt, weil eine einzige Chat-Sitzung dasselbe leistet. Workflow-schwere SaaS ist auf Jahre sicher.

Jagged Intelligence erzwingt eine domänenweise Trust-Map - dasselbe LLM refactored eine 100.000-Zeilen-Codebase brillant und macht dann einen einfachen Logikfehler. Behandeln Sie den Agenten wie einen brillanten Praktikanten mit perfektem API-Gedächtnis und zuverlässig seltsamen blinden Flecken.

Das 12-Monats-Mittelstands-Budget liegt bei 150.000 bis 400.000 Euro für ein LLM-Gateway, Observability, ein 1-2-FTE-Plattform-Team, Governance und die Strecke, die ersten 5 bis 10 erfolgreichen Prototypen in Produktions-Agenten zu überführen.

Die Software-3.0-Verschiebung ist im Mittelstand angekommen

Die meisten deutschen IT-Verantwortlichen behandeln generative KI noch als einen Punkt auf einer langen Roadmap. Die Daten sprechen für eine andere Sicht: einen Generationswechsel in der Art, wie Software gebaut wird, bereits im Unternehmen.

41 Prozent der deutschen Unternehmen setzen KI aktiv ein - Die Bitkom-Studie vom Februar 2026 fand 41 Prozent der deutschen Firmen mit produktivem KI-Einsatz, gegenüber 17 Prozent in 2024 und 9 Prozent in 2022⁹. Die Verdoppelung in zwei Jahren ist schneller als die Cloud-Adoption in der vergleichbaren Phase.
Weitere 48 Prozent planen - Dieselbe Bitkom-Studie meldet weitere 48 Prozent der Unternehmen in aktiver KI-Planung, sodass nur 11 Prozent angeben, keine Pläne zu haben⁹. Untätigkeit ist heute die Minderheitsposition.
KMU holen auf, sind aber nicht eingeholt - Die Adoption steigt für Firmen mit über 500 Mitarbeitenden auf über 60 Prozent, während sie im klassischen Mittelstand niedriger bleibt⁹. Genau diese Asymmetrie schließt Software 3.0.
40 Prozent der Enterprise-Apps werden aufgabenspezifische Agenten haben - Gartner sagt voraus, dass 40 Prozent der Enterprise-Anwendungen bis Ende 2026 aufgabenspezifische KI-Agenten enthalten, gegenüber weniger als 5 Prozent zu Beginn 2025¹⁴. Die installierte Software-Basis wird unter Ihren Füßen umgeschrieben.
80 Prozent der Engineers müssen nachschulen - Gartner erwartet, dass 80 Prozent der Engineering-Belegschaft bis 2027 nachschulen müssen, um in einem LLM-zentrischen Stack effektiv zu bleiben¹⁵. Die Halbwertszeit der gestrigen Engineering-Praxis ist stark gefallen.
149.000 IT-Stellen bleiben unbesetzt - Bitkom Akademie meldet 149.000 unbesetzte IT-Rollen in Deutschland, mit Entwicklern und Architekten als gefragteste Profile¹⁰. Die Arbeitsmarkt-Mathematik erzwingt Software 3.0 selbst bei Firmen, die lieber gewartet hätten.
Die Erwerbsbevölkerung schrumpft um 3,9 Millionen - Die OECD prognostiziert einen Rückgang der deutschen Erwerbsbevölkerung um 3,9 Millionen bis 2030²³. Es gibt keine Version des nächsten Jahrzehnts, in der IT-Teams schnell genug wachsen, um mit Software 1.0 allein Schritt zu halten.

Schlüssel-Datenpunkt

Die Bitkom-Studie vom Februar 2026 zeigt, dass sich die deutsche KI-Adoption etwa alle zwei Jahre verdoppelt und bei 41 Prozent aller Firmen mit wachsender Investitionsdynamik liegt⁹. Der Mittelstand experimentiert nicht mehr am Rand - er operationalisiert in der Mitte.

Der strukturelle Druck macht den Mittelstands-Kontext besonders. Eine 200-Personen-Firma mit zweieinhalb Leuten in der IT kann sich nicht aus einem explodierenden Backlog interner Software heraus einstellen. Software 3.0 lässt diesen Backlog in einer Weise zusammenbrechen, wie es kein vorheriger Tooling-Wechsel getan hat, weil die Bau-Einheit jetzt eine geschriebene Beschreibung ist statt eines Sprints.

Indikator	Realität 2026	Quelle
Deutsche Firmen mit aktivem KI-Einsatz	41 % (von 17 % in 2024)	Bitkom 2026⁹
Deutsche Firmen, die KI planen	48 % (zusätzlich)	Bitkom 2026⁹
Adoption bei 500+ Mitarbeitenden	Über 60 %	Bitkom 2026⁹
Enterprise-Apps mit aufgabenspezifischen Agenten	40 % bis Ende 2026 (von <5 % Anfang 2025)	Gartner¹⁴
Engineers, die nachschulen müssen	80 % bis 2027	Gartner¹⁵
Unbesetzte IT-Stellen in Deutschland	149.000	Bitkom Akademie¹⁰
Rückgang Erwerbsbevölkerung bis 2030	3,9 Millionen	OECD²³

“LLMs sind eine neue Art von Computer, und Sie programmieren sie in Englisch. Daher denke ich, sie verdienen ein größeres Versions-Upgrade im Software-Verständnis.”

- Andrej Karpathy, Gründungsmitglied von OpenAI und ehemaliger AI-Director bei Tesla, auf X zu seinem YC-AI-Startup-School-Vortrag, Juni 2025²

Was Software 3.0 wirklich ist (und was nicht)

Das Label ist Kurzschrift für eine spezifische Architektursicht. Drei Schichten leben heute innerhalb fast jeder modernen Anwendung nebeneinander, jede mit ihrem eigenen Programmiermodell.

Die drei Schichten Seite an Seite

Software 1.0 - Expliziter Code, von Menschen in Python, Java, ABAP, C# geschrieben. Die Laufzeit ist die CPU und das Betriebssystem. Die Arbeitseinheit ist die Funktion. Das ist immer noch die richtige Schicht für deterministische Logik, Berechnungen, Integrationen und alles Sicherheits- oder Audit-kritische.
Software 2.0 - Programme, ausgedrückt als Gewichte eines auf Daten trainierten neuronalen Netzes, ursprünglich von Karpathy 2017 formuliert³. Die Laufzeit ist eine GPU, die Matrixmultiplikationen ausführt. Die Arbeitseinheit ist das Modell. Bildverarbeitung, Betrugs-Scoring, Empfehlungs-Engines und Predictive-Maintenance-Modelle leben hier.
Software 3.0 - Programme, ausgedrückt als natürlich-sprachliche Prompts plus Kontext, ausgeführt von einem Frontier-LLM. Die Laufzeit ist das LLM, das Context Window ist der Arbeitsspeicher und der „Quellcode“ ist der Prompt mit unterstützenden Daten, Tools und Beispielen⁴. Hier wird der Großteil des Werts des nächsten IT-Zyklus geschrieben.

Schicht	Programmiersprache	Laufzeit	Stärke	Schwäche
Software 1.0	Python, Java, ABAP, C#	CPU + OS	Deterministisch, auditierbar	Langsam zu schreiben, brüchig bei Änderung
Software 2.0	Trainingsdaten + Architektur	GPU	Mustererkennung im Maßstab	Undurchsichtig, teuer im Re-Training
Software 3.0	Englisch (oder Deutsch) + Kontext	LLM als Host-Prozess	Schnell zu schreiben, breite Abdeckung	Probabilistisch, am Rand zackig

Wie Software 3.0 in der Praxis aussieht

Ein konkretes Beispiel. Ein Mittelständler im Maschinenbau will eingehende Ersatzteil-E-Mails behandeln: die Kundenmeldung parsen, das Teil über die Beschreibung im SAP-Katalog nachschlagen, ein Angebot erzeugen und in flüssigem Deutsch antworten. Die Software-1.0-Version ist ein Python-Service mit Parser, SAP-Connector, Angebotsgenerator und E-Mail-Integration - gemessen in Monaten Engineering. Die Software-3.0-Version ist ein 600-Wörter-Prompt plus ein MCP-Server, der den SAP-Katalog und die Angebots-API einem Frontier-Modell exponiert. Die erste lauffähige Version steht in Tagen. Die verbleibende Arbeit ist Evaluation, Guardrails und die kleine Software-1.0-Schicht, die tatsächlich die E-Mail versendet und das Audit-Log schreibt.

Der definierende Wechsel

In Software 3.0 schreibt die Mittelstands-IT weniger Funktionen und mehr Spezifikationen. Karpathys Formulierung: Menschen designen jetzt und das Modell füllt die Implementierung aus. Strategische Konsequenz: Der Engpass für neue interne Software verschiebt sich von Engineering-Kapazität zu Spec-Qualität.

Was Software 3.0 nicht ist

Nicht das Ende von Code - Die Schichten 1.0 und 2.0 bleiben. Sie werden volumenmäßig kleiner, aber pro Zeile wichtiger, weil sie das sind, was das LLM ruft, wenn Verlässlichkeit zählt.
Nicht Vibe Coding - Vibe Coding ist eine Consumer-Ausprägung von Software 3.0 für Citizen Developer⁵. Software 3.0 umfasst auch Agentic Engineering für Produktionssysteme, das LLM-als-OS-Muster für neue Produkte und das Umschreiben interner Tools, die historisch in Excel lebten.
Keine Chatbot-Strategie - Die Chat-Oberfläche ist eine dünne Demo dessen, was Software 3.0 leisten kann. Der meiste Produktionswert lebt in Agenten, die über Daten und APIs operieren, ohne dass jemand sie etwas fragt.
Keine Anbieter-Entscheidung - Ein Modell zu wählen (GPT, Claude, Gemini, Mistral) ist eine taktische Frage. Die IT um Englisch-als-Engineering-Schnittstelle zu organisieren ist die strategische. Das Modell wechselt alle sechs Monate; das Operating Model nicht.

Warum Software 3.0 den Mittelstand anders trifft

Großkonzerne werden Software 3.0 vorsichtig adoptieren, weil sie die IT-Kapazität haben, den langen Schwanz auf langsame Weise zu liefern, und das Reputationsrisiko, sich vorsichtig zu bewegen. Der Mittelstand hat keinen dieser Luxus. Drei strukturelle Drücke machen Software 3.0 in einer 200-Personen-Firma strategischer als in einem 20.000-Personen-Konzern.

Der IT-Fachkräftemangel ist strukturell, nicht zyklisch - Bitkom Akademie meldet 149.000 unbesetzte IT-Stellen in Deutschland, mit Entwicklern, Architekten und Security-Spezialisten am stärksten gefragt¹⁰. Die DIHK meldet getrennt, dass Deutschland 300.000 ausländische Fachkräfte pro Jahr braucht, nur um den Bestand zu halten²². Es gibt keinen plausiblen Pfad, in dem Mittelstands-IT-Teams schnell genug wachsen, um die Last mit Software 1.0 allein zu absorbieren.
Das Prozesswissen sitzt im Geschäft - Die tiefste Mittelstands-Stärke ist operative Expertise, konzentriert in Domain-Experten, die jahrzehntelang die Arbeit gelernt haben. Software 3.0 lässt diese Expertise direkt zu Software werden, indem der Controller, der Produktionsplaner oder der Service-Disponent die Spec schreibt, statt sie über ein Ticketsystem zu übersetzen.
EU-KI-VO-Compliance ist jetzt Pflichtprogramm - Artikel 4 der EU-KI-Verordnung verpflichtet jeden deutschen Arbeitgeber, angemessene KI-Kompetenz für alle Nutzer von KI-Tools sicherzustellen²⁵. Die Compliance-Arbeit ist identisch für eine Firma mit 5 Produktions-Agenten und eine mit 50 - der Pro-Agent-Overhead fällt bei höheren Volumina stark. Software 3.0 macht die Volumen-Strategie tragbar.
Bestehende Investitionen werden wertvoller, nicht weniger wertvoll - Die 25-jährige SAP-Investition, die tiefe DATEV-Integration, die zehn Jahre aufgeräumtes SharePoint, das institutionelle Vertragswissen - all das wird zum Substrat, das die Agentenschicht nährt. Bitkoms Studie 2026 zeigt, dass deutsche Firmen mit starker Datengrundlage rund den doppelten KI-Wert erfassen wie solche ohne⁹.
Die Wettbewerbslücke wächst kompoundierend - Ein Mittelständler, der 2 interne Tools pro Quartal liefert, gegen einen Mitbewerber, der 20 liefert, schließt seine operative Lücke innerhalb von 18 Monaten. McKinsey berichtet, dass High-AI-Performer fast dreimal so wahrscheinlich Workflows fundamental neu designen¹⁶. Das Compounding ist schneller als bei jedem anderen Digitalisierungs-Hebel.

Die Mittelstands-Asymmetrie

Derselbe Software-3.0-Stack ist für einen 200-Personen-Mittelständler wertvoller als für einen 20.000-Personen-Konzern, weil der Konzern die IT-Kapazität hat, den langen Schwanz durchzuackern, und der Mittelstand nicht. Die Kosten des Stillstands sind also in der kleineren Firma höher, nicht in der größeren.

Die Mittelstands-spezifischen Fehlermuster

Die gleichen Bedingungen, die Software 3.0 mächtig machen, schaffen auch berechenbare Mittelstands-Fallen. Drei sind es wert, vorab benannt zu werden.

Es als Tool-Kauf behandeln - Copilot-Lizenzen für alle einkaufen und das Strategie nennen. Laut Microsofts eigenen Nutzungsdaten liegen 64 Prozent der Sitze ungenutzt da, weil sich das Operating Model nie geändert hat. Software 3.0 ist eine Operating-Model-Verschiebung, keine SKU.
Verbieten statt steuern - Der Geschäftsführer hört von einem vibe-gecodeten Sales-Tool und ordert ein Moratorium für KI-Tools im ganzen Unternehmen. Die Arbeit wandert auf private Accounts und in Schatten-IT, der Audit-Trail verschwindet, und das Betriebsrats-Gespräch wird härter. Governance überlebt - ein Verbot nicht.
Spec-Writing auslagern - Eine Agentur die Agenten-Prompts schreiben lassen. Die Agentur geht, die Spec verrottet, der Agent bricht beim nächsten SAP-Schema-Wechsel, und das institutionelle Wissen, das zählt, wird nie internalisiert. Spec-Writing ist eine permanente Fähigkeit, kein Projektergebnis.

Das Context Window ist der neue Quellcode

Die schärfste praktische Konsequenz von Software 3.0 ist, dass das Context Window - was im Moment der Ausführung in das LLM geht - das Programm ist. Gartner hat CIOs Anfang 2026 explizit aufgefordert, die „Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst“¹³. IBM rahmt Context Engineering als Disziplin, zu strukturieren, welche Information aufzunehmen und wie zu formatieren ist, damit das LLM sie korrekt nutzen kann¹⁹. Für eine Mittelstands-IT-Führung ist das die wichtigste neue Fähigkeit, in die zu investieren ist.

Was in einem Produktions-Context-Window lebt

System-Prompt - Rollendefinition, Verhaltensregeln, Markenstimme, Refusal-Policy. Das ist das, was Software-1.0-Quellcode am nächsten kommt, und sollte mit Code-Review im Versions-Control leben.
Abgerufener Kontext - Die relevanten Dokumente, ERP-Datensätze, Kundenhistorie, Verträge, Handbücher oder Wissensbasis-Einträge, die für diese spezifische Aufgabe geholt werden. Retrieval-Qualität ist jetzt eine Engineering-Frage erster Ordnung.
Tools und APIs - Die Menge der Aktionen, die das Modell in diesem Lauf ausführen darf, definiert als Schemata. Hier docken SAP, DATEV, Salesforce, ServiceNow, Ihre eigenen APIs und zunehmend MCP-Server an²⁰.
Beispiele - Few-Shot-Beispiele korrekten Verhaltens, besonders für Edge Cases. Im Mittelstands-Kontext umfasst das oft die „wie wir das hier machen“-Konventionen, die die Firma von der generischen Best Practice unterscheiden.
Memory - Übertrag aus früheren Sitzungen, Nutzervorlieben und gelernte Fakten über den Kunden oder Prozess. Memory-Design ist eines der am stärksten unterentwickelten Teile der meisten Mittelstands-Agenten.
Die Nutzeranfrage - Die eigentliche Anweisung oder Frage für diesen Lauf. Oft der kleinste Teil des produktiven Context Windows.

Kontext-Schicht	Software-1.0-Analogon	Eigentümer	Änderungsfrequenz
System-Prompt	Quellcode	Plattform-Team	Wochen-Monate
Abgerufener Kontext	Datenbank-Query-Ergebnisse	Daten- + Retrieval-Team	Pro Anfrage
Tools und APIs	Bibliotheks-Imports	Integrations-Team	Monate
Beispiele	Unit-Tests als Doku	Domain-Experte + Plattform	Monate
Memory	Session-Storage	Plattform-Team	Pro Sitzung
Nutzeranfrage	Funktionsargumente	Endnutzer	Pro Anfrage

Warum Context Engineering Prompt Engineering schlägt

Prompt Engineering ist das, was man tut, wenn man annimmt, der Prompt sei das Programm. Context Engineering ist das, was man tut, wenn man akzeptiert, dass das Modell selbst fix ist und der Hebel das ist, was man davorlegt. Drei Gründe, warum der Mittelstand Context Engineering als primäres Handwerk vorziehen sollte.

Kontext überlebt Modellwechsel - Das Frontier-Modell wechselt alle sechs Monate. Ein gut konstruierter Kontext (sauberes Retrieval, gut benannte Tools, klare Beispiele) trägt sich über Anbieter. Ein cleverer Prompt, der die Eigenheiten eines bestimmten Modells ausnutzt, nicht.
Kontext ist auditierbar - Für EU-KI-VO und Audit-Zwecke wollen Sie zeigen können, was das Modell im Moment der Entscheidung sah. Abgerufener Kontext, Tool-Definitionen und Beispiele sind auditierbare Artefakte. Prompt-Engineering-Tricks nicht.
Kontext skaliert mit Ihrem Unternehmen - Bessere interne Daten, sauberes SharePoint, besser definierte APIs machen jeden Agenten gleichzeitig besser. Prompt-Engineering-Verbesserungen kompoundieren nicht in derselben Weise.

Die Context-Engineering-Regel

Wenn Sie Arbeit aus dem Prompt in den Kontext verschieben können, tun Sie es. Wenn Sie Arbeit aus dem LLM in einen Tool-Aufruf verschieben können, tun Sie es. Prompts sollten Intention und Policy beschreiben. Tools sollten die deterministische Arbeit tun. Kontext sollte die Wahrheit liefern.

Wollen Sie ein Software-3.0-Operating-Model für Ihre IT?

Wir helfen Mittelstands-IT-Teams, die Agent-Runtime, die Context-Engineering-Schicht und die Governance zu designen, die aus einem schnellen Experiment einen verlässlichen Produktions-Agenten machen.

Demo buchen →

Gestapelte dunkle industrielle Scheiben mit einem orangefarbenen Ring - die geschichtete Context-Window-Architektur eines Produktions-Software-3.0-Agenten

Wenn das Neural Net Ihre App auffrisst

Der schwierigste Teil von Software-3.0-Strategie für den Mittelstand ist die Lizenzierung. Einige der SaaS-Verträge, die Sie letztes Jahr verlängert haben, zahlen für Fähigkeiten, die das nächste Frontier-Modell in einer einzigen Chat-Sitzung absorbiert. Eine klare Sicht auf welche Kategorien gefährdet sind, welche sicher sind und welche immer noch wirklich schwer sind, gehört jetzt in das IT-Strategie-Gespräch.

Kategorien mit hohem Absorptionsrisiko

Einfache OCR und Dokumenten-Parsing - Single-Purpose-OCR-Tools, die Text aus Rechnungen, Belegen oder Formularen extrahieren, werden zunehmend von multimodalen Frontier-Modellen in einem einzigen API-Call übertroffen. Die Mittelstands-IDP-Kategorie ist in aktiver Disruption.
Generische Bildgenerierungs-Tools - Eigenständige „Bild aus Text erzeugen“-Produkte verlieren gegen dieselbe Fähigkeit innerhalb von Gemini, ChatGPT oder Claude. Das MenuGen-Muster (eine kleine App, deren ganzer Wert von einem multimodalen Prompt repliziert werden kann) verallgemeinert sich.
Single-Purpose-Formulargeneratoren - Tools, deren ganzer Wert ist „wandle diese Beschreibung in ein Formular“ oder „wandle diese Spec in eine Ein-Seiten-Web-App“, konkurrieren mit Lovable, v0 und der Inline-App-Generierung, die jetzt in Power Apps und Copilot Studio eingebacken ist.
Leichtgewichtige Transkription und Zusammenfassung - Die Kategorie „kauf-dieses-Ding-das-Meetings-zusammenfasst“ bricht in die Meeting-Plattform selbst zusammen, und der Mittelstand zahlt zweimal für überlappende Fähigkeiten.
Generische Übersetzungs-Tools - Hochqualitative Übersetzung ist jetzt Feature jedes Frontier-LLM. Spezialisierte Übersetzungs-SaaS gewinnt noch bei Terminologie-Management und zertifizierten Workflows, aber der Stückpreis einfacher Übersetzung nähert sich Null.

Kategorien, die (vorerst) sicher bleiben

Workflow-schwere ERP und Buchhaltung - SAP, DATEV, Lexware, Salesforce - der Wert sitzt im Workflow, in den Daten, im regulatorischen Klempnerwerk und im Integrationsnetz. Das LLM operiert darüber, ersetzt es nicht.
Compliance-gebundene Systems of Record - HRIS, Lohnabrechnung, E-Rechnung, GoBD-konforme Archive. Die Audit-Garantien sind das Produkt. Das LLM ist ein weiterer Nutzer des Systems, kein Nachfolger.
Branchen-spezifische Vertikale mit tiefer Domain-Integration - MES-Systeme auf dem Shopfloor, Wartungs-Plattformen, Flotten-Management für Service-Organisationen. Die Hardware-Integration ist der Burggraben, nicht die UI.
Etablierte Collaboration-Suites - Microsoft 365, Google Workspace, Atlassian. Das LLM kommt dazu, geht nicht weg. Die interessante Frage ist, ob Ihre Firma die KI-Features nutzt, die mit dem Sitz schon kamen.

Die Mittelstands-Build-vs-Buy-Frage, neu geschrieben

Die klassische Frage war „kaufen, wo der Anbieter gut ist, bauen, wo Sie anders sind“. In einer Software-3.0-Welt wird die Frage zu drei.

Ist der Wert des Anbieters überwiegend UI auf einem LLM? Wenn ja, können Sie wahrscheinlich dasselbe in Tagen gegen ein Frontier-Modell bauen und ein Tool bekommen, das exakt zu Ihrem Workflow passt. Das MenuGen-Muster.
Ist der Wert des Anbieters der Workflow, die Daten oder das Compliance-Netz? Wenn ja, weiter kaufen. Die Agentenschicht legt sich oben drauf.
Wird der Anbieter selbst agent-nativ? Wenn er MCP-Server, strukturierte Tools oder Eval-Harnesses exponiert, ist er in Ihrem zukünftigen Stack. Wenn er noch eine Chat-Box auf eine alte SaaS schraubt, nicht.

Software-Kategorie	Absorptionsrisiko	Mittelstands-Aktion
Einfache OCR	Hoch	In Agenten-Stack konsolidieren
Single-Purpose-Formular-/App-Generatoren	Hoch	Lovable / v0 / Copilot Inline nutzen
Generische Übersetzung	Mittel	Für zertifizierte Flows behalten; generische Sitze streichen
Meeting-Zusammenfassungs-Point-Tools	Hoch	Den Sitz nutzen, den Sie schon haben
SAP, DATEV, Lexware	Niedrig	Mit Agentenschicht umhüllen
HRIS, Lohn, E-Rechnung	Niedrig	Behalten, über MCP/APIs exponieren
MES, Wartung, Flotte	Niedrig	Behalten, mit Agenten integrieren
Microsoft 365 / Workspace	Niedrig	Die KI nutzen, für die Sie schon zahlen

Jagged Intelligence und die Vertrauensfrage

Die härteste praktische Wahrheit von Software 3.0 ist, dass dasselbe Modell in derselben Stunde brillant und dumm sein kann. Karpathy verwendet den Begriff Jagged Intelligence für LLMs, die „extrem beeindruckende Aufgaben erledigen können, während sie gleichzeitig mit sehr dummen Problemen kämpfen“⁴. Modelle, die mit Reinforcement Learning auf verifizierbaren Domänen (Code, Mathematik, strukturiertes Reasoning) trainiert wurden, spiken dort in Fähigkeit und bleiben rau an den Rändern, wo es kein solches Verifikations-Signal gibt.

Wie Jagged Intelligence im Mittelstands-Kontext aussieht

Brillant bei Code-förmigen Aufgaben - Refactoring einer 100.000-Zeilen-internen-Codebase, SQL-Generierung gegen ein wohldefiniertes Schema, Konvertierung zwischen Datenformaten, Parsing unstrukturierter PDFs in saubere Datensätze.
Verlässlich gut bei Schreib-förmigen Aufgaben - Entwürfe von Kunden-E-Mails, Zusammenfassen von Meeting-Transkripten, Übersetzen, Generierung von Angebots-Text aus strukturiertem Input.
Gemischt bei Entscheidungs-förmigen Aufgaben - Empfehlungen, welcher Lieferant zu wählen ist, Priorisierung einer Service-Queue, Lead-Scoring. Fähigkeit hängt stark von Kontext-Qualität ab.
Erratisch an Common-Sense-Rändern - Selbstbewusste falsche Antworten zu Fragen aus der physischen Welt, Einheiten-Umrechnungen oder Dingen, die von lokalem Kontext abhängen, den das Modell nicht hat.
Schlicht schlecht bei undefinierter Arbeit - Alles, wo das Erfolgskriterium nicht im Prompt stand. Das Modell optimiert auf das, was es messen kann, oft auf das Falsche.

Das Trust-Map-Prinzip

Es gibt keine einzige Vertrauenseinstellung für ein LLM. Vertrauen ist pro Domäne, pro Aufgabentyp und pro Konsequenz des Versagens. Das Software-3.0-reife Mittelstands-IT-Team führt eine Trust-Map, die benennt, welche Agenten welche Aktionen autonom ausführen dürfen, welche einen Menschen im Loop brauchen und welche per Policy nur lesen.

Die Mittelstands-Trust-Map (Startvorlage)

Aufgaben-Kategorie	Vertrauens-Level	Default-Modus	Menschlicher Checkpoint
Interne Entwürfe (E-Mails, Zusammenfassungen)	Hoch	Vorschlagen	Sender-Freigabe
Code-Generierung (interne Tools)	Hoch	Generieren, Tests laufen lassen	Engineer-Review vor Prod
Datenextraktion (Rechnungen, Verträge)	Mittel-Hoch	Extrahieren + Confidence-Score	Menschen-Review bei niedriger Confidence
Kunden-Antwort (B2B)	Mittel	Entwerfen	Account-Manager-Freigabe
Buchung, Bestellung, Finanz-Aktionen	Niedrig ohne Policy	Vorschlagen, nicht ausführen	Benannter Approver pro Betrag
Personal-, Kredit-, Sicherheits-Entscheidungen	Nie autonom	Nur Entscheidungs-Unterstützung	Immer Mensch (EU-KI-VO)

“Demo ist works.any(), Produkt ist works.all(). Die Lücke zwischen Demo und Produkt im KI-Zeitalter ist die Differenz zwischen einmal richtig und jedes Mal richtig.”

- Andrej Karpathy, zur Auslieferung LLM-basierter Produkte, zusammengefasst in der Latent-Space-Berichterstattung zu seinem Software-3.0-Vortrag⁴

Was das für Evaluation bedeutet

Die natürlich-sprachliche Schnittstelle verführt Teams dazu, Agenten auszuliefern, die sich in einer Demo „richtig anfühlen“. Die 80-20-Arbeit, die Software 3.0 wirklich produktionsreif macht, ist Evaluation. Drei Mindestpraktiken, die der Mittelstand für jeden Produktions-Agenten übernehmen sollte.

Ein eingefrorenes Eval-Set - 30 bis 100 repräsentative Inputs mit bekannten korrekten Antworten, bei jedem Release ausgeführt. Kein Agent geht ohne in die Produktion.
Ein LLM-Judge-Harness - Ein zweites Modell bewertet die Outputs des Produktionsagenten gegen Rubrik-Kriterien. Nicht perfekt, aber konsistent genug, Regressionen zu fangen, und billiger als menschliche Reviews im Volumen.
Menschliche Stichproben-Kontrolle - 1 bis 5 Prozent der Produktions-Läufe wöchentlich von einem Domain-Experten geprüft. Das qualitative Signal, das die Rubrik verfehlt, lebt hier.

7 IT-Strategie-Entscheidungen, die sich in einer Software-3.0-Welt ändern

Die meisten Mittelstands-IT-Strategien wurden geschrieben, als Software 1.0 das einzige Paradigma war und Software 2.0 eine Forschungs-Kuriosität. Sieben konkrete Entscheidungen verdienen einen frischen Blick, sobald Software 3.0 auf dem Tisch liegt.

Entscheidung 1: Die Build-Buy-Rent-Linie verschiebt sich

Alte Linie - Kaufen, wo der Anbieter gut ist, bauen, wo Sie anders sind.
Neue Linie - Kaufen, wo der Anbieter Workflow und Daten besitzt, die Agentenschicht darüber selbst bauen, und keine reine LLM-on-top-SaaS mieten, es sei denn der Anbieter ist wirklich agent-nativ.
Mittelstands-Aktion - Aktuelle SaaS-Ausgaben durch die Absorptions-Risiko-Linse auditieren. Verlängerungen kappen, die für dünne LLM-Wrapper zahlen, die Ihr Plattform-Team in einem Sprint replizieren kann.

Entscheidung 2: Das Plattform-Team wird umbenannt und neu finanziert

Alte Form - Infrastruktur-Team, das Kubernetes, Netzwerk, Identity, Observability betreibt.
Neue Form - Dasselbe plus LLM-Gateway, Modell-Katalog, Prompt- und Kontext-Registry, Eval-Harness, MCP-Server und Agent-Runtime. Das ist die Plattform, die bestimmt, wie schnell jedes Team Software 3.0 ausliefern kann.
Mittelstands-Aktion - 1 bis 2 FTE zum Plattform-Team hinzufügen, speziell für den Agenten-Stack. Das ist der Hire mit dem höchsten Hebel in 2026.

Entscheidung 3: Spec-Design wird zur erstklassigen Fähigkeit

Alte Form - Business-Analysten übersetzen Anforderungen in PRDs, Engineers übersetzen PRDs in Code.
Neue Form - Senior-Köpfe in jeder Abteilung schreiben Specs, die detailliert genug sind, um agentenausführbar zu sein. Die Spec ist die neue Werteinheit.
Mittelstands-Aktion - Einen 2-tägigen Spec-Writing-Workshop für die Top-30 Senior-Köpfe in der Firma. Die besten Spec-Schreiber mit dem Plattform-Team paaren, um die ersten 5 Produktions-Agenten zu landen.

Entscheidung 4: Hiring rebasiert auf nachgewiesene Agenten-Fluenz

Altes Signal - Whiteboard-Puzzle, Algorithmus-Fragen, Sprach-Trivia.
Neues Signal - Ein echtes lauffähiges Projekt unter Zeitdruck mit vollem Agentenzugriff ausliefern; die Designentscheidungen persönlich verteidigen.
Mittelstands-Aktion - Engineering-Interview innerhalb von Q3 2026 refactoren. 90-minütige Agenten-Orchestrierungs-Übung hinzufügen. Die Puzzle streichen.

Entscheidung 5: Das Architecture Review Board bekommt ein Trust-Map-Mandat

Altes Mandat - Technologieentscheidungen, Integrationsmuster, Security-Ausnahmen freigeben.
Neues Mandat - All das plus Pflege der Trust-Map: welche Entscheidungen Agenten autonom treffen dürfen, welche einen Menschen brauchen, welche verboten sind. Das ist jetzt für den Geschäftsführer sichtbar.
Mittelstands-Aktion - Trust-Map als ständigen Tagesordnungspunkt im IT-Steering-Committee. Quartalsweise Review mit Compliance und Betriebsrat.

Entscheidung 6: Datenqualität und Metadaten werden Top-3-IT-Investition

Alte Rahmung - Datenqualität ist ein BI-Problem.
Neue Rahmung - Datenqualität ist das Substrat, von dem jeder Agent lebt. Schlechte SAP-Stammdaten, unaufgeräumtes SharePoint, ungelabelte Dokumente - all das deckelt direkt, was Ihre Agenten leisten können.
Mittelstands-Aktion - Einen 90-Tage-Daten-Aufräum-Sprint pro Hauptquellsystem in 2026 finanzieren. Mit MCP-Server-Veröffentlichung paaren, sodass Agenten die bereinigten Daten konsumieren können.

Entscheidung 7: Compliance wandert nach links, nicht nach rechts

Alte Form - Compliance prüft Go-Live-Entscheidungen und auditiert jährlich.
Neue Form - Compliance ist in die Agent-Runtime verdrahtet. Jeder Prompt, jeder Tool-Call, jeder Output wird mit dem Kontext geloggt, den das Modell sah. Artikel-4-Kompetenz, Artikel-14-Aufsicht und Audit-Trails sind Plattform-Features, kein Papierkram.
Mittelstands-Aktion - Die Observability-Schicht im Plattform-Team finanzieren. Die Audit-Story vor Auslieferung des ersten Produktions-Agenten festlegen.

Das Software-3.0-native Operating Model

Die sieben Entscheidungen oben summieren sich zu einem kohärenten Operating Model. Die meisten Mittelstands-IT-Teams haben die meisten Bausteine schon; die Arbeit ist, sie um das LLM-als-Host-Prozess und den Prompt-plus-Kontext-als-neue-Autorenschaftseinheit neu zu kombinieren.

Die fünf Schichten eines Software-3.0-Stacks

Modell-Schicht - Die Frontier-LLMs, die Sie nutzen, zugegriffen über ein einziges internes Gateway. Multi-Anbieter per Default (OpenAI, Anthropic, Google, Mistral, plus eine souveräne EU-Option) mit Pro-Aufgabe-Routing-Policy. Versioniert und beobachtbar.
Kontext-Schicht - Das Retrieval, die MCP-Server, Tool-Definitionen, Prompt-Registry und der Memory-Store, die das Modell mit den richtigen Inputs zur richtigen Zeit versorgen. Hier lebt der meiste Mittelstands-spezifische Wert.
Agent-Runtime - Die Orchestrierungsschicht, die Multi-Step-Agenten ausführt, Retries handhabt, Guardrails durchsetzt, in den Observability-Store loggt und mit Human-in-the-Loop-Checkpoints integriert.
Evaluations-Schicht - Eingefrorene Eval-Sets, LLM-Judge-Harnesses, Sampling-Tools, Drift-Erkennung, Regressions-Dashboards. Die nächste Analogie zu einer CI/CD-Test-Suite für nicht-deterministische Systeme.
Governance-Schicht - Trust-Map, KI-Kompetenz-Schulungen, Audit-Logging, EU-KI-VO-Mapping, Betriebsrats-Abstimmung, BSI-Überlegungen. Keine separate Funktion - eine horizontale Schicht, die in alle vier oben hineingeschnitten ist.

Das Team, das es betreibt

Drei neue Rollen reichen zum Start, keine davon senior zu bestehenden. Ein 200-Personen-Mittelständler kann mit insgesamt 1,5 bis 2 FTE beginnen.

Plattform-Engineer (Agenten-Stack) - Eigentümer des LLM-Gateways, der Agent-Runtime, der MCP-Server und der Eval-Infrastruktur. Senior-Engineer mit starkem Produkt-Sinn.
Spec-Lead - Senior-Person aus Produkt, Operations oder Strategie, die mit Domain-Experten an Agenten-Specs arbeitet. Nicht zwingend Engineer; muss strukturierter Schreiber sein.
Evaluator - Baut Eval-Sets, besitzt das LLM-Judge-Harness, sampled Produktionsverkehr, hebt Regressionen aus. Oft ein QA-Engineer oder Analyst, in die Rolle rotiert.

Stärken des Software-3.0-Operating-Models

10x schnellere Iteration auf interne Tools und Agenten
Domain-Experten können direkt lauffähige Software ausliefern
Multi-Anbieter-Modell-Strategie überlebt Preisrutsche
Compliance ist auf Plattform-Schicht verdrahtet
Kompoundierende Datenqualitäts-Investitionen zahlen über alle Agenten

Wo es schwerer ist als es aussieht

Evaluation ist die versteckte Mehrheit der Arbeit
Spec-Design ist permanente Fähigkeit, kein Projekt
Bestehende IT-Prozesse setzen deterministische Systeme voraus
Trust-Map braucht laufende Rekalibrierung mit Modell-Updates
Vendor-Lock-in-Risiko ist real, wenn Sie das Gateway-Muster überspringen

Ein 12-Monats-Fahrplan für den Mittelstand

Die Arbeit teilt sich natürlich in vier 90-Tage-Phasen. Die Gesamtinvestition für eine 200-Personen-Firma landet typischerweise bei 150.000 bis 400.000 Euro über das Jahr, mit dem ersten messbaren Produktions-Return zwischen Monat 6 und 9.

Tage 0-90: Plattform-Fundamente und ein Produktions-Agent

LLM-Gateway aufsetzen - Ein interner Endpoint vor zwei oder mehr Modell-Anbietern. Logging, Rate-Limits, Kosten-Zuordnung. Zwei Engineering-Wochen.
Erste MCP-Server veröffentlichen - SAP read-only, SharePoint read-only, Kunden-Stammdaten read-only. Drei Engineering-Wochen.
Ersten Produktions-Agenten wählen - Hohes Volumen, mittlere Konsequenz, gut umgrenzt. Ersatzteil-E-Mail-Triage, Lieferanten-Onboarding-Eingang, interner IT-Helpdesk sind häufige Startpunkte.
Eval-Harness bauen - 50 eingefrorene Beispiele, eine LLM-Judge-Rubrik, eine Sampling-Pipeline. Zwei Engineering-Wochen.
Erste KI-Kompetenz-Schulung - Artikel-4-Baseline für alle Mitarbeitenden, tieferes Modul für Citizen Developer und Plattform-Team. Zwei Tage Beratung plus interner Rollout.

Tage 91-180: Drei weitere Agenten und die Trust-Map

Drei weitere Produktions-Agenten ausliefern - Aus den 5 häufigsten Mittelstands-Mustern wählen: Kundenservice-Deflection, Sales-Lead-Anreicherung, interne Wissenssuche, Vertragsprüfung, Dokumentenextraktion.
Trust-Map veröffentlichen - Erste Version mit Geschäftsführer, Compliance und Betriebsrat reviewt. In die Agent-Runtime verdrahtet.
Prompt-und-Kontext-Registry aufsetzen - Versions-Control für System-Prompts, Tool-Definitionen und Beispiel-Sets. Code-Review-Prozess für Produktionsänderungen.
Ersten Spec-Writing-Workshop - Top-30 Senior-Köpfe in der Firma, 2 Tage, echte lauffähige Agenten am Ende.

Tage 181-270: Vibe-Coding-Spur und SaaS-Audit

Citizen-Development-Sandbox aufsetzen - Quality-gegatete Spur für vibe-gecodete interne Tools. Mit dem bestehenden Vibe-Coding-Playbook aus dem Superkind-Blog paaren.
SaaS-Absorptions-Audit durchführen - Jeden SaaS-Vertrag gegen die Absorptions-Risiko-Tabelle mappen. Die Verlängerungen für dünne LLM-Wrapper kündigen oder konsolidieren.
Evaluation verschärfen - Eval-Sets erweitern, Regressions-Dashboards hinzufügen, Drift-Erkennung auf Produktionsverkehr.
Hiring-Loop erneuern - Puzzle streichen, Agenten-Orchestrierungs-Übung hinzufügen. Auf die nächsten zwei offenen IT-Rollen ausrollen.

Tage 271-365: Skalieren und institutionalisieren

Die nächsten 5 bis 10 Produktions-Agenten ausliefern - Jetzt überwiegend von den Spec-Leads in den Fachbereichen gebaut, mit Plattform-Unterstützung.
Quartalsweise Governance-Berichte veröffentlichen - An Geschäftsführer, Compliance und Betriebsrat. Trust-Map-Updates, Eval-Ergebnisse, Vorfalls-Review.
Zweite Schulungswelle - Tiefere Artikel-4-Module, Spec-Design-Kliniken, Modell-Update-Briefings.
Jahres-2-Roadmap planen - Die Basis-Plattform existiert. Jahr 2 ist Tiefe: domänen-spezifische RL-Fine-Tunes, multimodale Use Cases, souveräne Modell-Optionen und der agent-native Rebuild der höchstvolumigen internen Tools.

12-Monats-Mindest-Software-3.0-Stack

LLM-Gateway mit 2+ Anbietern und Pro-Aufgabe-Routing
3+ MCP-Server, die kerninterne Daten read-only exponieren
Agent-Runtime mit Logging, Retries und HITL-Hooks
Eingefrorenes Eval-Harness und LLM-Judge-Rubrik
Prompt-und-Kontext-Registry unter Versions-Control
Quartalsweise reviewte Trust-Map
5 bis 10 Produktions-Agenten mit dokumentiertem ROI
Citizen-Development-Sandbox mit Quality-Gate
EU-KI-VO-Artikel-4-Schulung an alle Mitarbeitenden ausgerollt
Quartalsweiser Governance-Bericht an Geschäftsführer + Betriebsrat

EU-KI-VO, DSGVO und der Betriebsrat

Software 3.0 bekommt keinen regulatorischen Freipass. Die gute Nachricht ist, dass die Pflichten meist dieselben sind, mit denen jeder Mittelständler ohnehin für KI insgesamt ringt - sie müssen nur in das neue Operating Model verdrahtet werden, statt später daraufgeschraubt.

EU-KI-Verordnung

Artikel 4 (KI-Kompetenz) - Jeder Arbeitgeber muss angemessene KI-Kompetenz für alle Nutzer und Steuerer von KI-Tools sicherstellen²⁵. In einer Software-3.0-Welt umfasst das Citizen Developer, Spec-Leads, Agenten-Operatoren und den Geschäftsführer. Die Kompetenz-Arbeit ist nicht optional und nicht delegierbar.
Risiko-Klassifizierung - Die meisten Software-3.0-internen Tools sind begrenztes Risiko oder minimales Risiko. Die Klassifizierung hängt davon ab, was das Tool tut, nicht wie es gebaut wurde. Ein vibe-gecodetes HR-Scoring-Tool ist Hochrisiko; ein vibe-gecodetes Dashboard nicht.
Artikel 14 (menschliche Aufsicht) - Hochrisiko-Systeme erfordern designte menschliche Aufsicht. Die Trust-Map und die HITL-Hooks in der Agent-Runtime sind, wie das in Software 3.0 implementiert wird.
Implementierungs-Timeline - Der Großteil der Hochrisiko-Pflichten gilt ab August 2026, mit allgemeinen KI-Pflichten bereits in Kraft²⁶. Agenten, die Hochrisiko-Entscheidungen berühren, entsprechend planen.

DSGVO

Rechtsgrundlage gilt weiter pro Verarbeitung - Dass ein LLM beteiligt ist, ändert die DSGVO-Analyse von verarbeiteten Daten, Zweck und Rechtsgrundlage nicht.
Datenresidenz zählt für souveräne Deployments - Die Mittelstands-Präferenz für EU-Datenresidenz wird vom Multi-Anbieter-Gateway-Muster gut bedient. Sensible Workloads zu EU-gehosteten Modellen routen, US-Anbieter für nicht-sensible Aufgaben behalten.
Logging ist jetzt reicher - Der reichere Audit-Trail von Software 3.0 (jeder Prompt, Kontext und Output) ist ein DSGVO-Feature, kein Bug. Logs so strukturieren, dass sie Löschung, Export und Auskunftsanfragen unterstützen.
Auftragsverarbeitung (AVV) pro Anbieter - Jeder Modell-Anbieter, durch den Sie routen, braucht seinen eigenen AVV. Die Liste kurz halten und reviewen.

Betriebsrat

Software 3.0 als Produktivitäts-Programm rahmen, nicht als Stellenabbau - Der ehrliche Mittelstands-Case ist, dass Software 3.0 eine strukturelle Personallücke schließt, nicht bestehende Rollen ersetzt. Im ersten Gespräch mit dieser Rahmung führen.
Den Betriebsrat in die Trust-Map mitnehmen - Die Trust-Map ist das eine Artefakt, das die meisten Betriebsrats-Sorgen auf einmal adressiert. Durchgehen, verfeinern, als ständiges Dokument abzeichnen.
Mitarbeiterdaten-Nutzungen separat ausweisen - Jeder Agent, der HR-, Leistungs- oder Anwesenheitsdaten anfasst, braucht explizite Betriebsrats-Beteiligung. Einen separaten kürzeren Freigabepfad führen.
KI-Richtlinie veröffentlichen - Ein-Seiten-Dokument zu erlaubten Tools, verbotenen Nutzungen, Monitoring-Umfang und Eskalation. Jährlich erneuern.

Wie Superkind in den Software-3.0-Stack passt

Superkind baut maßgeschneiderte KI-Agenten für den Mittelstand und Konzerne, mit einer Process-First-Philosophie, die zu der Art passt, wie deutsche Operations-Teams tatsächlich arbeiten. Im Software-3.0-Stack besitzen wir typischerweise die Agent-Runtime, das Eval-Harness, die MCP-Integration in SAP, DATEV und SharePoint sowie das Governance-Gerüst um die Agenten, die wir ausliefern.

Was wir in einem Software-3.0-Engagement liefern

Agent-Runtime in Ihrer Umgebung - In Ihrem Tenant gehostet, mit Ihrem Identity-Provider integriert, mit LLM-Gateway und Observability-Hooks an Ort und Stelle. Keine Black-Box-SaaS.
MCP-Server für SAP, DATEV, SharePoint und Ihre eigenen Systeme - Read-only per Default, write-enabled pro Agent unter expliziter Policy. Die Integrationsschicht ist, wo der Mittelstands-spezifische Wert lebt.
Eingefrorene Eval-Sets und LLM-Judge-Harnesses - Um den tatsächlichen Produktionsverkehr des Agenten gebaut, nicht um generische Benchmarks. Die Audit-Story hält BNetzA-Prüfung stand.
Trust-Map-Design mit Ihrem Team - Workshop-getrieben, mit Compliance und Betriebsrat verfeinert, in die Agent-Runtime als durchgesetzte Policy verdrahtet.
Spec-Writing-Partnerschaft - Wir paaren mit Ihren Senior-Domain-Experten an den ersten 5 Produktions-Specs, dann übergeben wir die Praxis.
EU-KI-VO- und DSGVO-Abstimmung - Artikel-4-Kompetenz-Modul, Artikel-14-Aufsichts-Design, Auftragsverarbeitungs-Papier pro Modell-Anbieter.
Multi-Anbieter-Modell-Strategie - GPT, Claude, Gemini, Mistral plus eine souveräne EU-Option. Routing pro Aufgabe, nicht pro Firma.
90-Tage-Produktions-Meilenstein - Erster Produktions-Agent in 90 Tagen live, mit dokumentiertem ROI, Trust-Map und Audit-Trail.

Wann Superkind der richtige Partner ist

Sie sind ein deutscher Mittelständler mit 50 bis 5.000 Mitarbeitenden
Ihr IT-Team ist klein und der Backlog strukturell
Sie brauchen agent-native Integration in SAP, DATEV oder Legacy-ERPs
Compliance- und Betriebsrats-Abstimmung zählt vom ersten Tag
Sie wollen Produktions-Agenten in 90 Tagen, nicht einen 12-Monats-Beratungszyklus

Wo Sie eine andere Option vorziehen könnten

Sie brauchen nur ein Copilot-Rollout - der Microsoft-Inhouse-Kanal reicht
Ihr Use Case ist ein begrenztes SaaS-Feature, keine Operating-Model-Verschiebung
Sie haben schon ein 50-köpfiges Inhouse-KI-Team - gehen Sie direkt
Sie wollen eine Black-Box-SaaS ohne Integration in Ihre Systeme

Entscheidungs-Framework: Sind Sie bereit für Software 3.0?

Ein einfaches Entscheidungs-Framework hilft einem Mittelstands-IT-Leiter und Geschäftsführer, in einer Steering-Sitzung zu einer Ja-oder-Nein-Antwort auf Software 3.0 zu kommen. Sechs Dimensionen, drei ehrliche Antworten je.

Dimension	Nicht bereit	Bereit zu starten	Bereit zu skalieren
IT-Kapazität vs. Backlog	Kein Backlog	2-Quartals-Backlog	1-Jahres+ Backlog
Interne Datenqualität	SAP-Stammdaten sind Chaos	In 90 Tagen aufräumbar	Bereits aufgeräumt
Spec-Writing-Fähigkeit	Keine Senior-Schreiber	3-5 starke Schreiber	Spec-Design ist institutionell
Compliance-Bereitschaft	Noch keine EU-KI-VO-Arbeit	Artikel-4-Kompetenz gestartet	Audit-Trail und Trust-Map existieren
Geschäftsführer-Sponsoring	Sieht KI als IT-Thema	Sponsert ein 12-Monats-Programm	Zählt Agenten bereits in OKRs
Budget-Haltung	Kein neues Budget	150-400 T€ in Jahr 1	1 %+ vom Umsatz committet

Die meisten Mittelständler landen zwischen „bereit zu starten“ und „bereit zu skalieren“ auf den meisten Dimensionen und unterhalb der Linie auf einer oder zwei. Die richtige Antwort ist fast nie zu warten. Die richtige Antwort ist, die Nachzügler-Dimension als Teil der ersten 90 Tage zu fixen, nicht als Voraussetzung.

Häufig gestellte Fragen

Software 3.0 ist die Sichtweise, dass Large Language Models eine neue Art von Computer sind und dass natürliche Sprache der Weg ist, sie zu programmieren. Andrej Karpathy hat das im Juni 2025 an der YC AI Startup School entfaltet: Software 1.0 ist von Menschen geschriebener Code, Software 2.0 sind die Gewichte trainierter neuronaler Netze, Software 3.0 sind Prompts in Englisch, die ein LLM steuern. Alle drei Schichten existieren in modernen Apps nebeneinander. Die strategische Konsequenz für den Mittelstand: Der Engpass für neue interne Software verschiebt sich von Engineering-Kapazität zu Spec-Qualität.

Nein. Es heißt, dass Entwickler weniger Zeit mit Boilerplate verbringen und mehr Zeit mit Spec-Design, Integration, Evaluation und dem Betrieb der Agentenschicht. Gartner sagt voraus, dass 80 Prozent der Engineering-Belegschaft bis 2027 nachschulen müssen. Mittelstands-IT-Teams berichten typischerweise von 30 bis 50 Prozent mehr Kapazität für strategische Arbeit nach der Umstellung, nicht von Personalabbau. Die Rolle verschiebt sich vom Autor zum Director.

Vibe Coding ist eine Consumer-Ausprägung von Software 3.0 - jemand beschreibt eine App und liefert aus, was das Modell produziert, oft ohne den Code zu lesen. Software 3.0 ist die breitere Kategorie. Sie umfasst Vibe Coding für Citizen Developer, Agentic Engineering für Produktionssysteme und das LLM-als-OS-Muster, in dem Geschäftslogik in Prompts und Tools statt in kompiliertem Code lebt. Vibe Coding hebt den Boden; Software 3.0 verändert das Gebäude.

In Software 3.0 ist das LLM die Laufzeit und der Prompt plus der unterstützende Kontext (System-Prompt, abgerufene Daten, Tools, Beispiele, Memory) ist das Programm. Context Engineering, nicht nur Prompt Engineering, ist das neue Handwerk. Gartner hat CIOs Anfang 2026 explizit aufgefordert, die Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst. Für den Mittelstand bedeutet das: investieren in saubere interne Daten, MCP-artige strukturierte Kontextlieferung und Tool-Definitionen - nicht nur in bessere Prompt-Formulierungen.

Selektiv ja. Einige Kategorien mit dünner Logik auf einem Modell (einfache OCR, simple Formulargeneratoren, einfache Bildeditoren) werden bereits ersetzt, wenn ein Frontier-Modell den Job in einer einzigen Chat-Sitzung erledigt. Das Muster, das Karpathy beschreibt: Leichtgewichtige Apps verlieren gegen leistungsfähige Modelle. Schwere SaaS, die Workflows, Daten und Integrationen besitzt (SAP, DATEV, Salesforce, ERP), ist auf Jahre sicher. Die Mittelstands-Aktion: Verlängerungen von Dünnlogik-SaaS kritischer prüfen als die von Workflow-SaaS.

Die EU-KI-Verordnung gilt für KI-Systeme nach dem, was sie tun, nicht wie sie gebaut sind. Ein Software-3.0-internes Tool, das Bewerber screent, ist ein Hochrisiko-KI-System, unabhängig davon, ob es vibe-gecodet, agentisch entwickelt oder aus C++ kompiliert wurde. Artikel 4 verpflichtet jeden deutschen Arbeitgeber, angemessene KI-Kompetenz für alle Nutzer und Steuerer von KI-Tools sicherzustellen. Der effizienteste Compliance-Weg ist, KI-Governance vom ersten Tag an in das Software-3.0-Operating-Model zu verdrahten, nicht als Nachrüstung.

Es kommt auf den Schnitt an. Bitkom hat im Februar 2026 berichtet, dass 41 Prozent der deutschen Unternehmen KI aktiv einsetzen, gegenüber 17 Prozent zwei Jahre zuvor, aber Firmen mit über 500 Mitarbeitenden liegen bei über 60 Prozent. KMU holen auf, sind aber nicht auf Augenhöhe. Kombiniert mit dem strukturellen IT-Fachkräftemangel (rund 149.000 unbesetzte IT-Stellen laut Bitkom Akademie) ist die Lücke groß genug, dass Software 3.0 einer der wenigen Hebel ist, der sie innerhalb eines Planungszyklus schließt.

Karpathy verwendet Jagged Intelligence, um die Tatsache zu beschreiben, dass dasselbe LLM eine 100.000-Zeilen-Codebase brillant refactoren und dann einen einfachen Logikfehler machen kann, den ein Fünfjähriger nicht machen würde. Die Leistung spiked auf verifizierbaren Domänen, in denen Reinforcement Learning angewendet wurde (Code, Mathematik), und verschlechtert sich an den Rändern. Für den Mittelstand bedeutet das eine domänenweise Trust-Map, nicht eine einzige Vertrauenseinstellung. Behandeln Sie den Agenten wie einen brillanten Praktikanten mit perfektem API-Gedächtnis und zuverlässig seltsamen blinden Flecken.

Die ersten 12 Monate liegen typischerweise bei 150.000 bis 400.000 Euro all-in. Das deckt LLM-Gateway und Observability ab, ein kleines Plattform-Team (1 bis 2 FTE), die Agent-Runtime, Governance- und Compliance-Arbeit, Schulungen und das Budget, die ersten 5 bis 10 erfolgreichen Prototypen in produktive Tools zu überführen. Tooling-Lizenzen (Cursor, Claude Code, Copilot, Modell-APIs) kommen meist mit 50 bis 120 Euro pro aktivem Nutzer und Monat dazu. Der Payback kommt typischerweise mit dem dritten oder vierten Produktions-Agenten.

Ja, und genau die Integrationsschicht ist der Punkt, an dem der Mittelstand Burggräben schafft. Das Software-3.0-Muster ist, SAP, DATEV, S/4HANA und das AS/400 als Systems of Record zu behalten, ihre Daten und Aktionen über MCP-Server oder gewrappte APIs zu exponieren und das LLM darüber operieren zu lassen. Die meisten Produktions-Agenten im Mittelstand sind 30 Prozent Prompt-Design, 30 Prozent Integrations-Glue und 40 Prozent Governance und Evaluation.

Drei Dinge, von denen keines delegierbar ist. Erstens: erklären, dass Englisch (oder Deutsch) jetzt eine erstklassige Engineering-Schnittstelle ist, und das Plattform-Team entsprechend ausstatten. Zweitens: die Trust-Map setzen, welche Entscheidungen die Agentenschicht autonom treffen darf, welche einen Menschen im Loop brauchen und welche nie KI berühren. Drittens: das Spec-Design-Upskilling für Senior-Köpfe in jeder Abteilung finanzieren, weil Spec-Qualität der neue Engpass ist. Alles andere ist Umsetzung.

Tendenziell zu Generalisten mit starkem Geschmack, Urteilsvermögen und Schreibkompetenz. Das Hiring-Signal, das hält, ist Kandidaten ein echtes Projekt unter Zeitdruck mit vollem Agentenzugriff bauen zu lassen und die Designentscheidungen zu verteidigen. Whiteboard-Puzzle sind heute ein schlechter Proxy. Die meisten Mittelständler müssen nur zwei oder drei Rollen refactoren, um zu starten: einen Plattform-Engineer für die Agent-Runtime, einen Senior Product Engineer, der Spec-Design führt, und einen Evaluator, der die Test-Umgebungen baut.

Meistens das Gegenteil. Die 25 Jahre alte SAP-Investition, die tiefe DATEV-Integration, das aufgeräumte SharePoint - all das wird zum Substrat, das die Agentenschicht nährt. Software 3.0 lässt den Wert sauberer, zugänglicher interner Daten und gut definierter APIs stark steigen, weil sie nun nicht nur von Menschen, sondern auch von Agenten konsumierbar sind. Was an Wert verliert, sind maßgeschneiderte CRUD-Apps, die eine Datenbank in eine Oberfläche gewickelt haben - dieses Muster ist heute Stunden Vibe Coding.

Quellen

Henri Jung

Co-Founder von Superkind. Henri hilft Mittelständlern und Konzernen, maßgeschneiderte KI-Agenten zu deployen, die wirklich zur Arbeitsweise ihrer Teams passen. Er brennt dafür, die Lücke zwischen dem, was KI kann, und dem Wert, den sie in echten Unternehmen schafft, zu schließen. Er glaubt, der Mittelstand hat alles, was er braucht, um in KI zu führen - er braucht nur den richtigen Ansatz.

Bereit, Englisch zu einer erstklassigen Engineering-Schnittstelle in Ihrer IT zu machen?

Wir helfen Mittelstands-IT-Teams, das Software-3.0-Operating-Model zu designen und die ersten Produktions-Agenten in 90 Tagen auszuliefern. Sprechen Sie mit Henri darüber, wie Ihr Stack aussehen würde.