Irgendwann Ende 2025 hat Ihr neugierigster Engineer aufgehört, Code zu schreiben. Er liefert mehr aus als je zuvor, aber die Datei, die er offen hält, ist keine IDE mehr - sie ist ein Chat-Fenster mit einem Frontier-Modell und ein langer, sorgfältiger Prompt, der gleichzeitig die Spec ist. Die heißeste neue Programmiersprache in Ihrem Unternehmen ist plötzlich Englisch.
Das ist die Schlagzeile dessen, was Andrej Karpathy Software 3.0 nennt. An der YC AI Startup School im Juni 2025 hat er es klar formuliert: Large Language Models sind eine neue Art von Computer, man programmiert sie in Englisch, und sie verdienen ein größeres Versions-Upgrade in der Art, wie wir über Software denken1. Software 1.0 war der Code, den Menschen geschrieben haben. Software 2.0 waren die Gewichte trainierter neuronaler Netze. Software 3.0 sind Prompts in natürlicher Sprache, die ein LLM steuern4. Alle drei Schichten leben heute in denselben Produkten nebeneinander.
Für den deutschen Mittelstand ist die strategische Frage nicht mehr, ob das wichtig ist. Bitkom hat im Februar 2026 berichtet, dass 41 Prozent der deutschen Unternehmen KI aktiv einsetzen, gegenüber 17 Prozent nur zwei Jahre zuvor9. Gartner prognostiziert, dass 40 Prozent aller Enterprise-Apps bis Ende 2026 aufgabenspezifische KI-Agenten enthalten werden, gegenüber weniger als 5 Prozent zu Beginn 202514. Die Frage ist, wie eine IT-Strategie aussieht, wenn sich die Bausteine von Software so schnell verschieben - und was ein Mittelständler am Montagmorgen tatsächlich tun sollte.
TL;DR
Programmieren wird Prompten - Karpathys Software-3.0-These ist, dass LLMs eine neue Art von Computer sind, programmiert in Englisch. Software 1.0 (Code), 2.0 (Gewichte) und 3.0 (Prompts) leben nebeneinander in jeder modernen App.
Das Context Window ist der neue Quellcode - der Prompt plus abgerufene Daten plus Tools plus Memory ist das Programm. Gartner sagt CIOs bereits, die Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst.
Der Mittelstand hat einen asymmetrischen Vorteil - 41 Prozent der deutschen Firmen nutzen jetzt KI (Bitkom 2026), aber der IT-Fachkräftemangel ist permanent und der Arbeitsmarkt schrumpft bis 2030 um 3,9 Millionen. Software 3.0 ist der einzige Hebel, der beide Lücken innerhalb eines Planungszyklus schließt.
Manche Apps werden vom Modell aufgefressen - Dünnlogik-SaaS (einfache OCR, simple Formulargeneratoren, Single-Purpose-Tools) wird ersetzt, weil eine einzige Chat-Sitzung dasselbe leistet. Workflow-schwere SaaS ist auf Jahre sicher.
Jagged Intelligence erzwingt eine domänenweise Trust-Map - dasselbe LLM refactored eine 100.000-Zeilen-Codebase brillant und macht dann einen einfachen Logikfehler. Behandeln Sie den Agenten wie einen brillanten Praktikanten mit perfektem API-Gedächtnis und zuverlässig seltsamen blinden Flecken.
Das 12-Monats-Mittelstands-Budget liegt bei 150.000 bis 400.000 Euro für ein LLM-Gateway, Observability, ein 1-2-FTE-Plattform-Team, Governance und die Strecke, die ersten 5 bis 10 erfolgreichen Prototypen in Produktions-Agenten zu überführen.
Die Software-3.0-Verschiebung ist im Mittelstand angekommen
Die meisten deutschen IT-Verantwortlichen behandeln generative KI noch als einen Punkt auf einer langen Roadmap. Die Daten sprechen für eine andere Sicht: einen Generationswechsel in der Art, wie Software gebaut wird, bereits im Unternehmen.
- 41 Prozent der deutschen Unternehmen setzen KI aktiv ein - Die Bitkom-Studie vom Februar 2026 fand 41 Prozent der deutschen Firmen mit produktivem KI-Einsatz, gegenüber 17 Prozent in 2024 und 9 Prozent in 20229. Die Verdoppelung in zwei Jahren ist schneller als die Cloud-Adoption in der vergleichbaren Phase.
- Weitere 48 Prozent planen - Dieselbe Bitkom-Studie meldet weitere 48 Prozent der Unternehmen in aktiver KI-Planung, sodass nur 11 Prozent angeben, keine Pläne zu haben9. Untätigkeit ist heute die Minderheitsposition.
- KMU holen auf, sind aber nicht eingeholt - Die Adoption steigt für Firmen mit über 500 Mitarbeitenden auf über 60 Prozent, während sie im klassischen Mittelstand niedriger bleibt9. Genau diese Asymmetrie schließt Software 3.0.
- 40 Prozent der Enterprise-Apps werden aufgabenspezifische Agenten haben - Gartner sagt voraus, dass 40 Prozent der Enterprise-Anwendungen bis Ende 2026 aufgabenspezifische KI-Agenten enthalten, gegenüber weniger als 5 Prozent zu Beginn 202514. Die installierte Software-Basis wird unter Ihren Füßen umgeschrieben.
- 80 Prozent der Engineers müssen nachschulen - Gartner erwartet, dass 80 Prozent der Engineering-Belegschaft bis 2027 nachschulen müssen, um in einem LLM-zentrischen Stack effektiv zu bleiben15. Die Halbwertszeit der gestrigen Engineering-Praxis ist stark gefallen.
- 149.000 IT-Stellen bleiben unbesetzt - Bitkom Akademie meldet 149.000 unbesetzte IT-Rollen in Deutschland, mit Entwicklern und Architekten als gefragteste Profile10. Die Arbeitsmarkt-Mathematik erzwingt Software 3.0 selbst bei Firmen, die lieber gewartet hätten.
- Die Erwerbsbevölkerung schrumpft um 3,9 Millionen - Die OECD prognostiziert einen Rückgang der deutschen Erwerbsbevölkerung um 3,9 Millionen bis 203023. Es gibt keine Version des nächsten Jahrzehnts, in der IT-Teams schnell genug wachsen, um mit Software 1.0 allein Schritt zu halten.
Schlüssel-Datenpunkt
Die Bitkom-Studie vom Februar 2026 zeigt, dass sich die deutsche KI-Adoption etwa alle zwei Jahre verdoppelt und bei 41 Prozent aller Firmen mit wachsender Investitionsdynamik liegt9. Der Mittelstand experimentiert nicht mehr am Rand - er operationalisiert in der Mitte.
Der strukturelle Druck macht den Mittelstands-Kontext besonders. Eine 200-Personen-Firma mit zweieinhalb Leuten in der IT kann sich nicht aus einem explodierenden Backlog interner Software heraus einstellen. Software 3.0 lässt diesen Backlog in einer Weise zusammenbrechen, wie es kein vorheriger Tooling-Wechsel getan hat, weil die Bau-Einheit jetzt eine geschriebene Beschreibung ist statt eines Sprints.
| Indikator | Realität 2026 | Quelle |
|---|---|---|
| Deutsche Firmen mit aktivem KI-Einsatz | 41 % (von 17 % in 2024) | Bitkom 20269 |
| Deutsche Firmen, die KI planen | 48 % (zusätzlich) | Bitkom 20269 |
| Adoption bei 500+ Mitarbeitenden | Über 60 % | Bitkom 20269 |
| Enterprise-Apps mit aufgabenspezifischen Agenten | 40 % bis Ende 2026 (von <5 % Anfang 2025) | Gartner14 |
| Engineers, die nachschulen müssen | 80 % bis 2027 | Gartner15 |
| Unbesetzte IT-Stellen in Deutschland | 149.000 | Bitkom Akademie10 |
| Rückgang Erwerbsbevölkerung bis 2030 | 3,9 Millionen | OECD23 |
“LLMs sind eine neue Art von Computer, und Sie programmieren sie in Englisch. Daher denke ich, sie verdienen ein größeres Versions-Upgrade im Software-Verständnis.”
- Andrej Karpathy, Gründungsmitglied von OpenAI und ehemaliger AI-Director bei Tesla, auf X zu seinem YC-AI-Startup-School-Vortrag, Juni 20252
Was Software 3.0 wirklich ist (und was nicht)
Das Label ist Kurzschrift für eine spezifische Architektursicht. Drei Schichten leben heute innerhalb fast jeder modernen Anwendung nebeneinander, jede mit ihrem eigenen Programmiermodell.
Die drei Schichten Seite an Seite
- Software 1.0 - Expliziter Code, von Menschen in Python, Java, ABAP, C# geschrieben. Die Laufzeit ist die CPU und das Betriebssystem. Die Arbeitseinheit ist die Funktion. Das ist immer noch die richtige Schicht für deterministische Logik, Berechnungen, Integrationen und alles Sicherheits- oder Audit-kritische.
- Software 2.0 - Programme, ausgedrückt als Gewichte eines auf Daten trainierten neuronalen Netzes, ursprünglich von Karpathy 2017 formuliert3. Die Laufzeit ist eine GPU, die Matrixmultiplikationen ausführt. Die Arbeitseinheit ist das Modell. Bildverarbeitung, Betrugs-Scoring, Empfehlungs-Engines und Predictive-Maintenance-Modelle leben hier.
- Software 3.0 - Programme, ausgedrückt als natürlich-sprachliche Prompts plus Kontext, ausgeführt von einem Frontier-LLM. Die Laufzeit ist das LLM, das Context Window ist der Arbeitsspeicher und der „Quellcode“ ist der Prompt mit unterstützenden Daten, Tools und Beispielen4. Hier wird der Großteil des Werts des nächsten IT-Zyklus geschrieben.
| Schicht | Programmiersprache | Laufzeit | Stärke | Schwäche |
|---|---|---|---|---|
| Software 1.0 | Python, Java, ABAP, C# | CPU + OS | Deterministisch, auditierbar | Langsam zu schreiben, brüchig bei Änderung |
| Software 2.0 | Trainingsdaten + Architektur | GPU | Mustererkennung im Maßstab | Undurchsichtig, teuer im Re-Training |
| Software 3.0 | Englisch (oder Deutsch) + Kontext | LLM als Host-Prozess | Schnell zu schreiben, breite Abdeckung | Probabilistisch, am Rand zackig |
Wie Software 3.0 in der Praxis aussieht
Ein konkretes Beispiel. Ein Mittelständler im Maschinenbau will eingehende Ersatzteil-E-Mails behandeln: die Kundenmeldung parsen, das Teil über die Beschreibung im SAP-Katalog nachschlagen, ein Angebot erzeugen und in flüssigem Deutsch antworten. Die Software-1.0-Version ist ein Python-Service mit Parser, SAP-Connector, Angebotsgenerator und E-Mail-Integration - gemessen in Monaten Engineering. Die Software-3.0-Version ist ein 600-Wörter-Prompt plus ein MCP-Server, der den SAP-Katalog und die Angebots-API einem Frontier-Modell exponiert. Die erste lauffähige Version steht in Tagen. Die verbleibende Arbeit ist Evaluation, Guardrails und die kleine Software-1.0-Schicht, die tatsächlich die E-Mail versendet und das Audit-Log schreibt.
Der definierende Wechsel
In Software 3.0 schreibt die Mittelstands-IT weniger Funktionen und mehr Spezifikationen. Karpathys Formulierung: Menschen designen jetzt und das Modell füllt die Implementierung aus. Strategische Konsequenz: Der Engpass für neue interne Software verschiebt sich von Engineering-Kapazität zu Spec-Qualität.
Was Software 3.0 nicht ist
- Nicht das Ende von Code - Die Schichten 1.0 und 2.0 bleiben. Sie werden volumenmäßig kleiner, aber pro Zeile wichtiger, weil sie das sind, was das LLM ruft, wenn Verlässlichkeit zählt.
- Nicht Vibe Coding - Vibe Coding ist eine Consumer-Ausprägung von Software 3.0 für Citizen Developer5. Software 3.0 umfasst auch Agentic Engineering für Produktionssysteme, das LLM-als-OS-Muster für neue Produkte und das Umschreiben interner Tools, die historisch in Excel lebten.
- Keine Chatbot-Strategie - Die Chat-Oberfläche ist eine dünne Demo dessen, was Software 3.0 leisten kann. Der meiste Produktionswert lebt in Agenten, die über Daten und APIs operieren, ohne dass jemand sie etwas fragt.
- Keine Anbieter-Entscheidung - Ein Modell zu wählen (GPT, Claude, Gemini, Mistral) ist eine taktische Frage. Die IT um Englisch-als-Engineering-Schnittstelle zu organisieren ist die strategische. Das Modell wechselt alle sechs Monate; das Operating Model nicht.
Warum Software 3.0 den Mittelstand anders trifft
Großkonzerne werden Software 3.0 vorsichtig adoptieren, weil sie die IT-Kapazität haben, den langen Schwanz auf langsame Weise zu liefern, und das Reputationsrisiko, sich vorsichtig zu bewegen. Der Mittelstand hat keinen dieser Luxus. Drei strukturelle Drücke machen Software 3.0 in einer 200-Personen-Firma strategischer als in einem 20.000-Personen-Konzern.
- Der IT-Fachkräftemangel ist strukturell, nicht zyklisch - Bitkom Akademie meldet 149.000 unbesetzte IT-Stellen in Deutschland, mit Entwicklern, Architekten und Security-Spezialisten am stärksten gefragt10. Die DIHK meldet getrennt, dass Deutschland 300.000 ausländische Fachkräfte pro Jahr braucht, nur um den Bestand zu halten22. Es gibt keinen plausiblen Pfad, in dem Mittelstands-IT-Teams schnell genug wachsen, um die Last mit Software 1.0 allein zu absorbieren.
- Das Prozesswissen sitzt im Geschäft - Die tiefste Mittelstands-Stärke ist operative Expertise, konzentriert in Domain-Experten, die jahrzehntelang die Arbeit gelernt haben. Software 3.0 lässt diese Expertise direkt zu Software werden, indem der Controller, der Produktionsplaner oder der Service-Disponent die Spec schreibt, statt sie über ein Ticketsystem zu übersetzen.
- EU-KI-VO-Compliance ist jetzt Pflichtprogramm - Artikel 4 der EU-KI-Verordnung verpflichtet jeden deutschen Arbeitgeber, angemessene KI-Kompetenz für alle Nutzer von KI-Tools sicherzustellen25. Die Compliance-Arbeit ist identisch für eine Firma mit 5 Produktions-Agenten und eine mit 50 - der Pro-Agent-Overhead fällt bei höheren Volumina stark. Software 3.0 macht die Volumen-Strategie tragbar.
- Bestehende Investitionen werden wertvoller, nicht weniger wertvoll - Die 25-jährige SAP-Investition, die tiefe DATEV-Integration, die zehn Jahre aufgeräumtes SharePoint, das institutionelle Vertragswissen - all das wird zum Substrat, das die Agentenschicht nährt. Bitkoms Studie 2026 zeigt, dass deutsche Firmen mit starker Datengrundlage rund den doppelten KI-Wert erfassen wie solche ohne9.
- Die Wettbewerbslücke wächst kompoundierend - Ein Mittelständler, der 2 interne Tools pro Quartal liefert, gegen einen Mitbewerber, der 20 liefert, schließt seine operative Lücke innerhalb von 18 Monaten. McKinsey berichtet, dass High-AI-Performer fast dreimal so wahrscheinlich Workflows fundamental neu designen16. Das Compounding ist schneller als bei jedem anderen Digitalisierungs-Hebel.
Die Mittelstands-Asymmetrie
Derselbe Software-3.0-Stack ist für einen 200-Personen-Mittelständler wertvoller als für einen 20.000-Personen-Konzern, weil der Konzern die IT-Kapazität hat, den langen Schwanz durchzuackern, und der Mittelstand nicht. Die Kosten des Stillstands sind also in der kleineren Firma höher, nicht in der größeren.
Die Mittelstands-spezifischen Fehlermuster
Die gleichen Bedingungen, die Software 3.0 mächtig machen, schaffen auch berechenbare Mittelstands-Fallen. Drei sind es wert, vorab benannt zu werden.
- Es als Tool-Kauf behandeln - Copilot-Lizenzen für alle einkaufen und das Strategie nennen. Laut Microsofts eigenen Nutzungsdaten liegen 64 Prozent der Sitze ungenutzt da, weil sich das Operating Model nie geändert hat. Software 3.0 ist eine Operating-Model-Verschiebung, keine SKU.
- Verbieten statt steuern - Der Geschäftsführer hört von einem vibe-gecodeten Sales-Tool und ordert ein Moratorium für KI-Tools im ganzen Unternehmen. Die Arbeit wandert auf private Accounts und in Schatten-IT, der Audit-Trail verschwindet, und das Betriebsrats-Gespräch wird härter. Governance überlebt - ein Verbot nicht.
- Spec-Writing auslagern - Eine Agentur die Agenten-Prompts schreiben lassen. Die Agentur geht, die Spec verrottet, der Agent bricht beim nächsten SAP-Schema-Wechsel, und das institutionelle Wissen, das zählt, wird nie internalisiert. Spec-Writing ist eine permanente Fähigkeit, kein Projektergebnis.
Das Context Window ist der neue Quellcode
Die schärfste praktische Konsequenz von Software 3.0 ist, dass das Context Window - was im Moment der Ausführung in das LLM geht - das Programm ist. Gartner hat CIOs Anfang 2026 explizit aufgefordert, die „Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst“13. IBM rahmt Context Engineering als Disziplin, zu strukturieren, welche Information aufzunehmen und wie zu formatieren ist, damit das LLM sie korrekt nutzen kann19. Für eine Mittelstands-IT-Führung ist das die wichtigste neue Fähigkeit, in die zu investieren ist.
Was in einem Produktions-Context-Window lebt
- System-Prompt - Rollendefinition, Verhaltensregeln, Markenstimme, Refusal-Policy. Das ist das, was Software-1.0-Quellcode am nächsten kommt, und sollte mit Code-Review im Versions-Control leben.
- Abgerufener Kontext - Die relevanten Dokumente, ERP-Datensätze, Kundenhistorie, Verträge, Handbücher oder Wissensbasis-Einträge, die für diese spezifische Aufgabe geholt werden. Retrieval-Qualität ist jetzt eine Engineering-Frage erster Ordnung.
- Tools und APIs - Die Menge der Aktionen, die das Modell in diesem Lauf ausführen darf, definiert als Schemata. Hier docken SAP, DATEV, Salesforce, ServiceNow, Ihre eigenen APIs und zunehmend MCP-Server an20.
- Beispiele - Few-Shot-Beispiele korrekten Verhaltens, besonders für Edge Cases. Im Mittelstands-Kontext umfasst das oft die „wie wir das hier machen“-Konventionen, die die Firma von der generischen Best Practice unterscheiden.
- Memory - Übertrag aus früheren Sitzungen, Nutzervorlieben und gelernte Fakten über den Kunden oder Prozess. Memory-Design ist eines der am stärksten unterentwickelten Teile der meisten Mittelstands-Agenten.
- Die Nutzeranfrage - Die eigentliche Anweisung oder Frage für diesen Lauf. Oft der kleinste Teil des produktiven Context Windows.
| Kontext-Schicht | Software-1.0-Analogon | Eigentümer | Änderungsfrequenz |
|---|---|---|---|
| System-Prompt | Quellcode | Plattform-Team | Wochen-Monate |
| Abgerufener Kontext | Datenbank-Query-Ergebnisse | Daten- + Retrieval-Team | Pro Anfrage |
| Tools und APIs | Bibliotheks-Imports | Integrations-Team | Monate |
| Beispiele | Unit-Tests als Doku | Domain-Experte + Plattform | Monate |
| Memory | Session-Storage | Plattform-Team | Pro Sitzung |
| Nutzeranfrage | Funktionsargumente | Endnutzer | Pro Anfrage |
Warum Context Engineering Prompt Engineering schlägt
Prompt Engineering ist das, was man tut, wenn man annimmt, der Prompt sei das Programm. Context Engineering ist das, was man tut, wenn man akzeptiert, dass das Modell selbst fix ist und der Hebel das ist, was man davorlegt. Drei Gründe, warum der Mittelstand Context Engineering als primäres Handwerk vorziehen sollte.
- Kontext überlebt Modellwechsel - Das Frontier-Modell wechselt alle sechs Monate. Ein gut konstruierter Kontext (sauberes Retrieval, gut benannte Tools, klare Beispiele) trägt sich über Anbieter. Ein cleverer Prompt, der die Eigenheiten eines bestimmten Modells ausnutzt, nicht.
- Kontext ist auditierbar - Für EU-KI-VO und Audit-Zwecke wollen Sie zeigen können, was das Modell im Moment der Entscheidung sah. Abgerufener Kontext, Tool-Definitionen und Beispiele sind auditierbare Artefakte. Prompt-Engineering-Tricks nicht.
- Kontext skaliert mit Ihrem Unternehmen - Bessere interne Daten, sauberes SharePoint, besser definierte APIs machen jeden Agenten gleichzeitig besser. Prompt-Engineering-Verbesserungen kompoundieren nicht in derselben Weise.
Die Context-Engineering-Regel
Wenn Sie Arbeit aus dem Prompt in den Kontext verschieben können, tun Sie es. Wenn Sie Arbeit aus dem LLM in einen Tool-Aufruf verschieben können, tun Sie es. Prompts sollten Intention und Policy beschreiben. Tools sollten die deterministische Arbeit tun. Kontext sollte die Wahrheit liefern.
Wollen Sie ein Software-3.0-Operating-Model für Ihre IT?
Wir helfen Mittelstands-IT-Teams, die Agent-Runtime, die Context-Engineering-Schicht und die Governance zu designen, die aus einem schnellen Experiment einen verlässlichen Produktions-Agenten machen.

Wenn das Neural Net Ihre App auffrisst
Der schwierigste Teil von Software-3.0-Strategie für den Mittelstand ist die Lizenzierung. Einige der SaaS-Verträge, die Sie letztes Jahr verlängert haben, zahlen für Fähigkeiten, die das nächste Frontier-Modell in einer einzigen Chat-Sitzung absorbiert. Eine klare Sicht auf welche Kategorien gefährdet sind, welche sicher sind und welche immer noch wirklich schwer sind, gehört jetzt in das IT-Strategie-Gespräch.
Kategorien mit hohem Absorptionsrisiko
- Einfache OCR und Dokumenten-Parsing - Single-Purpose-OCR-Tools, die Text aus Rechnungen, Belegen oder Formularen extrahieren, werden zunehmend von multimodalen Frontier-Modellen in einem einzigen API-Call übertroffen. Die Mittelstands-IDP-Kategorie ist in aktiver Disruption.
- Generische Bildgenerierungs-Tools - Eigenständige „Bild aus Text erzeugen“-Produkte verlieren gegen dieselbe Fähigkeit innerhalb von Gemini, ChatGPT oder Claude. Das MenuGen-Muster (eine kleine App, deren ganzer Wert von einem multimodalen Prompt repliziert werden kann) verallgemeinert sich.
- Single-Purpose-Formulargeneratoren - Tools, deren ganzer Wert ist „wandle diese Beschreibung in ein Formular“ oder „wandle diese Spec in eine Ein-Seiten-Web-App“, konkurrieren mit Lovable, v0 und der Inline-App-Generierung, die jetzt in Power Apps und Copilot Studio eingebacken ist.
- Leichtgewichtige Transkription und Zusammenfassung - Die Kategorie „kauf-dieses-Ding-das-Meetings-zusammenfasst“ bricht in die Meeting-Plattform selbst zusammen, und der Mittelstand zahlt zweimal für überlappende Fähigkeiten.
- Generische Übersetzungs-Tools - Hochqualitative Übersetzung ist jetzt Feature jedes Frontier-LLM. Spezialisierte Übersetzungs-SaaS gewinnt noch bei Terminologie-Management und zertifizierten Workflows, aber der Stückpreis einfacher Übersetzung nähert sich Null.
Kategorien, die (vorerst) sicher bleiben
- Workflow-schwere ERP und Buchhaltung - SAP, DATEV, Lexware, Salesforce - der Wert sitzt im Workflow, in den Daten, im regulatorischen Klempnerwerk und im Integrationsnetz. Das LLM operiert darüber, ersetzt es nicht.
- Compliance-gebundene Systems of Record - HRIS, Lohnabrechnung, E-Rechnung, GoBD-konforme Archive. Die Audit-Garantien sind das Produkt. Das LLM ist ein weiterer Nutzer des Systems, kein Nachfolger.
- Branchen-spezifische Vertikale mit tiefer Domain-Integration - MES-Systeme auf dem Shopfloor, Wartungs-Plattformen, Flotten-Management für Service-Organisationen. Die Hardware-Integration ist der Burggraben, nicht die UI.
- Etablierte Collaboration-Suites - Microsoft 365, Google Workspace, Atlassian. Das LLM kommt dazu, geht nicht weg. Die interessante Frage ist, ob Ihre Firma die KI-Features nutzt, die mit dem Sitz schon kamen.
Die Mittelstands-Build-vs-Buy-Frage, neu geschrieben
Die klassische Frage war „kaufen, wo der Anbieter gut ist, bauen, wo Sie anders sind“. In einer Software-3.0-Welt wird die Frage zu drei.
- Ist der Wert des Anbieters überwiegend UI auf einem LLM? Wenn ja, können Sie wahrscheinlich dasselbe in Tagen gegen ein Frontier-Modell bauen und ein Tool bekommen, das exakt zu Ihrem Workflow passt. Das MenuGen-Muster.
- Ist der Wert des Anbieters der Workflow, die Daten oder das Compliance-Netz? Wenn ja, weiter kaufen. Die Agentenschicht legt sich oben drauf.
- Wird der Anbieter selbst agent-nativ? Wenn er MCP-Server, strukturierte Tools oder Eval-Harnesses exponiert, ist er in Ihrem zukünftigen Stack. Wenn er noch eine Chat-Box auf eine alte SaaS schraubt, nicht.
| Software-Kategorie | Absorptionsrisiko | Mittelstands-Aktion |
|---|---|---|
| Einfache OCR | Hoch | In Agenten-Stack konsolidieren |
| Single-Purpose-Formular-/App-Generatoren | Hoch | Lovable / v0 / Copilot Inline nutzen |
| Generische Übersetzung | Mittel | Für zertifizierte Flows behalten; generische Sitze streichen |
| Meeting-Zusammenfassungs-Point-Tools | Hoch | Den Sitz nutzen, den Sie schon haben |
| SAP, DATEV, Lexware | Niedrig | Mit Agentenschicht umhüllen |
| HRIS, Lohn, E-Rechnung | Niedrig | Behalten, über MCP/APIs exponieren |
| MES, Wartung, Flotte | Niedrig | Behalten, mit Agenten integrieren |
| Microsoft 365 / Workspace | Niedrig | Die KI nutzen, für die Sie schon zahlen |
Jagged Intelligence und die Vertrauensfrage
Die härteste praktische Wahrheit von Software 3.0 ist, dass dasselbe Modell in derselben Stunde brillant und dumm sein kann. Karpathy verwendet den Begriff Jagged Intelligence für LLMs, die „extrem beeindruckende Aufgaben erledigen können, während sie gleichzeitig mit sehr dummen Problemen kämpfen“4. Modelle, die mit Reinforcement Learning auf verifizierbaren Domänen (Code, Mathematik, strukturiertes Reasoning) trainiert wurden, spiken dort in Fähigkeit und bleiben rau an den Rändern, wo es kein solches Verifikations-Signal gibt.
Wie Jagged Intelligence im Mittelstands-Kontext aussieht
- Brillant bei Code-förmigen Aufgaben - Refactoring einer 100.000-Zeilen-internen-Codebase, SQL-Generierung gegen ein wohldefiniertes Schema, Konvertierung zwischen Datenformaten, Parsing unstrukturierter PDFs in saubere Datensätze.
- Verlässlich gut bei Schreib-förmigen Aufgaben - Entwürfe von Kunden-E-Mails, Zusammenfassen von Meeting-Transkripten, Übersetzen, Generierung von Angebots-Text aus strukturiertem Input.
- Gemischt bei Entscheidungs-förmigen Aufgaben - Empfehlungen, welcher Lieferant zu wählen ist, Priorisierung einer Service-Queue, Lead-Scoring. Fähigkeit hängt stark von Kontext-Qualität ab.
- Erratisch an Common-Sense-Rändern - Selbstbewusste falsche Antworten zu Fragen aus der physischen Welt, Einheiten-Umrechnungen oder Dingen, die von lokalem Kontext abhängen, den das Modell nicht hat.
- Schlicht schlecht bei undefinierter Arbeit - Alles, wo das Erfolgskriterium nicht im Prompt stand. Das Modell optimiert auf das, was es messen kann, oft auf das Falsche.
Das Trust-Map-Prinzip
Es gibt keine einzige Vertrauenseinstellung für ein LLM. Vertrauen ist pro Domäne, pro Aufgabentyp und pro Konsequenz des Versagens. Das Software-3.0-reife Mittelstands-IT-Team führt eine Trust-Map, die benennt, welche Agenten welche Aktionen autonom ausführen dürfen, welche einen Menschen im Loop brauchen und welche per Policy nur lesen.
Die Mittelstands-Trust-Map (Startvorlage)
| Aufgaben-Kategorie | Vertrauens-Level | Default-Modus | Menschlicher Checkpoint |
|---|---|---|---|
| Interne Entwürfe (E-Mails, Zusammenfassungen) | Hoch | Vorschlagen | Sender-Freigabe |
| Code-Generierung (interne Tools) | Hoch | Generieren, Tests laufen lassen | Engineer-Review vor Prod |
| Datenextraktion (Rechnungen, Verträge) | Mittel-Hoch | Extrahieren + Confidence-Score | Menschen-Review bei niedriger Confidence |
| Kunden-Antwort (B2B) | Mittel | Entwerfen | Account-Manager-Freigabe |
| Buchung, Bestellung, Finanz-Aktionen | Niedrig ohne Policy | Vorschlagen, nicht ausführen | Benannter Approver pro Betrag |
| Personal-, Kredit-, Sicherheits-Entscheidungen | Nie autonom | Nur Entscheidungs-Unterstützung | Immer Mensch (EU-KI-VO) |
“Demo ist works.any(), Produkt ist works.all(). Die Lücke zwischen Demo und Produkt im KI-Zeitalter ist die Differenz zwischen einmal richtig und jedes Mal richtig.”
- Andrej Karpathy, zur Auslieferung LLM-basierter Produkte, zusammengefasst in der Latent-Space-Berichterstattung zu seinem Software-3.0-Vortrag4
Was das für Evaluation bedeutet
Die natürlich-sprachliche Schnittstelle verführt Teams dazu, Agenten auszuliefern, die sich in einer Demo „richtig anfühlen“. Die 80-20-Arbeit, die Software 3.0 wirklich produktionsreif macht, ist Evaluation. Drei Mindestpraktiken, die der Mittelstand für jeden Produktions-Agenten übernehmen sollte.
- Ein eingefrorenes Eval-Set - 30 bis 100 repräsentative Inputs mit bekannten korrekten Antworten, bei jedem Release ausgeführt. Kein Agent geht ohne in die Produktion.
- Ein LLM-Judge-Harness - Ein zweites Modell bewertet die Outputs des Produktionsagenten gegen Rubrik-Kriterien. Nicht perfekt, aber konsistent genug, Regressionen zu fangen, und billiger als menschliche Reviews im Volumen.
- Menschliche Stichproben-Kontrolle - 1 bis 5 Prozent der Produktions-Läufe wöchentlich von einem Domain-Experten geprüft. Das qualitative Signal, das die Rubrik verfehlt, lebt hier.
7 IT-Strategie-Entscheidungen, die sich in einer Software-3.0-Welt ändern
Die meisten Mittelstands-IT-Strategien wurden geschrieben, als Software 1.0 das einzige Paradigma war und Software 2.0 eine Forschungs-Kuriosität. Sieben konkrete Entscheidungen verdienen einen frischen Blick, sobald Software 3.0 auf dem Tisch liegt.
Entscheidung 1: Die Build-Buy-Rent-Linie verschiebt sich
- Alte Linie - Kaufen, wo der Anbieter gut ist, bauen, wo Sie anders sind.
- Neue Linie - Kaufen, wo der Anbieter Workflow und Daten besitzt, die Agentenschicht darüber selbst bauen, und keine reine LLM-on-top-SaaS mieten, es sei denn der Anbieter ist wirklich agent-nativ.
- Mittelstands-Aktion - Aktuelle SaaS-Ausgaben durch die Absorptions-Risiko-Linse auditieren. Verlängerungen kappen, die für dünne LLM-Wrapper zahlen, die Ihr Plattform-Team in einem Sprint replizieren kann.
Entscheidung 2: Das Plattform-Team wird umbenannt und neu finanziert
- Alte Form - Infrastruktur-Team, das Kubernetes, Netzwerk, Identity, Observability betreibt.
- Neue Form - Dasselbe plus LLM-Gateway, Modell-Katalog, Prompt- und Kontext-Registry, Eval-Harness, MCP-Server und Agent-Runtime. Das ist die Plattform, die bestimmt, wie schnell jedes Team Software 3.0 ausliefern kann.
- Mittelstands-Aktion - 1 bis 2 FTE zum Plattform-Team hinzufügen, speziell für den Agenten-Stack. Das ist der Hire mit dem höchsten Hebel in 2026.
Entscheidung 3: Spec-Design wird zur erstklassigen Fähigkeit
- Alte Form - Business-Analysten übersetzen Anforderungen in PRDs, Engineers übersetzen PRDs in Code.
- Neue Form - Senior-Köpfe in jeder Abteilung schreiben Specs, die detailliert genug sind, um agentenausführbar zu sein. Die Spec ist die neue Werteinheit.
- Mittelstands-Aktion - Einen 2-tägigen Spec-Writing-Workshop für die Top-30 Senior-Köpfe in der Firma. Die besten Spec-Schreiber mit dem Plattform-Team paaren, um die ersten 5 Produktions-Agenten zu landen.
Entscheidung 4: Hiring rebasiert auf nachgewiesene Agenten-Fluenz
- Altes Signal - Whiteboard-Puzzle, Algorithmus-Fragen, Sprach-Trivia.
- Neues Signal - Ein echtes lauffähiges Projekt unter Zeitdruck mit vollem Agentenzugriff ausliefern; die Designentscheidungen persönlich verteidigen.
- Mittelstands-Aktion - Engineering-Interview innerhalb von Q3 2026 refactoren. 90-minütige Agenten-Orchestrierungs-Übung hinzufügen. Die Puzzle streichen.
Entscheidung 5: Das Architecture Review Board bekommt ein Trust-Map-Mandat
- Altes Mandat - Technologieentscheidungen, Integrationsmuster, Security-Ausnahmen freigeben.
- Neues Mandat - All das plus Pflege der Trust-Map: welche Entscheidungen Agenten autonom treffen dürfen, welche einen Menschen brauchen, welche verboten sind. Das ist jetzt für den Geschäftsführer sichtbar.
- Mittelstands-Aktion - Trust-Map als ständigen Tagesordnungspunkt im IT-Steering-Committee. Quartalsweise Review mit Compliance und Betriebsrat.
Entscheidung 6: Datenqualität und Metadaten werden Top-3-IT-Investition
- Alte Rahmung - Datenqualität ist ein BI-Problem.
- Neue Rahmung - Datenqualität ist das Substrat, von dem jeder Agent lebt. Schlechte SAP-Stammdaten, unaufgeräumtes SharePoint, ungelabelte Dokumente - all das deckelt direkt, was Ihre Agenten leisten können.
- Mittelstands-Aktion - Einen 90-Tage-Daten-Aufräum-Sprint pro Hauptquellsystem in 2026 finanzieren. Mit MCP-Server-Veröffentlichung paaren, sodass Agenten die bereinigten Daten konsumieren können.
Entscheidung 7: Compliance wandert nach links, nicht nach rechts
- Alte Form - Compliance prüft Go-Live-Entscheidungen und auditiert jährlich.
- Neue Form - Compliance ist in die Agent-Runtime verdrahtet. Jeder Prompt, jeder Tool-Call, jeder Output wird mit dem Kontext geloggt, den das Modell sah. Artikel-4-Kompetenz, Artikel-14-Aufsicht und Audit-Trails sind Plattform-Features, kein Papierkram.
- Mittelstands-Aktion - Die Observability-Schicht im Plattform-Team finanzieren. Die Audit-Story vor Auslieferung des ersten Produktions-Agenten festlegen.
Das Software-3.0-native Operating Model
Die sieben Entscheidungen oben summieren sich zu einem kohärenten Operating Model. Die meisten Mittelstands-IT-Teams haben die meisten Bausteine schon; die Arbeit ist, sie um das LLM-als-Host-Prozess und den Prompt-plus-Kontext-als-neue-Autorenschaftseinheit neu zu kombinieren.
Die fünf Schichten eines Software-3.0-Stacks
- Modell-Schicht - Die Frontier-LLMs, die Sie nutzen, zugegriffen über ein einziges internes Gateway. Multi-Anbieter per Default (OpenAI, Anthropic, Google, Mistral, plus eine souveräne EU-Option) mit Pro-Aufgabe-Routing-Policy. Versioniert und beobachtbar.
- Kontext-Schicht - Das Retrieval, die MCP-Server, Tool-Definitionen, Prompt-Registry und der Memory-Store, die das Modell mit den richtigen Inputs zur richtigen Zeit versorgen. Hier lebt der meiste Mittelstands-spezifische Wert.
- Agent-Runtime - Die Orchestrierungsschicht, die Multi-Step-Agenten ausführt, Retries handhabt, Guardrails durchsetzt, in den Observability-Store loggt und mit Human-in-the-Loop-Checkpoints integriert.
- Evaluations-Schicht - Eingefrorene Eval-Sets, LLM-Judge-Harnesses, Sampling-Tools, Drift-Erkennung, Regressions-Dashboards. Die nächste Analogie zu einer CI/CD-Test-Suite für nicht-deterministische Systeme.
- Governance-Schicht - Trust-Map, KI-Kompetenz-Schulungen, Audit-Logging, EU-KI-VO-Mapping, Betriebsrats-Abstimmung, BSI-Überlegungen. Keine separate Funktion - eine horizontale Schicht, die in alle vier oben hineingeschnitten ist.
Das Team, das es betreibt
Drei neue Rollen reichen zum Start, keine davon senior zu bestehenden. Ein 200-Personen-Mittelständler kann mit insgesamt 1,5 bis 2 FTE beginnen.
- Plattform-Engineer (Agenten-Stack) - Eigentümer des LLM-Gateways, der Agent-Runtime, der MCP-Server und der Eval-Infrastruktur. Senior-Engineer mit starkem Produkt-Sinn.
- Spec-Lead - Senior-Person aus Produkt, Operations oder Strategie, die mit Domain-Experten an Agenten-Specs arbeitet. Nicht zwingend Engineer; muss strukturierter Schreiber sein.
- Evaluator - Baut Eval-Sets, besitzt das LLM-Judge-Harness, sampled Produktionsverkehr, hebt Regressionen aus. Oft ein QA-Engineer oder Analyst, in die Rolle rotiert.
Stärken des Software-3.0-Operating-Models
- 10x schnellere Iteration auf interne Tools und Agenten
- Domain-Experten können direkt lauffähige Software ausliefern
- Multi-Anbieter-Modell-Strategie überlebt Preisrutsche
- Compliance ist auf Plattform-Schicht verdrahtet
- Kompoundierende Datenqualitäts-Investitionen zahlen über alle Agenten
Wo es schwerer ist als es aussieht
- Evaluation ist die versteckte Mehrheit der Arbeit
- Spec-Design ist permanente Fähigkeit, kein Projekt
- Bestehende IT-Prozesse setzen deterministische Systeme voraus
- Trust-Map braucht laufende Rekalibrierung mit Modell-Updates
- Vendor-Lock-in-Risiko ist real, wenn Sie das Gateway-Muster überspringen
Ein 12-Monats-Fahrplan für den Mittelstand
Die Arbeit teilt sich natürlich in vier 90-Tage-Phasen. Die Gesamtinvestition für eine 200-Personen-Firma landet typischerweise bei 150.000 bis 400.000 Euro über das Jahr, mit dem ersten messbaren Produktions-Return zwischen Monat 6 und 9.
Tage 0-90: Plattform-Fundamente und ein Produktions-Agent
- LLM-Gateway aufsetzen - Ein interner Endpoint vor zwei oder mehr Modell-Anbietern. Logging, Rate-Limits, Kosten-Zuordnung. Zwei Engineering-Wochen.
- Erste MCP-Server veröffentlichen - SAP read-only, SharePoint read-only, Kunden-Stammdaten read-only. Drei Engineering-Wochen.
- Ersten Produktions-Agenten wählen - Hohes Volumen, mittlere Konsequenz, gut umgrenzt. Ersatzteil-E-Mail-Triage, Lieferanten-Onboarding-Eingang, interner IT-Helpdesk sind häufige Startpunkte.
- Eval-Harness bauen - 50 eingefrorene Beispiele, eine LLM-Judge-Rubrik, eine Sampling-Pipeline. Zwei Engineering-Wochen.
- Erste KI-Kompetenz-Schulung - Artikel-4-Baseline für alle Mitarbeitenden, tieferes Modul für Citizen Developer und Plattform-Team. Zwei Tage Beratung plus interner Rollout.
Tage 91-180: Drei weitere Agenten und die Trust-Map
- Drei weitere Produktions-Agenten ausliefern - Aus den 5 häufigsten Mittelstands-Mustern wählen: Kundenservice-Deflection, Sales-Lead-Anreicherung, interne Wissenssuche, Vertragsprüfung, Dokumentenextraktion.
- Trust-Map veröffentlichen - Erste Version mit Geschäftsführer, Compliance und Betriebsrat reviewt. In die Agent-Runtime verdrahtet.
- Prompt-und-Kontext-Registry aufsetzen - Versions-Control für System-Prompts, Tool-Definitionen und Beispiel-Sets. Code-Review-Prozess für Produktionsänderungen.
- Ersten Spec-Writing-Workshop - Top-30 Senior-Köpfe in der Firma, 2 Tage, echte lauffähige Agenten am Ende.
Tage 181-270: Vibe-Coding-Spur und SaaS-Audit
- Citizen-Development-Sandbox aufsetzen - Quality-gegatete Spur für vibe-gecodete interne Tools. Mit dem bestehenden Vibe-Coding-Playbook aus dem Superkind-Blog paaren.
- SaaS-Absorptions-Audit durchführen - Jeden SaaS-Vertrag gegen die Absorptions-Risiko-Tabelle mappen. Die Verlängerungen für dünne LLM-Wrapper kündigen oder konsolidieren.
- Evaluation verschärfen - Eval-Sets erweitern, Regressions-Dashboards hinzufügen, Drift-Erkennung auf Produktionsverkehr.
- Hiring-Loop erneuern - Puzzle streichen, Agenten-Orchestrierungs-Übung hinzufügen. Auf die nächsten zwei offenen IT-Rollen ausrollen.
Tage 271-365: Skalieren und institutionalisieren
- Die nächsten 5 bis 10 Produktions-Agenten ausliefern - Jetzt überwiegend von den Spec-Leads in den Fachbereichen gebaut, mit Plattform-Unterstützung.
- Quartalsweise Governance-Berichte veröffentlichen - An Geschäftsführer, Compliance und Betriebsrat. Trust-Map-Updates, Eval-Ergebnisse, Vorfalls-Review.
- Zweite Schulungswelle - Tiefere Artikel-4-Module, Spec-Design-Kliniken, Modell-Update-Briefings.
- Jahres-2-Roadmap planen - Die Basis-Plattform existiert. Jahr 2 ist Tiefe: domänen-spezifische RL-Fine-Tunes, multimodale Use Cases, souveräne Modell-Optionen und der agent-native Rebuild der höchstvolumigen internen Tools.
12-Monats-Mindest-Software-3.0-Stack
- LLM-Gateway mit 2+ Anbietern und Pro-Aufgabe-Routing
- 3+ MCP-Server, die kerninterne Daten read-only exponieren
- Agent-Runtime mit Logging, Retries und HITL-Hooks
- Eingefrorenes Eval-Harness und LLM-Judge-Rubrik
- Prompt-und-Kontext-Registry unter Versions-Control
- Quartalsweise reviewte Trust-Map
- 5 bis 10 Produktions-Agenten mit dokumentiertem ROI
- Citizen-Development-Sandbox mit Quality-Gate
- EU-KI-VO-Artikel-4-Schulung an alle Mitarbeitenden ausgerollt
- Quartalsweiser Governance-Bericht an Geschäftsführer + Betriebsrat
EU-KI-VO, DSGVO und der Betriebsrat
Software 3.0 bekommt keinen regulatorischen Freipass. Die gute Nachricht ist, dass die Pflichten meist dieselben sind, mit denen jeder Mittelständler ohnehin für KI insgesamt ringt - sie müssen nur in das neue Operating Model verdrahtet werden, statt später daraufgeschraubt.
EU-KI-Verordnung
- Artikel 4 (KI-Kompetenz) - Jeder Arbeitgeber muss angemessene KI-Kompetenz für alle Nutzer und Steuerer von KI-Tools sicherstellen25. In einer Software-3.0-Welt umfasst das Citizen Developer, Spec-Leads, Agenten-Operatoren und den Geschäftsführer. Die Kompetenz-Arbeit ist nicht optional und nicht delegierbar.
- Risiko-Klassifizierung - Die meisten Software-3.0-internen Tools sind begrenztes Risiko oder minimales Risiko. Die Klassifizierung hängt davon ab, was das Tool tut, nicht wie es gebaut wurde. Ein vibe-gecodetes HR-Scoring-Tool ist Hochrisiko; ein vibe-gecodetes Dashboard nicht.
- Artikel 14 (menschliche Aufsicht) - Hochrisiko-Systeme erfordern designte menschliche Aufsicht. Die Trust-Map und die HITL-Hooks in der Agent-Runtime sind, wie das in Software 3.0 implementiert wird.
- Implementierungs-Timeline - Der Großteil der Hochrisiko-Pflichten gilt ab August 2026, mit allgemeinen KI-Pflichten bereits in Kraft26. Agenten, die Hochrisiko-Entscheidungen berühren, entsprechend planen.
DSGVO
- Rechtsgrundlage gilt weiter pro Verarbeitung - Dass ein LLM beteiligt ist, ändert die DSGVO-Analyse von verarbeiteten Daten, Zweck und Rechtsgrundlage nicht.
- Datenresidenz zählt für souveräne Deployments - Die Mittelstands-Präferenz für EU-Datenresidenz wird vom Multi-Anbieter-Gateway-Muster gut bedient. Sensible Workloads zu EU-gehosteten Modellen routen, US-Anbieter für nicht-sensible Aufgaben behalten.
- Logging ist jetzt reicher - Der reichere Audit-Trail von Software 3.0 (jeder Prompt, Kontext und Output) ist ein DSGVO-Feature, kein Bug. Logs so strukturieren, dass sie Löschung, Export und Auskunftsanfragen unterstützen.
- Auftragsverarbeitung (AVV) pro Anbieter - Jeder Modell-Anbieter, durch den Sie routen, braucht seinen eigenen AVV. Die Liste kurz halten und reviewen.
Betriebsrat
- Software 3.0 als Produktivitäts-Programm rahmen, nicht als Stellenabbau - Der ehrliche Mittelstands-Case ist, dass Software 3.0 eine strukturelle Personallücke schließt, nicht bestehende Rollen ersetzt. Im ersten Gespräch mit dieser Rahmung führen.
- Den Betriebsrat in die Trust-Map mitnehmen - Die Trust-Map ist das eine Artefakt, das die meisten Betriebsrats-Sorgen auf einmal adressiert. Durchgehen, verfeinern, als ständiges Dokument abzeichnen.
- Mitarbeiterdaten-Nutzungen separat ausweisen - Jeder Agent, der HR-, Leistungs- oder Anwesenheitsdaten anfasst, braucht explizite Betriebsrats-Beteiligung. Einen separaten kürzeren Freigabepfad führen.
- KI-Richtlinie veröffentlichen - Ein-Seiten-Dokument zu erlaubten Tools, verbotenen Nutzungen, Monitoring-Umfang und Eskalation. Jährlich erneuern.
Wie Superkind in den Software-3.0-Stack passt
Superkind baut maßgeschneiderte KI-Agenten für den Mittelstand und Konzerne, mit einer Process-First-Philosophie, die zu der Art passt, wie deutsche Operations-Teams tatsächlich arbeiten. Im Software-3.0-Stack besitzen wir typischerweise die Agent-Runtime, das Eval-Harness, die MCP-Integration in SAP, DATEV und SharePoint sowie das Governance-Gerüst um die Agenten, die wir ausliefern.
Was wir in einem Software-3.0-Engagement liefern
- Agent-Runtime in Ihrer Umgebung - In Ihrem Tenant gehostet, mit Ihrem Identity-Provider integriert, mit LLM-Gateway und Observability-Hooks an Ort und Stelle. Keine Black-Box-SaaS.
- MCP-Server für SAP, DATEV, SharePoint und Ihre eigenen Systeme - Read-only per Default, write-enabled pro Agent unter expliziter Policy. Die Integrationsschicht ist, wo der Mittelstands-spezifische Wert lebt.
- Eingefrorene Eval-Sets und LLM-Judge-Harnesses - Um den tatsächlichen Produktionsverkehr des Agenten gebaut, nicht um generische Benchmarks. Die Audit-Story hält BNetzA-Prüfung stand.
- Trust-Map-Design mit Ihrem Team - Workshop-getrieben, mit Compliance und Betriebsrat verfeinert, in die Agent-Runtime als durchgesetzte Policy verdrahtet.
- Spec-Writing-Partnerschaft - Wir paaren mit Ihren Senior-Domain-Experten an den ersten 5 Produktions-Specs, dann übergeben wir die Praxis.
- EU-KI-VO- und DSGVO-Abstimmung - Artikel-4-Kompetenz-Modul, Artikel-14-Aufsichts-Design, Auftragsverarbeitungs-Papier pro Modell-Anbieter.
- Multi-Anbieter-Modell-Strategie - GPT, Claude, Gemini, Mistral plus eine souveräne EU-Option. Routing pro Aufgabe, nicht pro Firma.
- 90-Tage-Produktions-Meilenstein - Erster Produktions-Agent in 90 Tagen live, mit dokumentiertem ROI, Trust-Map und Audit-Trail.
Wann Superkind der richtige Partner ist
- Sie sind ein deutscher Mittelständler mit 50 bis 5.000 Mitarbeitenden
- Ihr IT-Team ist klein und der Backlog strukturell
- Sie brauchen agent-native Integration in SAP, DATEV oder Legacy-ERPs
- Compliance- und Betriebsrats-Abstimmung zählt vom ersten Tag
- Sie wollen Produktions-Agenten in 90 Tagen, nicht einen 12-Monats-Beratungszyklus
Wo Sie eine andere Option vorziehen könnten
- Sie brauchen nur ein Copilot-Rollout - der Microsoft-Inhouse-Kanal reicht
- Ihr Use Case ist ein begrenztes SaaS-Feature, keine Operating-Model-Verschiebung
- Sie haben schon ein 50-köpfiges Inhouse-KI-Team - gehen Sie direkt
- Sie wollen eine Black-Box-SaaS ohne Integration in Ihre Systeme
Entscheidungs-Framework: Sind Sie bereit für Software 3.0?
Ein einfaches Entscheidungs-Framework hilft einem Mittelstands-IT-Leiter und Geschäftsführer, in einer Steering-Sitzung zu einer Ja-oder-Nein-Antwort auf Software 3.0 zu kommen. Sechs Dimensionen, drei ehrliche Antworten je.
| Dimension | Nicht bereit | Bereit zu starten | Bereit zu skalieren |
|---|---|---|---|
| IT-Kapazität vs. Backlog | Kein Backlog | 2-Quartals-Backlog | 1-Jahres+ Backlog |
| Interne Datenqualität | SAP-Stammdaten sind Chaos | In 90 Tagen aufräumbar | Bereits aufgeräumt |
| Spec-Writing-Fähigkeit | Keine Senior-Schreiber | 3-5 starke Schreiber | Spec-Design ist institutionell |
| Compliance-Bereitschaft | Noch keine EU-KI-VO-Arbeit | Artikel-4-Kompetenz gestartet | Audit-Trail und Trust-Map existieren |
| Geschäftsführer-Sponsoring | Sieht KI als IT-Thema | Sponsert ein 12-Monats-Programm | Zählt Agenten bereits in OKRs |
| Budget-Haltung | Kein neues Budget | 150-400 T€ in Jahr 1 | 1 %+ vom Umsatz committet |
Die meisten Mittelständler landen zwischen „bereit zu starten“ und „bereit zu skalieren“ auf den meisten Dimensionen und unterhalb der Linie auf einer oder zwei. Die richtige Antwort ist fast nie zu warten. Die richtige Antwort ist, die Nachzügler-Dimension als Teil der ersten 90 Tage zu fixen, nicht als Voraussetzung.
Häufig gestellte Fragen
Software 3.0 ist die Sichtweise, dass Large Language Models eine neue Art von Computer sind und dass natürliche Sprache der Weg ist, sie zu programmieren. Andrej Karpathy hat das im Juni 2025 an der YC AI Startup School entfaltet: Software 1.0 ist von Menschen geschriebener Code, Software 2.0 sind die Gewichte trainierter neuronaler Netze, Software 3.0 sind Prompts in Englisch, die ein LLM steuern. Alle drei Schichten existieren in modernen Apps nebeneinander. Die strategische Konsequenz für den Mittelstand: Der Engpass für neue interne Software verschiebt sich von Engineering-Kapazität zu Spec-Qualität.
Nein. Es heißt, dass Entwickler weniger Zeit mit Boilerplate verbringen und mehr Zeit mit Spec-Design, Integration, Evaluation und dem Betrieb der Agentenschicht. Gartner sagt voraus, dass 80 Prozent der Engineering-Belegschaft bis 2027 nachschulen müssen. Mittelstands-IT-Teams berichten typischerweise von 30 bis 50 Prozent mehr Kapazität für strategische Arbeit nach der Umstellung, nicht von Personalabbau. Die Rolle verschiebt sich vom Autor zum Director.
Vibe Coding ist eine Consumer-Ausprägung von Software 3.0 - jemand beschreibt eine App und liefert aus, was das Modell produziert, oft ohne den Code zu lesen. Software 3.0 ist die breitere Kategorie. Sie umfasst Vibe Coding für Citizen Developer, Agentic Engineering für Produktionssysteme und das LLM-als-OS-Muster, in dem Geschäftslogik in Prompts und Tools statt in kompiliertem Code lebt. Vibe Coding hebt den Boden; Software 3.0 verändert das Gebäude.
In Software 3.0 ist das LLM die Laufzeit und der Prompt plus der unterstützende Kontext (System-Prompt, abgerufene Daten, Tools, Beispiele, Memory) ist das Programm. Context Engineering, nicht nur Prompt Engineering, ist das neue Handwerk. Gartner hat CIOs Anfang 2026 explizit aufgefordert, die Verschiebung zu Context Engineering zu führen, während Prompt Engineering verblasst. Für den Mittelstand bedeutet das: investieren in saubere interne Daten, MCP-artige strukturierte Kontextlieferung und Tool-Definitionen - nicht nur in bessere Prompt-Formulierungen.
Selektiv ja. Einige Kategorien mit dünner Logik auf einem Modell (einfache OCR, simple Formulargeneratoren, einfache Bildeditoren) werden bereits ersetzt, wenn ein Frontier-Modell den Job in einer einzigen Chat-Sitzung erledigt. Das Muster, das Karpathy beschreibt: Leichtgewichtige Apps verlieren gegen leistungsfähige Modelle. Schwere SaaS, die Workflows, Daten und Integrationen besitzt (SAP, DATEV, Salesforce, ERP), ist auf Jahre sicher. Die Mittelstands-Aktion: Verlängerungen von Dünnlogik-SaaS kritischer prüfen als die von Workflow-SaaS.
Die EU-KI-Verordnung gilt für KI-Systeme nach dem, was sie tun, nicht wie sie gebaut sind. Ein Software-3.0-internes Tool, das Bewerber screent, ist ein Hochrisiko-KI-System, unabhängig davon, ob es vibe-gecodet, agentisch entwickelt oder aus C++ kompiliert wurde. Artikel 4 verpflichtet jeden deutschen Arbeitgeber, angemessene KI-Kompetenz für alle Nutzer und Steuerer von KI-Tools sicherzustellen. Der effizienteste Compliance-Weg ist, KI-Governance vom ersten Tag an in das Software-3.0-Operating-Model zu verdrahten, nicht als Nachrüstung.
Es kommt auf den Schnitt an. Bitkom hat im Februar 2026 berichtet, dass 41 Prozent der deutschen Unternehmen KI aktiv einsetzen, gegenüber 17 Prozent zwei Jahre zuvor, aber Firmen mit über 500 Mitarbeitenden liegen bei über 60 Prozent. KMU holen auf, sind aber nicht auf Augenhöhe. Kombiniert mit dem strukturellen IT-Fachkräftemangel (rund 149.000 unbesetzte IT-Stellen laut Bitkom Akademie) ist die Lücke groß genug, dass Software 3.0 einer der wenigen Hebel ist, der sie innerhalb eines Planungszyklus schließt.
Karpathy verwendet Jagged Intelligence, um die Tatsache zu beschreiben, dass dasselbe LLM eine 100.000-Zeilen-Codebase brillant refactoren und dann einen einfachen Logikfehler machen kann, den ein Fünfjähriger nicht machen würde. Die Leistung spiked auf verifizierbaren Domänen, in denen Reinforcement Learning angewendet wurde (Code, Mathematik), und verschlechtert sich an den Rändern. Für den Mittelstand bedeutet das eine domänenweise Trust-Map, nicht eine einzige Vertrauenseinstellung. Behandeln Sie den Agenten wie einen brillanten Praktikanten mit perfektem API-Gedächtnis und zuverlässig seltsamen blinden Flecken.
Die ersten 12 Monate liegen typischerweise bei 150.000 bis 400.000 Euro all-in. Das deckt LLM-Gateway und Observability ab, ein kleines Plattform-Team (1 bis 2 FTE), die Agent-Runtime, Governance- und Compliance-Arbeit, Schulungen und das Budget, die ersten 5 bis 10 erfolgreichen Prototypen in produktive Tools zu überführen. Tooling-Lizenzen (Cursor, Claude Code, Copilot, Modell-APIs) kommen meist mit 50 bis 120 Euro pro aktivem Nutzer und Monat dazu. Der Payback kommt typischerweise mit dem dritten oder vierten Produktions-Agenten.
Ja, und genau die Integrationsschicht ist der Punkt, an dem der Mittelstand Burggräben schafft. Das Software-3.0-Muster ist, SAP, DATEV, S/4HANA und das AS/400 als Systems of Record zu behalten, ihre Daten und Aktionen über MCP-Server oder gewrappte APIs zu exponieren und das LLM darüber operieren zu lassen. Die meisten Produktions-Agenten im Mittelstand sind 30 Prozent Prompt-Design, 30 Prozent Integrations-Glue und 40 Prozent Governance und Evaluation.
Drei Dinge, von denen keines delegierbar ist. Erstens: erklären, dass Englisch (oder Deutsch) jetzt eine erstklassige Engineering-Schnittstelle ist, und das Plattform-Team entsprechend ausstatten. Zweitens: die Trust-Map setzen, welche Entscheidungen die Agentenschicht autonom treffen darf, welche einen Menschen im Loop brauchen und welche nie KI berühren. Drittens: das Spec-Design-Upskilling für Senior-Köpfe in jeder Abteilung finanzieren, weil Spec-Qualität der neue Engpass ist. Alles andere ist Umsetzung.
Tendenziell zu Generalisten mit starkem Geschmack, Urteilsvermögen und Schreibkompetenz. Das Hiring-Signal, das hält, ist Kandidaten ein echtes Projekt unter Zeitdruck mit vollem Agentenzugriff bauen zu lassen und die Designentscheidungen zu verteidigen. Whiteboard-Puzzle sind heute ein schlechter Proxy. Die meisten Mittelständler müssen nur zwei oder drei Rollen refactoren, um zu starten: einen Plattform-Engineer für die Agent-Runtime, einen Senior Product Engineer, der Spec-Design führt, und einen Evaluator, der die Test-Umgebungen baut.
Meistens das Gegenteil. Die 25 Jahre alte SAP-Investition, die tiefe DATEV-Integration, das aufgeräumte SharePoint - all das wird zum Substrat, das die Agentenschicht nährt. Software 3.0 lässt den Wert sauberer, zugänglicher interner Daten und gut definierter APIs stark steigen, weil sie nun nicht nur von Menschen, sondern auch von Agenten konsumierbar sind. Was an Wert verliert, sind maßgeschneiderte CRUD-Apps, die eine Datenbank in eine Oberfläche gewickelt haben - dieses Muster ist heute Stunden Vibe Coding.
Verwandte Artikel
- Vibe Coding im Mittelstand: Wenn die Fachabteilung plötzlich Software baut
- Der 12-Monats-KI-Fahrplan für den Mittelstand
- Welches LLM passt zum Mittelstand? GPT, Claude, Gemini und Mistral im Vergleich
- KI-Agenten vs. Microsoft Copilot: Wann sich die Eigenentwicklung im Mittelstand wirklich lohnt
- Human-in-the-Loop: Vertrauen in KI-Agenten aufbauen
- Souveräne KI für den Mittelstand: Warum EU-Datenresidenz 2026 zum Wettbewerbsvorteil wird
- EU-KI-Verordnung 2026: Was der Mittelstand vor August wissen muss
- KI-Kompetenz im Mittelstand: Wie Sie Artikel 4 der EU-KI-VO praktisch umsetzen
Quellen
- Andrej Karpathy - Software Is Changing (Again), YC AI Startup School (Juni 2025)
- Andrej Karpathy auf X - LLMs sind eine neue Art von Computer, und Sie programmieren sie in Englisch (Juni 2025)
- Andrej Karpathy - Software 2.0 (Originalbeitrag)
- Latent Space - Andrej Karpathy on Software 3.0: Software in the Age of AI
- The New Stack - Vibe Coding Is Passé. Karpathy Has a New Name for the Future of Software
- Analytics Drift - Karpathy Declares Vibe Coding Obsolete, Introduces Agentic Engineering at Sequoia AI Ascent 2026
- Hugging Face Blog - What is Software 3.0? (Spoiler: You Are Already Using It)
- Bitkom - Künstliche Intelligenz in Deutschland Studienbericht 2026
- Bitkom Presse - Bitkom KI-Studie 2026: 41 Prozent der Unternehmen nutzen KI aktiv
- Bitkom Akademie - Rekord-Fachkräftemangel: 149.000 IT-Jobs unbesetzt in Deutschland
- Gartner - Top Strategic Technology Trends for 2026
- Gartner - Top Predictions for IT Organizations and Users in 2026 and Beyond
- Gartner - Lead the Shift to Context Engineering as Prompt Engineering Fades
- Gartner - 40% of Enterprise Apps Will Feature Task-Specific AI Agents by 2026
- Gartner - Generative AI Will Require 80% of Engineering Workforce to Upskill Through 2027
- McKinsey - The State of AI 2025: How Organizations Are Rewiring to Capture Value
- McKinsey - The State of Organizations 2026
- McKinsey - AI Productivity Gains and the Performance Paradox
- IBM Think - What is Context Engineering
- Anthropic - Model Context Protocol (MCP) Spezifikation
- IW Köln - Stellenrückgang in IT-Berufen 2026
- DIHK - Skilled Labour Report 2025/2026
- OECD Economic Surveys: Germany 2025
- ifo Institut - Fachkräftemangel in Deutschland
- EU-KI-Verordnung - Artikel 4: KI-Kompetenz
- EU-KI-Verordnung - Implementierungs-Timeline
- IMD - 2026 AI Trends: What Leaders Need to Know to Stay Competitive
- Foundation Capital - Where AI Is Headed in 2026
- Optimum Partners - Engineering Management 2026: Structuring an AI-Native Team
Bereit, Englisch zu einer erstklassigen Engineering-Schnittstelle in Ihrer IT zu machen?
Wir helfen Mittelstands-IT-Teams, das Software-3.0-Operating-Model zu designen und die ersten Produktions-Agenten in 90 Tagen auszuliefern. Sprechen Sie mit Henri darüber, wie Ihr Stack aussehen würde.
Demo buchen →
