Zurück zum Blog

Multi-Agent-Workflows im Mittelstand: Wann mehrere Agenten besser sind als ein großer - und wann definitiv nicht

Henri Jung, Co-Founder bei Superkind
Henri Jung

Co-Founder bei Superkind

CNC-Werkzeugrevolver mit mehreren Spezial-Werkzeughaltern um eine zentrale Spindel - das Orchestrator-Worker-Muster physisch dargestellt

Jeder IT-Verantwortliche im Mittelstand hat dieses Gespräch in den letzten sechs Monaten geführt. Ein Anbieter zeigt ein Multi-Agent-System. Fünf Agenten. Jeder mit eigener Persönlichkeit. Sie diskutieren. Sie reichen Aufgaben weiter. Sie produzieren ein Recherche-Briefing, für das ein Junior-Berater zwei Tage gebraucht hätte. Alle im Raum sind beeindruckt. Alle sind auch leise unsicher: Sollten wir das bauen? Und falls ja, wo?

Multi-Agent ist gerade das am stärksten gehypte Architektur-Muster in der Enterprise-KI - und eines der teuersten, wenn man es falsch macht. Anthropic, das Unternehmen, das das Orchestrator-Worker-Muster maßgeblich geprägt hat, schreibt ausdrücklich, dass Multi-Agent-Systeme das 15-Fache an Token von Chat-Interaktionen verbrauchen1. Unabhängige akademische Forschung zeigt, dass Multi-Agent-Setups auf Benchmarks 97 Prozent Erfolg erreichen, während vergleichbare Single-Agent-Setups bei 99,5 Prozent liegen4. Cornell-Forschung wiederum zeigt, dass Multi-Agent Single-Agent bei komplexer Planung um den Faktor 15 schlägt - und Google-Forschung das genaue Gegenteil bei sequenziellen Aufgaben20.

Die ehrliche Antwort für die meisten Mittelständler: In 80 Prozent Ihrer Workflows gewinnt ein gut entworfener einzelner Agent. In 20 Prozent ist Multi-Agent wirklich besser - und diese 20 Prozent lohnen sich ernsthaft. Dieser Leitfaden ist die Architektur, die Kostenrechnung, der Framework-Vergleich und der 90-Tage-Plan, mit denen Sie das richtige Muster für den richtigen Workflow wählen.

TL;DR

Multi-Agent ist real, nützlich und gehypt - 80 Prozent der Mittelstands-Workflows fahren mit einem gut gemachten Einzelagenten besser.

Token-Kosten multiplizieren sich - Anthropic berichtet 15-fachen Token-Verbrauch von Multi-Agent vs. Chat. Praxis-Multiplikatoren liegen bei 2- bis 5-fach für typische Setups.

Der richtige Test ist Parallelisierung, Trennbarkeit, Wert - wirklich unabhängige Teilaufgaben, saubere Übergaben und ein Auftrag, der den Mehraufwand wirtschaftlich trägt.

Sechs Architektur-Muster zählen - Prompt Chaining, Routing, Parallelisierung, Orchestrator-Worker, Evaluator-Optimiser, Human-in-the-Loop. Multi-Agent ist ein Werkzeug unter vielen.

Wählen Sie ein Framework und bleiben Sie dabei - LangGraph für stateful, audit-heavy-Workflows, CrewAI für schnelles rollenbasiertes Deployment, AutoGen für asynchron-konversationelle Muster, OpenAI Agents SDK für OpenAI-Stacks.

Produktion braucht Eval-Harness, Observability und Human-in-the-Loop-Checkpoints - ohne diese Bausteine ist das Debugging exponentiell schwerer als bei Single-Agent.

Die Multi-Agent-Welle ist im Mittelstand angekommen

Die Verschiebung läuft schnell und meist ungesteuert. Die meisten Mittelstands-IT-Teams haben Multi-Agent durch einen Anbieter-Pitch, einen LinkedIn-Beitrag oder einen internen Hackathon entdeckt - nicht durch eine bewusste Architektur-Entscheidung. So sieht die Faktenlage aus.

  • Anthropics eigenes Multi-Agent-Recherche-System hat Single-Agent Claude Opus 4 in internen Evaluierungen um 90,2 Prozent geschlagen - das Orchestrator-Worker-Muster mit Opus als Lead und Sonnet als Subagenten reduzierte die Recherchezeit für komplexe Anfragen um bis zu 90 Prozent1.
  • Derselbe Anthropic-Beitrag schreibt jedoch klar, dass Multi-Agent das 15-Fache der Token von Chat-Interaktionen kostet - und sich nur lohnt, wenn der Wert der Aufgabe hoch genug ist1.
  • Unabhängige Reliability-Daten zeigen den Trade-off - Single-Agent erreicht 99,5 Prozent Erfolg auf komplexen Benchmark-Aufgaben, vergleichbare Multi-Agent-Implementierungen fallen wegen Koordinationsfehlern auf 97 Prozent4.
  • Cornell-Forschung zur Planung zeigt koordinierte Multi-Agent-Systeme mit 42,68 Prozent Erfolg bei Aufgaben, bei denen ein Single-GPT-4-Setup nur auf 2,92 Prozent kam - ein fast 15-facher Vorsprung beim richtigen Aufgabentyp20.
  • Google-Forschung zeigt das Gegenteil bei sequenziellem Reasoning - Multi-Agent-Performance bricht bei Aufgaben, die strenge sequenzielle Logik verlangen, um 39 bis 70 Prozent gegenüber Single-Agent ein14.
  • Produktions-Kostenrealität - der Aufbau einer voll autonomen Multi-Agent-Plattform mit Memory, Tool-Use, Orchestrierung, Human-in-the-Loop-Guardrails und Compliance-Kontrollen kostet 150.000 bis 1,5 Millionen US-Dollar plus, mit monatlichen Betriebskosten von 3.200 bis 13.000 US-Dollar bei mittlerer Last11.
  • Engineering-Aufwand 3- bis 5-fach gegenüber vergleichbaren Single-Agent-Systemen wegen State-Management, Fehlerbehandlung und Observability-Komplexität15.
  • Frameworks haben sich auf vier Gewinner konsolidiert - LangGraph, CrewAI, AutoGen und OpenAI Agents SDK decken jetzt die meisten Produktions-Deployments ab9.

Wichtigster Datenpunkt

Die Asymmetrie ist hart. Wo Multi-Agent passt, kann es Single-Agent um 10x bis 90x übertreffen. Wo es nicht passt, schlägt es 2- bis 15-fach mit Kosten, 3- bis 5-fach mit Engineering-Aufwand und einer nicht-linearen Debugging-Steuer auf. Das falsche Muster zu wählen, ist 2026 einer der teuersten KI-Architekturfehler im Mittelstand.

KennzahlRealität 2026Quelle
Anthropic Multi-Agent vs. Single-Agent (Recherche)+90,2% PerformanceAnthropic1
Token-Kosten-Multiplikator vs. Chat15x für Multi-AgentAnthropic1
Single-Agent vs. Multi-Agent Erfolg auf Benchmarks99,5% vs. 97%Maxim AI11
Cornell Multi-Agent vs. Single-Agent Planung42,68% vs. 2,92%Cornell20
Google: Multi-Agent bei sequenziellen Aufgaben-39% bis -70%Google Research14
Produktions-AufbaukostenUSD 150k bis 1,5m+Multi-Agent-Produktionsanalyse11
Engineering-Aufwand vs. Single-Agent3- bis 5-fachCodebridge15

“Start with simple prompts, optimize them with comprehensive evaluation, and add multi-step agentic systems only when simpler solutions fall short.”

- Anthropic, Building Effective Agents (offizielle Engineering-Empfehlung)2

Was Multi-Agent wirklich heißt (und was nicht)

Der Begriff ist überfrachtet. Anbieter nennen fast alles mit zwei LLM-Calls ein Multi-Agent-System. Mittelstands-IT-Verantwortliche brauchen sauberere Definitionen vor jeder Architekturentscheidung.

Drei Dinge, die oft Multi-Agent genannt werden, aber keines sind

  • Ein Workflow mit mehreren LLM-Schritten - Eine Pipeline, die ein LLM dreimal in fester Reihenfolge aufruft, ist Prompt Chaining, kein Multi-Agent. Es gibt keinen Agenten, der autonom entscheidet, wer als Nächstes dran ist.
  • Ein LLM mit mehreren Tools - Ein einzelner Agent, der CRM, ERP und einen Kalender-API aufrufen kann, ist immer noch ein Agent. Tool-Use macht noch kein Multi-Agent-System.
  • Mehrere Kopien desselben Agenten - Denselben Agenten fünfmal parallel laufen zu lassen und Outputs zu aggregieren, ist Parallelisierung. Nützlich, aber kein Multi-Agent im architektonischen Sinn.

Was Multi-Agent wirklich heißt

Ein Multi-Agent-System hat mindestens zwei verschiedene Agenten - also Agenten mit unterschiedlichen Rollen, Prompts, Tool-Sets oder Modellen - die sich abstimmen, um ein Ergebnis zu liefern. Die Koordinationslogik selbst ist dynamisch: Agenten entscheiden auf Basis von Zwischenergebnissen, was als Nächstes kommt - nicht aufgrund einer fest verdrahteten Sequenz.

  • Unterschiedliche Rollen - Ein Planer-Agent und ein Ausführer-Agent haben unterschiedliche Aufgaben. Ein Drafter und ein Reviewer ebenso. Zwei austauschbare Kopien nicht.
  • Koordinationsprotokoll - Ein expliziter Mechanismus für Übergaben: Tool-basierte Delegation, ein Orchestrator als Dispatcher, ein eventgetriebener Message-Bus, ein Graph mit konditionalen Kanten.
  • Geteilter oder gescopter State - Eine Möglichkeit für Agenten, Kontext zu teilen - via Shared Memory, Message Passing oder explizite Handoff-Payloads.
  • Autonome Entscheidungen über den Fluss - Ein Agent entscheidet „das geht jetzt zum Rechtsexperten“ statt einer festen if-else.
ArchitekturMulti-Agent?Warum
Einzelner LLM-CallNeinEin Schritt, keine Koordination
Single-Agent mit ToolsNeinEin Agent, mehrere Fähigkeiten
Feste Prompt-Kette (3-5 Calls)GrenzwertigHartkodierte Sequenz, keine Agent-Entscheidungen
Router, der einen Agenten wähltJa (leicht)Dynamische rollenbasierte Entscheidung
Orchestrator mit SubagentenJaLead delegiert und synthetisiert
Debate oder Evaluator-OptimiserJaVerschiedene Rollen iterieren
Autonomer Agent-SchwarmJa (schwer)Viele Rollen, dynamischer Fluss

Wann Multi-Agent wirklich gewinnt

Drei Muster wiederholen sich in Mittelstands-Deployments, wo Multi-Agent die richtige Antwort ist. Wenn Ihr Workflow zu keinem davon sauber passt, liegt die Beweislast bei Multi-Agent.

Muster A: Wirklich parallelisierbare Recherche

Der Anthropic-Use-Case. Die Aufgabe verlangt 5 bis 20 gleichzeitige Blickwinkel, und niemand würde ernsthaft einen Agenten sequenziell durcharbeiten lassen.

  • Marktscans - Ein Subagent pro Wettbewerber, einer pro Region, einer pro Regulierungsregime. Synthese durch einen Lead-Agenten.
  • Lieferantenprüfung - Subagenten kümmern sich um Bonität, Sanktions-Screening, ESG-Signale, technische Referenzen, parallel.
  • Rechtliche Due Diligence - Subagenten lesen unterschiedliche Dokument-Kategorien (NDAs, MSAs, IP) parallel.
  • Customer Intelligence Briefs - Subagenten decken Unternehmensmeldungen, Nachrichten, Social Signals, interne CRM-Historie und Produktnutzung ab.
  • Patent-Landschaftsanalyse - Subagenten durchsuchen Patentdatenbanken pro Gerichtsbarkeit.

Muster B: Strenge Trennung der Verantwortlichkeiten mit Quality Gates

Wenn der Workflow saubere Übergaben hat und jede Phase einen anderen Spezialisten verlangt.

  • Entwurf zu Review zu Compliance zu Veröffentlichung - Marketingtext durchläuft Drafter, Tonality-Reviewer, Rechts-Compliance, Final-Publish. Jeder Agent mit eigenen Prompts, eigenen Bewertungskriterien, oft eigenen Modellen.
  • Mehrstufige Angebotserstellung - Ein Agent extrahiert Anforderungen, einer entwirft die Lösung, einer baut den Business Case, einer styled.
  • RFP-Antwort - Triage-Agent klassifiziert und routet. Spezialisten-Agenten erstellen Sektionen. Reviewer-Agent setzt zusammen und prüft Konsistenz.
  • Audit-Befunde abarbeiten - Ein Agent klassifiziert Befunde, einer entwirft Maßnahmenpläne pro Kategorie, einer trackt Status gegen Fristen.

Muster C: Experten-Routing mit Domain-Spezialisten

Wenn die Anfragenmischung wirklich heterogen ist und das Routing zum richtigen Spezialisten den Wert ausmacht.

  • Interner Helpdesk - Router klassifiziert Intent, dann spezialisierte SAP-, HR-, IT-Zugriff- oder Facility-Agenten.
  • Kundenservice über mehrere Produktlinien - Ein Agent pro Produktlinie mit tiefem Produktkontext, Router davor.
  • Multi-Jurisdiktions-Compliance-Q&A - Länderspezifische Spezialisten mit dem richtigen regulatorischen Kontext.
  • Field-Service-Triage - Router klassifiziert Symptome, schickt an Diagnostik-Spezialisten je Maschinenfamilie.

Der Lackmustest

Wenn Sie das Multi-Agent-System gegen einen einzelnen Agenten mit denselben Tools tauschen können und weniger als 30 Prozent Wert verlieren, ist die Multi-Agent-Variante übertrieben. Wenn der Tausch den Workflow zerlegt oder den Wert um über 50 Prozent senkt, ist Multi-Agent gerechtfertigt. Die meisten Mittelstands-Workflows fallen beim ersten Test schlecht aus.

Wann ein einzelner Agent Multi-Agent klar schlägt

Die meisten Mittelstands-Workflows fallen in diese Kategorie. Die Signale unten sind klare Hinweise auf Single-Agent. Bewahren Sie das Multi-Agent-Budget für die Workflows auf, die es wirklich brauchen.

  • Strenges sequenzielles Reasoning - Aufgaben, in denen jeder Schritt eng vom vorherigen abhängt. Google-Forschung zeigt hier 39 bis 70 Prozent Multi-Agent-Performance-Verlust gegenüber Single-Agent14.
  • Hochgradig voneinander abhängige Entscheidungen - Wenn Agenten ständig vollen Kontext teilen müssten, kostet die Übergabe mehr als die Arbeit.
  • Latenzempfindliche interaktive Nutzung - Kunden-Chat, Voice-Agenten, Echtzeit-Entscheidungssupport. Jede Übergabe bringt 100 bis 500 ms; Nutzer merken das.
  • Einfache Lookup- oder CRUD-Workflows - „Wie ist der Bestellstatus von Kunde X?“ braucht keine drei Agenten.
  • Single-Domain-Q&A - Ein Kontextfenster, ein Spezialmodell, eine Retrieval-Schicht ist schneller, billiger und zuverlässiger.
  • Workflows mit Wert pro Aufgabe unter 5 Euro - Token-Overhead zerlegt die Stückkosten-Rechnung. Multi-Agent für hochwertige Aufgaben aufheben.
  • Workflows mit strikten Konsistenzanforderungen - Finanzberichte, Steuermeldungen, alles, wo derselbe Input immer denselben Output liefern muss. Multi-Agent-Varianz tötet Determinismus.
  • Workflows mit Legacy-Writeback - SAP, DATEV, ERP-Writebacks brauchen üblicherweise Atomarität, Transaktionen und klare Verantwortung. Multi-Agent-Verantwortung ist diffus.

“Some domains that require all agents to share the same context or involve many dependencies between agents are not a good fit.”

- Anthropic Engineering, zur Multi-Agent-System-Auslegung1

Single-Agent vs. Multi-Agent: Wann was wählen

Single-Agent gewinnt

  • Sequenzielles Reasoning mit enger Schritt-zu-Schritt-Abhängigkeit
  • Latenzempfindliche UX wie Chat, Voice, Echtzeit
  • Kostenempfindliche Workloads bei hohem Volumen, niedrigem Wert pro Aufgabe
  • Single-Domain-Q&A mit einem Kontext, einer Spezialisierung
  • Strenge Konsistenz auf identischen Inputs
  • Legacy-ERP-Writeback mit Atomarität und Verantwortung

Multi-Agent gewinnt

  • Wirklich parallelisierbare Recherche und Analyse
  • Strenge Trennung mit Quality Gates
  • Experten-Routing bei heterogenen Anfragen
  • Hochwertige Aufgaben mit über 50 Euro pro Ausführung
  • Asynchrone Batch-Workflows, in denen Latenz nicht nutzerseitig ist
  • Informationen, die das Single-Context-Limit überschreiten

Unsicher, ob Multi-Agent zu Ihrem Workflow passt?

Wir entwerfen, prototypen und benchmarken Single- vs. Multi-Agent für Mittelstands-Workflows in einem 2-wöchigen Scoping-Sprint.

Demo buchen →

Die sechs Architekturmuster, die Sie kennen sollten

Anthropics viel zitierter Leitfaden „Building Effective Agents“2 definiert eine saubere Taxonomie. Die sechs Muster unten decken praktisch jede produktive Multi-Agent-Architektur ab. Wählen Sie das einfachste, das Ihr Problem löst.

Muster 1: Prompt Chaining (sequenziell)

Mehrere LLM-Calls in fester Reihenfolge, jeder konsumiert den vorherigen Output. Formal oft kein Multi-Agent, aber eine nützliche Baseline.

  • Geeignet wenn - Die Aufgabe zerfällt in saubere Phasen, jede profitiert von einem fokussierten Prompt und ggf. einem anderen Modell.
  • Beispiel - Extrahieren → Klassifizieren → Zusammenfassen → Formatieren.
  • Kostenprofil - Etwa N-fach eines Einzelaufrufs, N = Kettenlänge. Vorhersagbar.
  • Fehlermuster - Fehler kumulieren; spätere Stufen können frühere nicht heilen.

Muster 2: Routing

Ein Klassifizierer leitet den Input an einen von mehreren Spezialisten-Agenten.

  • Geeignet wenn - Inputs sind heterogen und ein Generalist ist deutlich schwächer als ein Spezialist.
  • Beispiel - Kundenmail an Billing, Produkt oder Eskalation triagiert.
  • Kostenprofil - 1 Router-Call + 1 Spezialisten-Call. Günstig.
  • Fehlermuster - Falsches Routing kaskadiert. Gegenmaßnahme: Fallback-Pfad und Routing-Confidence-Schwelle.

Muster 3: Parallelisierung

Mehrere Agenten parallel auf denselben oder verwandten Inputs laufen lassen, dann aggregieren.

  • Geeignet wenn - Verschiedene Blickwinkel summieren sich. Voting verbessert Robustheit.
  • Beispiel - Drei unabhängige Agenten reviewen einen Vertrag. Disagreements eskalieren an einen Menschen.
  • Kostenprofil - K-fach eines Einzelaufrufs, K = parallele Anzahl.
  • Fehlermuster - Aggregationsstrategie ist der harte Teil. Naives Mittelwert-Voting schlägt oft Fancy-Synthese.

Muster 4: Orchestrator-Worker

Anthropics Lieblingsmuster. Ein Lead-Agent zerlegt die Aufgabe, dispatcht an Subagenten (oft parallel) und synthetisiert das Ergebnis.

  • Geeignet wenn - Die Aufgabe ist offen, die Zerlegung ist selbst ein hartes Problem, der Wert rechtfertigt die Kosten.
  • Beispiel - Recherche-Briefing, tiefer Marktscan, Multi-Source-Due-Diligence.
  • Kostenprofil - 1 Lead-Orchestrator + N parallele Subagenten + 1 Synthese. Token-intensiv.
  • Fehlermuster - Orchestrator zerlegt schlecht, Subagenten verbrennen Token.

Muster 5: Evaluator-Optimiser

Ein Generator-Agent erstellt einen Entwurf, ein Evaluator-Agent kritisiert, der Generator iteriert. Wiederholen, bis gut genug.

  • Geeignet wenn - Qualität zählt, der Evaluator kann ein anderes (günstigeres oder strengeres) Modell sein, Iteration verbessert messbar.
  • Beispiel - Code-Generierung, Marketingtext, technische Specs.
  • Kostenprofil - 2 Calls pro Iteration. Iterationsanzahl ist die Variable.
  • Fehlermuster - Endlosschleifen, Kostenexplosion. Gegenmaßnahme: harte Iterations-Cap.

Muster 6: Human-in-the-Loop-Checkpoint

Streng genommen kein Multi-Agent, aber das häufigste Produktionsmuster. Ein Agent erledigt die Arbeit, übergibt Schlüssel-Entscheidungen an einen Menschen und macht weiter.

  • Geeignet wenn - Einsatz hoch, EU-KI-VO Artikel 14 Aufsicht greift oder der Workflow regulierte Entscheidungen berührt.
  • Beispiel - Lieferantenvertrag-Review, Lohnabrechnungs-Ausnahmen, Kunden-Eskalationen.
  • Kostenprofil - Wie Single-Agent + Mensch-Zeit an den Checkpoints.
  • Fehlermuster - Menschen werden zum Stempel-Reviewer. Gegenmaßnahme: Checkpoint-Design variieren, Sample-Audits.
MusterGeeignet fürKostenformÜbliches Framework
Prompt ChainingSaubere Stufen-PipelinesN x BasisaufrufLangChain, raw SDK
RoutingHeterogene Inputs~2 x BasisaufrufOpenAI Agents SDK, LangGraph
ParallelisierungVoting, Multi-AngleK x BasisaufrufLangGraph, AutoGen
Orchestrator-WorkerOffene Recherche10-20 x BasisaufrufLangGraph, AutoGen, CrewAI
Evaluator-OptimiserQualitätskritische Drafts2 x IterationenLangGraph, AutoGen
Human-in-the-LoopRegulierte EntscheidungenBasis + Mensch-ZeitLangGraph, OpenAI Agents SDK
Drei ineinandergreifende Präzisions-Zahnräder, eines mit Orange umringt - die Koordinationsform gut entworfener Multi-Agent-Systeme

Sieben Fehlermuster, mit denen jedes Mittelstands-Team rechnen muss

Die akademische Übersicht zu Multi-Agent-Fehlern aus 20254 hat 14 Muster katalogisiert. Hier die sieben, die Mittelstands-Teams in den ersten sechs Monaten in Produktion am häufigsten treffen.

Fehler 1: Koordinations-Bruch

Die Agenten erledigen ihren Job einzeln, aber das gemeinsame Ergebnis passt nicht. Subagent A liefert eine Stichpunkt-Zusammenfassung; der Synthese-Agent hatte Fließtext erwartet. Das Orchestrator-Worker-Muster ist besonders anfällig.

  • Symptome - Outputs, die je Agent gut aussehen, aber End-to-End schlecht. Drift in Stil, Format oder Scope.
  • Gegenmaßnahme - Strenge Output-Schemata (JSON / Pydantic / Zod) je Agent. End-to-End-Eval schlägt Per-Agent-Eval.

Fehler 2: Davonlaufende Token-Kosten

Eine Evaluator-Optimiser-Schleife iteriert 47-mal statt zu konvergieren. Ein Orchestrator startet 30 Subagenten, weil er „mehr Abdeckung“ will. Eine Debatte läuft 12 Runden.

  • Symptome - Überraschende Cloud-Rechnung, einzelne Workflow-Läufe kosten 3 bis 15 Euro statt 30 Cent.
  • Gegenmaßnahme - Harte Caps überall (max. Iterationen, max. Subagenten, max. Token je Agent), plus Budget-Alarme je Workflow.

Fehler 3: Latenz-Stapelung

Jede Übergabe bringt 100 bis 500 ms. Sequenzielle 8-Handoff-Workflows landen schnell bei 30 bis 90 Sekunden. Nutzer warten, brechen ab oder verlieren Vertrauen.

  • Symptome - Beschwerden über Langsamkeit, Timeouts in API-Konsumenten, steigende Abbruchquote.
  • Gegenmaßnahme - Wo möglich parallelisieren, Zwischenergebnisse streamen, Multi-Agent für asynchrone oder Batch-Workflows reservieren.

Fehler 4: Fehler-Propagation

Ein Subagent halluziniert, der nächste Agent behandelt die Halluzination als Wahrheit, bis zur Synthese ist der Ursprungsfehler vergraben.

  • Symptome - Selbstbewusst falsche Outputs, post-hoc-„wie ist das passiert“-Untersuchungen über fünf Logs.
  • Gegenmaßnahme - Quellen-Attribution in jedem Schritt, Evaluator-Agent vor Synthese, Stichproben-Mensch-Review.

Fehler 5: Emergente Verhaltensweisen

Agenten beginnen, Dinge zu tun, die niemand designed hat. Sie erfinden Pfade, rufen nicht existierende Tools auf, entwickeln „Vorlieben“. Manchmal nützlich, oft seltsam, gelegentlich gefährlich.

  • Symptome - Verhalten, das in QA überrascht, Prompts, die in Dev anders laufen als in Prod, langsame Drift über die Zeit.
  • Gegenmaßnahme - Eingefrorene Prompts unter Versionskontrolle, deterministische Evals bei jedem Release, Alarmierung bei Output-Form-Änderungen.

Fehler 6: Debugging-Hölle

Ein Issue tritt in Produktion auf. Um es zu reproduzieren, brauchen Sie exakte Prompts, exakte Tool-Resultate, exakte Modell-Temperaturen, exakte Zwischenstände für 5 Agenten. Sie haben Logs für 2.

  • Symptome - Bugs, die Sie nicht reproduzieren können, Fixes, die Sie nicht verifizieren können, Regressionen, die Sie nicht erkennen.
  • Gegenmaßnahme - Vollständige Konversations-Traces mit deterministischen Seeds, Replay-Infrastruktur, Observability-Tools (LangSmith, Phoenix Arize, Logfire, Weave).

Fehler 7: Compliance-Zuordnungs-Lücke

Die EU-KI-VO fragt, wer für die Entscheidung verantwortlich ist. In einem 5-Agent-System mit dynamischem Fluss ist diese Frage tatsächlich schwer zu beantworten. Juristen und Datenschutzbeauftragte merken das.

  • Symptome - DPO verweigert die Freigabe, Betriebsrat hat Bedenken, Audit-Vorprüfung markiert Zuordnungs-Lücken.
  • Gegenmaßnahme - Den Orchestrator als die verantwortliche Komponente designieren, jede Agent-Rolle und jeden Prompt als eigenen Punkt in der technischen Doku, Entscheidungs-Provenienz je Output loggen.

Die ehrliche Kostenrechnung: Was Multi-Agent den Mittelstand wirklich kostet

Die Token-Kosten sind der sichtbare Teil. Die echten Total Cost of Ownership liegen viel höher. Hier die ehrliche Aufschlüsselung für ein typisches Mittelstands-Multi-Agent-Deployment.

Token-Kosten pro Aufgabe

  • Single-Agent-Baseline - 5.000 bis 20.000 Token pro Aufgabe. 0,05 bis 0,30 Euro bei aktuellen Preisen.
  • Multi-Agent typisch (2 bis 4 Agenten) - 30.000 bis 100.000 Token pro Aufgabe. 0,30 bis 1,50 Euro.
  • Multi-Agent Research-Stil (Anthropic-Muster) - 200.000 bis 800.000 Token pro Aufgabe. 2 bis 12 Euro. Anthropic schreibt explizit 15-fach Chat-Token1.

Aufbau-Kosten (Jahr 1)

  • Einfaches Multi-Agent (Routing oder Chaining) - 25.000 bis 60.000 Euro mit Partner.
  • Standard-Orchestrator-Worker - 80.000 bis 200.000 Euro.
  • Produktions-Recherche-System mit voller Eval, Observability, HITL - 150.000 bis 500.000 Euro.
  • Mehrmandanten-Agentic-Plattform mit Memory, Tools, Governance - 500.000 bis 1,5 Millionen Euro plus11.

Betriebs-Kosten (pro Monat, mittlere Last)

  • Token-Spend - 800 bis 5.000 Euro pro Monat für typische Mittelstands-Lasten (5.000 bis 50.000 Aufgaben pro Monat).
  • Observability und Tooling - 400 bis 1.500 Euro (LangSmith, Phoenix, Datadog AI).
  • Hosting und Infra - 500 bis 2.000 Euro (Vercel / Azure / AWS, Vector-DBs, Queues).
  • Betriebs-Support - 0,2 bis 0,5 VZÄ Engineering für Monitoring, Bugfixing, Tuning.
  • Gesamt mittlere Last - 3.200 bis 13.000 Euro pro Monat pro Workflow-Familie11.
Kosten-KomponenteSingle-AgentMulti-AgentVerhältnis
Token pro AufgabeEUR 0,05-0,30EUR 0,30-1,504-5x
Aufbau Jahr 1EUR 30-80kEUR 80-200k2-3x
Engineering-Aufwand1,0x Baseline3-5x3-5x
Latenz p952-5 Sek.15-90 Sek.3-30x
Debug-Zeit pro Issue1-3 Stunden4-20 Stunden4-7x
Monatlicher Betrieb bei 10k AufgabenEUR 800-2.500EUR 3.200-13.0004-5x

Der CFO-Test

Damit Multi-Agent sich rechnet, muss der Wert pro Aufgabe die Kosten pro Aufgabe um mindestens das 10-Fache übersteigen. Ein Multi-Agent-Lieferantenprüfungs-Workflow, der 1,50 Euro Token kostet und 90 Minuten Analystenarbeit (über 60 Euro wert) ersetzt, lohnt sich klar. Ein Multi-Agent-FAQ-Chatbot, der 1,50 Euro pro Frage kostet, um ein 5-Minuten-Support-Ticket zu deflektieren, nicht.

Framework-Vergleich: LangGraph vs. CrewAI vs. AutoGen vs. OpenAI Agents SDK

Die vier Frameworks, die 2025 bis 2026 überlebt haben, decken praktisch jedes produktive Multi-Agent-Deployment ab. Wählen Sie eines, das zu Ihrer Workflow-Form passt, und bleiben Sie dabei. Der häufigste Mittelstands-Fehler ist das Wechseln des Frameworks mitten im Projekt.

LangGraph

  • Sweet Spot - Stateful, audit-heavy-Workflows. Graphbasierte Logik mit explizitem State, Checkpoints, Rollbacks und Human-in-the-Loop.
  • Stärken - Produktionsreif, exzellente Observability via LangSmith, durable Execution, komplexe Graph-Topologien, GitHub-Star-Leader Anfang 20269.
  • Schwächen - Steilere Lernkurve. Verbose für einfache Workflows. LangChain-Ökosystem-Abhängigkeit.
  • Geeignet für - Compliance-Schwerpunkt, regulierte Branchen, langlaufende Workflows, überall wo durabler State zählt.

CrewAI

  • Sweet Spot - Rollenbasierte Agent-Teams für Standard-Geschäftsabläufe.
  • Stärken - Time-to-First-Prototyp etwa 40 Prozent schneller als LangGraph9. Intuitive Rollen-Definitionen. Wachsender Agent-zu-Agent-(A2A)-Protokoll-Support.
  • Schwächen - Bei stateful-Workflows weniger reif. Observability-Story verbessert sich, hinkt aber LangGraph hinterher.
  • Geeignet für - Mittelstands-Teams, die schnell zum Piloten wollen. Marketing, Vertrieb, Ops.

AutoGen (Microsoft)

  • Sweet Spot - Konversationelle, asynchrone, eventgetriebene Multi-Agent-Setups. Starke Debate-Muster.
  • Stärken - .NET-Support (selten und nützlich für Microsoft-Stack-Mittelstand). AutoGen Studio für Low-Code-Prototyping. Echtzeit-Interaktionsmuster.
  • Schwächen - Weniger produktionsreif als LangGraph. Mehrere Framework-Iterationen haben die API umgekrempelt.
  • Geeignet für - Microsoft-Stack-Häuser, Azure-Deploys, konversationelle Research-Stil-Muster.

OpenAI Agents SDK

  • Sweet Spot - OpenAI-zentrierte Stacks, die die sauberste Handoff-Abstraktion wollen.
  • Stärken - Veröffentlicht März 2025, ersetzte den experimentellen Swarm durch ein produktionsfähiges Design9. Sauberes Handoff-Modell, in dem Agenten Kontrolle mit explizitem Kontext übergeben. Gut dokumentiert.
  • Schwächen - Enge OpenAI-Kopplung. Begrenzte Modell-Flexibilität. Weniger reife Observability.
  • Geeignet für - Teams, die bereits auf GPT standardisiert sind. Workflows, die sauber ins Handoff-Modell passen.
WahlWenn SieVermeiden, wenn
LangGraphStateful, audit-heavy-Workflows. Compliance zählt. Beste Observability.Schnellsten Pilot wollen.
CrewAISchnellsten Prototyp wollen. Rollen-Modell passt mental.Workflow tiefes State-Management braucht.
AutoGenMicrosoft / .NET-Stack. Konversationelle Muster. Azure-deployed.Maximale Produktions-Stabilität heute.
OpenAI Agents SDKAuf OpenAI standardisiert. Sauberes Handoff passt.Multi-Modell-Flexibilität nötig.

Der 90-Tage-Multi-Agent-Plan

Der Plan unten ist die kleinste sinnvolle Arbeitseinheit, die einen Mittelständler von keiner Multi-Agent-Fähigkeit zu einem laufenden Produktions-Workflow mit Eval und Observability bringt. Wer ihm folgt, diszipliniert das Team weg vom häufigsten Fehler: zu viel zu schnell auf dem falschen Workflow zu bauen.

Phase 1: Tag 1-30 - Workflow-Auswahl und Single-Agent-Baseline

  1. Kandidaten-Workflows inventarisieren - Ein Workshop mit Operations und IT. Listen Sie 10 bis 20 Workflows, in denen Multi-Agent gepitcht oder erwogen wurde. Bewerten Sie jeden auf Parallelisierung, Trennbarkeit, Experten-Routing, Wert pro Aufgabe, Latenz-Toleranz.
  2. Top 1 bis 2 Workflows auswählen - Niedrigstes Risiko, höchster Wert, klarste Passung zu einem der drei Gewinn-Muster. Den Rest verwerfen.
  3. Single-Agent-Baseline zuerst bauen - Immer. Die Baseline ist Ihr Benchmark und oft die endgültige Antwort. Zwei Wochen, ein Engineer, ein gut entworfener Agent mit den richtigen Tools und Kontext.
  4. Eval-Set definieren - 50 bis 100 reproduzierbare Szenarien mit Erwartungs-Outputs oder Bewertungs-Rubrik. Ohne Eval-Set können Sie nicht messen, ob Multi-Agent wirklich gewinnt.
  5. Ein Framework wählen - LangGraph, CrewAI, AutoGen oder OpenAI Agents SDK. Entscheidung dokumentieren. Wechsel-Versuchung widerstehen.

Phase 2: Tag 31-60 - Multi-Agent-Prototyp und Benchmark

  1. Multi-Agent-Prototyp bauen - Selber Workflow, Multi-Agent-Architektur passend zum richtigen Muster. Zwei Wochen.
  2. Eval laufen lassen - Single-Agent vs. Multi-Agent auf demselben Eval-Set. Qualität, Kosten, Latenz, Debugging-Aufwand messen.
  3. Ehrlicher Decision-Review - Wenn Multi-Agent in Qualität um weniger als 30 Prozent gewinnt und über 2-fach kostet, shippen Sie den Single-Agent. Wenn Multi-Agent um über 50 Prozent gewinnt oder Fähigkeiten freischaltet, die Single-Agent nicht hat, weiter.
  4. Observability einrichten - LangSmith, Phoenix, Logfire oder Weave. Jeden Agent-Aufruf, jeden Tool-Call, jeden Token-Verbrauch tracen. Ohne das ist Produktion ein Münzwurf.
  5. Kosten-Guardrails bauen - Max. Iterationen, max. Subagenten, max. Token je Workflow, Budget-Alarme je Aufgabe.

Phase 3: Tag 61-90 - Produktion und Operating Model

  1. Produktiv mit HITL-Checkpoints - Jedes Multi-Agent-System in Produktion braucht explizite Human-in-the-Loop-Gates für hochwertige Entscheidungen. Vor dem Live-Gang abbilden.
  2. EU-KI-VO technische Doku - One-Pager je Agent-Rolle, Prompt, Tool-Oberfläche. Audit-Trail-Design. Artikel-14-Aufsicht.
  3. Pilot mit 5 bis 10 Power-Usern - Nur intern, mit echten Workflow-Daten. Zwei Wochen Feedback, Fehler-Logging, Eval-Verfeinerung.
  4. Erster voller Rollout - Begrenzter Scope (ein Team, eine Abteilung, ein Workflow). Operating Model steht vor der Verbreiterung.
  5. Quartals-Review-Kadenz - Eval-Werte, Kostentrends, Incident-Logs, Nutzer-Feedback. Entscheiden, was ausgeweitet und was eingestellt wird.

90-Tage-Abschluss-Checkliste

  • Workflow nach Parallelisierung, Trennbarkeit, Wert, Latenz bewertet
  • Single-Agent-Baseline gebaut und im Eval
  • Eval-Set mit 50-100 Szenarien und Bewertungs-Rubrik
  • Framework-Entscheidung dokumentiert und eingefroren
  • Multi-Agent-Prototyp im gewählten Muster gebaut
  • Single- vs. Multi-Agent-Eval-Vergleich gelaufen
  • Ehrliche Go/No-Go-Entscheidung auf Datenbasis, nicht Hype
  • Observability-Tool integriert (Traces, Kosten, Latenz)
  • Kosten-Guardrails und Budget-Alarme stehen
  • HITL-Checkpoints für hochwertige Entscheidungen designed
  • EU-KI-VO technische Doku je Agent-Rolle entworfen
  • Pilot mit 5-10 internen Power-Usern abgeschlossen
  • Erster Produktions-Rollout in einem Team
  • Quartals-Governance-Kadenz etabliert

EU-KI-VO, DSGVO, Betriebsrat: Die Multi-Agent-Compliance-Schicht

Multi-Agent ändert nicht die rechtliche Klassifizierung Ihres KI-Systems - die folgt dem Anwendungsfall. Aber es macht mehrere Compliance-Pflichten schwerer erfüllbar. Planen Sie sie ein, bevor Sie live gehen.

EU-KI-Verordnung

  • Artikel 13 (Transparenz) - Nutzer müssen das System verstehen können. In Multi-Agent-Setups ist „das System hat das gemacht“ selten zufriedenstellend. Jede Agent-Rolle explizit dokumentieren.
  • Artikel 14 (menschliche Aufsicht) - Bei Hochrisiko muss der Mensch sinnvoll eingreifen können. Multi-Agent-Fluss verschleiert Eingriffspunkte. Vor der Produktion explizite Checkpoints im Orchestrator designen.
  • Artikel 15 (Genauigkeit, Robustheit, Cybersicherheit) - Multi-Agent-Systeme sind wegen der Koordinationskomplexität schwerer robust zu machen. Adversarial Testing und Failure Injection einplanen.
  • Artikel 4 (KI-Kompetenz) - Das Team, das das Multi-Agent-System betreibt, braucht tiefere Kompetenz als bei Single-Agent. Schulungen die Architektur abdecken lassen, nicht nur den Use-Case.

DSGVO

  • Datenminimierung je Agent - Jeder Agent sollte nur die Daten sehen, die er braucht. Geteilter Super-Kontext über alle Agenten ist die einfache Default-Lösung und die falsche.
  • AVV je Anbieter - Multi-Agent läuft oft über mehrere KI-Anbieter (OpenAI fürs Routing, Anthropic für die Synthese, eine Vector-DB anderswo). Jeder braucht einen AVV.
  • Recht auf Löschung - Lösch-Logik muss über Agent-Speicher und Traces propagieren. Mit einplanen.
  • Drittlandtransfer - Multi-Provider-Stacks bedeuten meist mehrere Datenflüsse. Jeden mit SCCs und Transfer-Impact-Assessment dokumentieren.

Betriebsrat

  • Mitbestimmung bei Mitarbeiter-Daten-Systemen - § 87 BetrVG greift, wenn das Multi-Agent-System Mitarbeiter-Leistungs-, Verhaltens- oder Bewertungsdaten verarbeitet. Multi-Agent-Architekturen überraschen Betriebsräte oft; das Architekturdiagramm zeigen, nicht überspringen.
  • Transparenz bei autonomen Entscheidungen - Die meisten Betriebsräte wollen klare Antworten auf „wer entscheidet, wer reviewt, wer kann übersteuern“. Multi-Agent beantwortet das ohne designeden Orchestrator schlecht. Den Orchestrator als verantwortliche Komponente designen.
  • Fairness- und Bias-Review - Multi-Agent-Systeme akkumulieren Bias aus mehreren Modellaufrufen. Fairness-Reviews als Teil des Operating Models einplanen, nicht einmalig.

Wo Superkind passt

Superkind baut maßgeschneiderte KI-Agenten für deutsche KMU und Konzerne. Multi-Agent ist ein Werkzeug in unserem Werkzeugkasten, keine Religion. Die meisten Mittelstands-Engagements liefern wir mit einem gut entworfenen Single-Agent zuerst aus; einige entwickeln sich zu Multi-Agent für spezifische hochwertige Workflows. So arbeiten wir konkret an Multi-Agent.

Was Superkind tut

  • Workflow-Scoring-Engagement - 2-Wochen-Sprint, der Ihre Kandidaten-Workflows nach Parallelisierung, Trennbarkeit, Wert und Latenz scort. Output: priorisierte Liste mit Go/No-Go-Empfehlungen und Architektur-Skizzen.
  • Single-Agent-Baseline vor Multi-Agent - Wir bauen den Single-Agent immer zuerst. Er ist der Benchmark. Oft ist er die endgültige Antwort.
  • Eval-First-Entwicklung - Wir bauen das Eval-Set, bevor wir den Agent bauen. 50 bis 200 reproduzierbare Szenarien mit Bewertungs-Rubrik. Ohne sind Multi-Agent-Entscheidungen Vermutungen.
  • Produktionsreife Orchestrierung - LangGraph oder AutoGen als Standard, mit voller Observability (LangSmith / Phoenix / Logfire), deterministischen Seeds, Replay-Infrastruktur.
  • HITL-Checkpoints by Design - Jedes Multi-Agent-System, das wir ausliefern, hat explizite Human-in-the-Loop-Gates für die Entscheidungen, die zählen, gemappt auf EU-KI-VO Artikel 14.
  • Kosten-Guardrails und Budget-Alarme - Harte Caps auf Iterationen, Subagenten, Token. Budget-Monitoring je Workflow mit Alarmierung.
  • EU-KI-VO technische Doku - One-Page-pro-Agent-Doku. Audit-Trail-Design. BNetzA-fähig.
  • Souveränitäts-Optionen - Für Mittelständler mit EU-only- oder souveränen Anforderungen: Deploy auf Mistral, Aleph Alpha oder Self-hosted-Open-Weights mit denselben Multi-Agent-Mustern.
  • Operating-Model-Übergabe - Wir bleiben auf Retainer engagiert, fahren Quartals-Reviews und überführen die Multi-Agent-Fähigkeit ins interne Team.

Wo wir bewusst nicht antreten

  • Framework-Lizenzen verkaufen - LangGraph, CrewAI, AutoGen, OpenAI Agents SDK sind offen oder vom Anbieter. Wir helfen, sie gut einzusetzen.
  • Generische Chatbots - Single-Agent-Chatbots sind anderweitig gut bedient. Multi-Agent ist für FAQ überdimensioniert.
  • Hype-getriebene Multi-Agent-Demos - Wir sagen Ihnen, wenn Single-Agent die richtige Antwort ist - auch wenn Sie mit Multi-Agent-Anfrage gekommen sind.

Superkind: Ehrliche Pros und Contras

Stärken

  • Mittelstands-DNA - wir arbeiten, wie deutsche KMU arbeiten
  • Eval-First-Disziplin - Entscheidungen mit Daten, nicht Folien
  • Ehrliche Single- vs. Multi-Agent-Beratung - wir sagen, wann Sie es nicht tun sollten
  • SAP-, DATEV-, Legacy-ERP-Sprache - echte Integrationen unter Multi-Agent-Fluss
  • EU-KI-VO, DSGVO, Betriebsrat im Blick - Compliance als Designprinzip

Ehrliche Contras

  • Unter 50 Mitarbeitenden meist überdimensioniert - kleine Teams brauchen selten Multi-Agent
  • Langsamer erster Sprint - wir bestehen auf Baseline + Eval, bevor wir Multi-Agent bauen
  • Wir sagen Nein - wenn Ihr Workflow nicht zu den Mustern passt, sagen wir es
  • Brauchen Executive Sponsorship - bottom-up-Multi-Agent-Rollouts klappen selten

Entscheidungsrahmen: Sollte Ihr Workflow Multi-Agent sein?

Sechs Fragen. Drei oder mehr klare Ja-Antworten heißt: Multi-Agent lohnt einen Pilot. Zwei oder weniger heißt: bei einem gut entworfenen Single-Agent bleiben.

FrageJaNein
Lässt sich die Aufgabe in 3+ wirklich unabhängige Teilaufgaben zerlegen?Tendenz Multi-AgentTendenz Single-Agent
Profitiert jede Teilaufgabe von einer anderen Rolle, einem anderen Prompt oder einem anderen Modell?Tendenz Multi-AgentTendenz Single-Agent
Liegt der Wert pro Aufgabe über 50 Euro?Multi-Agent-ROI greiftMulti-Agent zahlt sich nicht
Kann der Workflow asynchron laufen (Latenz > 30 Sekunden ist OK)?Multi-Agent passtSingle-Agent für UX bleiben
Sind die Teilaufgaben unabhängig genug, dass ein Fehler nicht andere zerlegt?Multi-Agent funktioniertSequenzielle Abhängigkeit schadet Multi-Agent
Haben Sie Observability- und Eval-Infrastruktur bereit?Sie können Multi-Agent shippenErst die Infrastruktur bauen

Jetzt handeln vs. abwarten

Jetzt handeln

  • Frameworks haben sich stabilisiert - 4 Gewinner, Wechselkosten gering
  • Token-Preise fallen - Workloads, die 2025 nicht rentierten, tun es 2026
  • Eval-Disziplin ist ein Moat - frühe Teams bauen den richtigen Muskel
  • EU-KI-VO-Bereitschaft vor August 2026

6 Monate warten

  • Wettbewerber fahren ihre Playbooks zuerst
  • Interner Hype übersteigt die Fähigkeiten
  • Vendor-Lock-in vertieft sich, falls Schatten-Multi-Agent gebaut wird
  • Talente für Multi-Agent-Ops werden schwerer zu bekommen

Häufig gestellte Fragen

Ein Multi-Agent-System teilt eine komplexe Aufgabe auf zwei oder mehr LLM-gestützte Agenten auf, jeder mit eigener Rolle, eigenen Tools und eigenen Prompts, die sich abstimmen, um ein Ergebnis zu liefern. Das einfachste Beispiel ist ein Orchestrator-Agent, der Teilaufgaben an spezialisierte Worker-Agenten delegiert und die Ergebnisse synthetisiert. Multi-Agent ist eine Architekturwahl unter mehreren - kein Standard.

Nein. Anthropic und mehrere unabhängige Studien berichten, dass für rund 80 Prozent der Geschäftsabläufe ein gut entworfener einzelner Agent mit den richtigen Tools und dem richtigen Kontext besser performt als ein Multi-Agent-System. Multi-Agent verbraucht 4- bis 15-mal mehr Token, kostet 3- bis 5-mal mehr Engineering-Aufwand und macht das Debugging nicht-linear schwerer. Es zahlt sich nur für wirklich parallelisierbare, komplexe und hochwertige Aufgaben aus.

Drei Muster wiederholen sich. Erstens parallele Recherche, wo man wirklich 5 bis 10 Blickwinkel gleichzeitig erkunden will (Marktscan, Lieferanten-Prüfung, Wettbewerbsanalyse). Zweitens mehrstufige Workflows mit klarer Trennung der Verantwortlichkeiten und Quality Gates (Entwurf zu Review zu Compliance-Check zu Veröffentlichung). Drittens Experten-Routing, wo der richtige Spezialist die richtige Teilaufgabe übernimmt (Rechtsprüfung getrennt von Finanzprüfung getrennt von technischer Prüfung). Die meisten anderen Mittelstands-Workflows brauchen kein Multi-Agent.

Anthropic schreibt explizit, dass einzelne Agenten typischerweise das 4-Fache der Token von Chat-Interaktionen verbrauchen und Multi-Agent-Systeme rund das 15-Fache. Praxis-Kostenfaktoren liegen bei typischen Orchestrator-Worker-Setups bei 2- bis 5-fach, bei Research-Architekturen deutlich höher. Eine vollständig autonome Multi-Agent-Plattform mit Memory, Tool-Use, Orchestrierung, Human-in-the-Loop und Compliance-Kontrollen kostet im Aufbau 150.000 bis 1,5 Millionen US-Dollar plus, mit monatlichen Betriebskosten von 3.200 bis 13.000 US-Dollar bei mittlerer Last.

Das hängt vom Workflow ab. LangGraph gewinnt bei stateful, audit-heavy-Workflows und komplexer graphförmiger Logik; es passt natürlich zu LangSmith als Observability. CrewAI ist am schnellsten beim ersten Prototyp - typischerweise 40 Prozent schneller als LangGraph - und stark bei rollenbasierten Teams. AutoGen glänzt bei konversationellen, asynchronen Mustern und bringt .NET-Unterstützung mit. OpenAI Agents SDK ist die sauberste Wahl, wenn man auf OpenAI committed ist und die explizite Handoff-Abstraktion mag. Mittelstands-Teams, die eines wählen und dabei bleiben, haben Erfolg; Teams, die mitten im Projekt wechseln, scheitern meistens.

Eine fokussierte Multi-Agent-Einführung dauert 12 bis 20 Wochen vom ersten Design bis zum ersten Produktiv-Workflow. Die ersten 4 Wochen sind Scoping und Single-Agent-Baseline. Wochen 5 bis 12 bauen den Multi-Agent-Prototyp und das Eval-Setup. Wochen 13 bis 20 produktionalisieren Observability, Fehlerbehandlung, Human-in-the-Loop-Checkpoints und Rollout. Multi-Agent in Produktion dauert grob doppelt so lang wie ein vergleichbarer Single-Agent-Deploy.

Koordinations-Brüche. Eine akademische Studie 2025 zu Multi-Agent-Fehlern hat als Hauptursache Agenten identifiziert, die lokal korrekte, aber global inkompatible Outputs liefern - ein Agent macht seine Arbeit perfekt, aber sein Ergebnis passt nicht zu dem, was der nächste Agent braucht. Einzelne Agenten erreichen auf vergleichbaren Benchmarks 99,5 Prozent Erfolg, Multi-Agent-Pendants fallen wegen genau dieser Koordinationslücken auf 97 Prozent.

Die rechtliche Klassifizierung folgt dem Gesamtsystem und der Risikoklasse der resultierenden Entscheidungen, nicht der Anzahl der Agenten. Aber Artikel 13 (Transparenz), Artikel 14 (menschliche Aufsicht) und Artikel 15 (Genauigkeit) sind in Multi-Agent-Setups schwerer zu erfüllen, weil die Zuordnung unschärfer ist. Pragmatische Regel: Behalten Sie einen expliziten Orchestrator, der den Audit-Trail führt, und dokumentieren Sie jede Agent-Rolle, jeden Prompt und jede Tool-Oberfläche als eigenen Punkt in der technischen Doku.

Ja, mit derselben Datenschutzschicht wie jedes andere produktive KI-System. Der Knackpunkt: Jeder Agent braucht seinen eigenen Least-Privilege-Scope auf Tools und Daten, kein gemeinsames Super-Konto. In erfolgreichen Mittelstands-Setups bekommt der Orchestrator breiten Lese-Scope, und Subagenten erhalten enge Scopes pro Aufgabe. Audit-Logs müssen erfassen, welcher Agent wann auf welche Daten zugegriffen hat und in wessen Auftrag.

Sie brauchen drei Dinge, die heute oft fehlen. Erstens ein Eval-Harness, das End-to-End-Ergebnisse plus Beiträge je Agent auf 50 bis 200 reproduzierbaren Szenarien bewertet. Zweitens replay-fähige Konversations-Traces mit deterministischen Seeds, damit Sie Fehler reproduzieren können. Drittens Instrumentierung, die je Agent Inputs, Tool-Calls, Outputs und Token-Verbrauch je Lauf erfasst. LangSmith, Phoenix Arize, Logfire und Weights & Biases Weave bieten die Observability-Schicht.

Ja, wenn Sie nicht aufpassen. Jeder Handoff bringt 100 bis 500 Millisekunden plus Generierungszeit. Ein Workflow mit 10 Handoffs landet schnell bei 30 bis 90 Sekunden. Gegenmaßnahmen: Parallelisierung (unabhängige Subagenten parallel laufen lassen, nicht sequentiell), aggressives Streaming von Zwischenergebnissen an den Nutzer und kleinere, schnellere Modelle für Routing-Entscheidungen. Interne Back-Office-Workflows vertragen die Latenz, kundenseitige Chat-Anwendungen nicht.

Die meisten Mittelständler haben noch keine Multi-Agent-Expertise im Haus. Das funktionierende Muster: Die ersten 1 bis 2 Multi-Agent-Workflows mit einem Partner ausliefern, der Architektur, Eval-Harness und Observability beherrscht, und das Operating Model danach inhouse aufbauen. Multi-Agent-Design auf einem produktiven Workflow ohne Partner zu lernen, ist der teuerste Weg, es zu lernen.

Wahrscheinlich nicht als generischer Standard, aber ja für bestimmte Workload-Klassen. Research, tiefe Analysen und komplexe Review-Workflows werden bis 2028 überwiegend Multi-Agent sein. Einfache Q&A, Datenabfragen und die meisten CRUD-artigen internen Tools bleiben Single-Agent, weil der Mehraufwand sich nie amortisiert. Behandeln Sie die Wahl architektonisch, nicht aspirationell.

Verwandte Artikel

Quellen

  1. Anthropic Engineering - How We Built Our Multi-Agent Research System
  2. Anthropic Research - Building Effective Agents
  3. Anthropic - Building Effective AI Agents: Architecture Patterns and Implementation Frameworks (PDF)
  4. arXiv - Why Do Multi-Agent LLM Systems Fail? (Cemri, Pan, Yang et al., 2025)
  5. LangChain - LangGraph Documentation und Production Patterns
  6. CrewAI - Multi-Agent Framework Dokumentation
  7. Microsoft - AutoGen Multi-Agent Framework
  8. OpenAI - Agents SDK and Handoff Pattern
  9. BSWEN - Which AI Agent Framework Should I Use for Production (2026)
  10. Augment Code - Multi-Agent AI Production Requirements Beyond the Demo
  11. Maxim AI - Multi-Agent System Reliability: Failure Patterns and Validation Strategies
  12. TechAhead - The Multi-Agent Reality Check: 7 Failure Modes
  13. Galileo AI - Why Multi-Agent Systems Fail
  14. Innervation AI - Single vs Multi-Agent Architecture: The 2026 Guide
  15. Codebridge - Single-Agent vs Multi-Agent: A CTO Decision Framework
  16. Adopt AI - Multi-Agent Frameworks Explained for Enterprise (2026)
  17. O-Mega - LangGraph vs CrewAI vs AutoGen: Top 10 AI Agent Frameworks
  18. Datadog - State of AI Engineering 2026
  19. Anthropic - Model Context Protocol (MCP) Specification
  20. Cornell University - Coordinated Multi-Agent Planning Study
  21. EU-KI-VO - Artikel 13: Transparenzpflichten
  22. EU-KI-VO - Artikel 14: Menschliche Aufsicht
  23. EU-KI-VO - Artikel 15: Genauigkeit, Robustheit, Cybersicherheit
  24. EU-KI-VO - Implementation Timeline
  25. Bitkom - Künstliche Intelligenz in Deutschland Studienbericht 2026
  26. Bitkom - IT-Mittelstandsbericht
  27. ZenML - Anthropic Multi-Agent Research System Case Study
  28. ifo Institut - Fachkräftemangel in Deutschland (2025)
Henri Jung, Co-Founder bei Superkind
Henri Jung

Co-Founder von Superkind. Henri hilft Mittelständlern und Konzernen, maßgeschneiderte KI-Agenten einzuführen, die wirklich zum Arbeitsalltag der Teams passen. Er ist überzeugt, dass der Mittelstand alles hat, um KI führend zu nutzen - es braucht nur den richtigen Ansatz.

Bereit, die richtige Agent-Architektur zu shippen?

Buchen Sie 30 Minuten mit Henri. Wir scoren Ihren Top-Workflow gegen den Multi-Agent-Entscheidungsrahmen und skizzieren einen 90-Tage-Plan - ohne Verpflichtung, ohne Verkaufsgespräch.

Demo buchen →