KI-Agenten-Sicherheit: Prompt Injection, Datenabfluss und die OWASP LLM Top 10 für den Mittelstand

28. April 202638 Min. Lesezeit

Co-Founder bei Superkind

Sicherheitskontrollen schützen KI-Agenten in Unternehmenssystemen

Im Juni 2025 schickte ein Sicherheitsforscher von Aim Security eine harmlos wirkende E-Mail in ein Microsoft-365-Postfach. Der Empfänger öffnete sie nie. Er klickte nichts an. Er sah sie nicht einmal. Innerhalb weniger Minuten hatte Microsoft 365 Copilot die in der E-Mail versteckten Anweisungen gelesen, das SharePoint, OneDrive und die Teams-Inhalte des Nutzers durchsucht und vertrauliche Daten still über eine vom Angreifer kontrollierte Bild-URL exfiltriert. Der Exploit heißt EchoLeak (CVE-2025-32711) und erreichte einen CVSS-Score von 9,3¹².

EchoLeak ist kein Einzelfall. 2025 sahen wir auch Cursor IDE über ein manipuliertes README kompromittiert¹⁶, GitHub Copilot aus einem öffentlichen Repository heraus zu unbeaufsichtigter Befehlsausführung gebracht¹⁶, Devin AI mit einem Forschungsbudget von 500 USD zur Installation von Command-and-Control-Malware manipuliert¹⁶ und Gemini Enterprise, das den Speicher eines Opfers über ein Jira-Ticket löschte - 15.000 USD Bug Bounty¹⁶. Das sind Produktiv-Exploits in Tools, die deutsche Mittelständler heute einsetzen.

Gleichzeitig melden 87 Prozent der deutschen Unternehmen, in den letzten zwölf Monaten Opfer von Datendiebstahl, Industriespionage oder Sabotage geworden zu sein - mit Schäden von 289,2 Milliarden Euro²⁵. IBMs Cost of a Data Breach Report 2025 zeigt: 97 Prozent der Organisationen mit einem KI-bezogenen Sicherheitsvorfall hatten keine angemessenen KI-Zugriffskontrollen, und Schatten-KI allein erhöhte die Durchschnittskosten eines Vorfalls um 670.000 USD⁷. Dieser Leitfaden richtet sich an CISO, IT-Verantwortliche, Geschäftsführer oder Datenschutzbeauftragte deutscher KMU, die wissen müssen, was bei KI-Agenten-Sicherheit tatsächlich kaputt ist, was die OWASP LLM Top 10 in Klartext bedeuten und wie sich ein produktiver Agent in 90 Tagen härten lässt.

TL;DR

Prompt Injection ist OWASPs LLM-Risiko Nummer eins für 2025 und lässt sich nicht vollständig verhindern. Die Strategie heißt: Schadensradius begrenzen, nicht jeden Angriff blockieren.

Die Lethal Trifecta - private Daten, untrusted Content und externe Kommunikation im selben Agenten - ist das Muster hinter jedem großen Vorfall 2025.

Defense in Depth über sieben Schichten (Identity, Eingang, Capability, Ausgang, Monitoring, menschliche Prüfung, Incident Response) ist die einzige Architektur, die unter realen Angriffen hält.

Artikel 15 der EU-KI-VO verlangt von Hochrisiko-KI-Systemen Widerstandsfähigkeit gegen Data Poisoning, adversarial Inputs und Vertraulichkeitsangriffe. BSI-Leitfaden und NIST AI RMF zeigen auf dieselben Kontrollen.

90 Tage reichen, um einen produktiven Agenten zu inventarisieren, zu modellieren, zu härten und durchzutesten - wenn man sich auf ein System konzentriert.

Die Bedrohungslage im Mittelstand

Der deutsche Mittelstand ist heute ein attraktives Ziel. Etwa 36 Prozent der deutschen Unternehmen setzen KI in irgendeiner Form ein²⁷, doch die meisten haben schneller eingeführt als gehärtet. Das Ergebnis ist eine Agentenschicht auf geschäftskritischen Systemen mit sehr wenig Härtung darunter. Die Datenlage ist eindeutig.

Cyberangriffe sind die Norm - 87 Prozent der deutschen Unternehmen waren in den letzten zwölf Monaten von Datendiebstahl, Spionage oder Sabotage betroffen, im Vorjahr waren es 81 Prozent. 59 Prozent fühlen ihre Existenz durch Cyberangriffe bedroht. Jährlicher Schaden für die deutsche Wirtschaft: 202,4 Milliarden Euro²⁵.
Russland und China sind die Haupttäter - 46 Prozent der betroffenen Unternehmen melden Angriffe aus Russland, ebenso viele aus China²⁵. Mittelständler mit sensiblem geistigem Eigentum gelten heute als weiche Ziele.
KI-Zugriffskontrollen fehlen - 97 Prozent der Organisationen mit einem KI-bezogenen Sicherheitsvorfall hatten keine angemessenen KI-Zugriffskontrollen⁷. 63 Prozent hatten überhaupt keine KI-Governance-Richtlinie.
Schatten-KI ist leise und teuer - Schatten-KI war an 20 Prozent der Vorfälle beteiligt und erhöhte die durchschnittlichen Kosten um 670.000 USD. Schatten-KI-Vorfälle exponieren ungewöhnlich viele personenbezogene Daten⁷⁹.
Der durchschnittliche Vorfall ist weiter teuer - 4,44 Millionen USD weltweit in 2025, neun Prozent weniger als im Vorjahr, weil KI-gestützte Erkennung die Reaktionszeit verkürzte. Die Verteilung ist aber ungleich: nicht regulierte KI-Systeme werden häufiger kompromittiert und sind dann teurer⁷.
Mittelstand bevorzugt deutsche KI - 88 Prozent der deutschen Unternehmen halten das Herkunftsland ihres KI-Anbieters für wichtig, 93 Prozent davon würden eine Lösung aus Deutschland bevorzugen²⁷. Souveränitätsfragen treiben heute die Beschaffung, nicht nur die IT-Präferenz.

Kennzahl

Gartner prognostiziert, dass KI-Anwendungen bis 2028 die Hälfte der Cybersecurity-Incident-Response-Aufwände treiben werden¹⁰. Übersetzt: In zwei Jahren wird die Hälfte jeder CISO-Vorfallswarteschlange auf einen KI-Agenten oder einen KI-gestützten Angriff zurückgehen. Teams, die sich heute vorbereiten, löschen später weniger Brände.

Die Bedrohungslage des Mittelstands ist breiter, als viele Vorstände realisieren, weil KI-Agenten drei Dinge kombinieren, die früher getrennt waren. Sie greifen auf dieselben Daten zu wie ERP, CRM und SharePoint. Sie verarbeiten untrusted Content aus E-Mails, Webseiten und Kundendokumenten. Und sie können handeln - Nachrichten senden, APIs aufrufen, Datensätze anlegen. Diese Kombination ist das Sicherheitsproblem in einem Satz.

Bedrohungsvektor	Häufigkeit 2025	Durchschnittliche Auswirkung	Quelle
Cyberangriff auf deutsches Unternehmen	87% in letzten 12 Monaten	289,2 Mrd. EUR Gesamtschaden	Bitkom 2025²⁵
KI-bezogener Sicherheitsvorfall	13% der Organisationen	4,44 Mio. USD Durchschnitt	IBM 2025⁷
Schatten-KI beteiligt	20% der Vorfälle	+670.000 USD Mehrkosten	IBM 2025⁷⁹
Fehlende KI-Zugriffskontrollen	97% der betroffenen KI-Organisationen	Höhere PII-Exposition	IBM 2025⁷
Keine KI-Governance-Richtlinie	63% der Organisationen	Langsamere Erkennung, höhere Kosten	IBM/Ponemon 2025⁷
Prompt Injection in Cyber-Response	Prognose 50% bis 2028	Hälfte aller IR-Aufwände	Gartner 2026¹⁰

Die Lethal Trifecta - das Muster hinter jedem großen Vorfall

Sicherheitsforscher Simon Willison prägte 2022 den Begriff Prompt Injection und im Juni 2025 die operativ nützlichste Einordnung dazu - die Lethal Trifecta⁴. Die Trifecta ist das sauberste mentale Modell für KI-Agenten-Risiko. Wenn Sie nur eine Sache aus diesem Artikel mitnehmen, dann diese.

Die drei Eigenschaften

Zugriff auf private Daten - Der Agent kann Informationen lesen, die nicht öffentlich werden dürfen: Postfach, Kalender, Kundendatenbank, Quellcode, ERP, SharePoint, Dateisystem.
Verarbeitung untrusted Content - Der Agent verarbeitet Eingaben aus Quellen, die Sie nicht kontrollieren: eingehende E-Mails, Webseiten, PDFs, Support-Tickets, Kalendereinladungen, Lieferantendokumente, öffentliche Repositories.
Externe Kommunikationsfähigkeit - Der Agent kann Daten herausschicken: ausgehende E-Mail, Webhooks, HTTP-Requests, öffentliche Datei-Schreibvorgänge, Bild-Fetches, generierte Links.

Wenn alle drei im selben Agentenkontext zusammenkommen, kann ein Angreifer, der Anweisungen in irgendeine untrusted Quelle einschleust, damit private Daten lesen und exfiltrieren lassen. Der Agent hat keinen eingebauten Mechanismus, das zu verweigern - er kann nicht zuverlässig zwischen „mein Chef hat mich gebeten, diesen Bericht zu schicken“ und „ein Angreifer hat in einem PDF eine Anweisung versteckt, diesen Bericht zu schicken“ unterscheiden. Das ist die gesamte Schwachstellenklasse.

„Wenn Ihr Agent diese drei Eigenschaften kombiniert, kann ein Angreifer ihn leicht dazu bringen, auf private Daten zuzugreifen und sie an den Angreifer zu schicken.“

- Simon Willison, Sicherheitsforscher und Co-Schöpfer von Django⁴

Wie die Trifecta auf reale Vorfälle 2025 abbildet

EchoLeak (Microsoft 365 Copilot) - Private Daten: Outlook, OneDrive, SharePoint. Untrusted Content: eingehende E-Mail. Externe Kommunikation: Bild-URL-Fetch. Alle drei vorhanden. Angriff erfolgreich¹².
GitHub Copilot RCE (CVE-2025-53773) - Private Daten: lokale Entwicklerumgebung. Untrusted Content: Code-Kommentare im öffentlichen Repository. Externe Kommunikation: Shell-Ausführung. Alle drei vorhanden. Angriff erfolgreich¹⁶.
Cursor IDE (CVE-2025-54135) - Private Daten: Entwicklermaschine. Untrusted Content: README-Dateien. Externe Kommunikation: Schreiben beliebiger Konfiguration, die MCP-Server triggerte. Alle drei vorhanden. Angriff erfolgreich¹⁶.
Gemini Enterprise Jira - Private Daten: Agent-Speicher über Sessions. Untrusted Content: Jira-Ticket-Beschreibungen. Externe Kommunikation: agentengesteuerte Aktionen. Alle drei vorhanden. Angriff erfolgreich¹⁶.
Devin AI - Private Daten: Entwickler-Credentials und Code. Untrusted Content: Projektbeschreibung. Externe Kommunikation: Ports öffnen, C2-Malware installieren. Alle drei vorhanden. Angriff erfolgreich⁴.

Die Gegenmaßnahme

Brechen Sie die Trifecta. Entfernen Sie eine der Eigenschaften, und Datenabfluss wird deutlich schwerer. Praktisch am besten: externe Kommunikation einschränken (kein ausgehender HTTP-Verkehr aus Agentenkontext) oder untrusted Content sandboxen (separate Agenteninstanz ohne Zugriff auf private Daten). Die meisten Produktiv-Agenten liefern denselben Geschäftswert auch mit einer entfernten Eigenschaft.

Hohes Risiko (volle Trifecta)

✗ E-Mail-Zusammenfasser mit Web-Suche und ausgehender E-Mail
✗ Customer-Service-Agent mit CRM-Zugriff und ausgehendem Chat
✗ Coding-Assistent mit Repo-Zugriff, Web-Fetch und Shell
✗ Browser-Use-Agent mit Dateizugriff und beliebiger Navigation
✗ MCP-Assistent mit breitem Tool-Zugriff und ungeprüften MCP-Servern

Niedrigeres Risiko (Trifecta gebrochen)

✓ Read-only-RAG über interne Dokumente, ohne externe Kommunikation
✓ Dokumentenklassifizierer ohne Internet und ohne Schreibrechte
✓ Public-Web-Scraper ohne private Daten im Kontext
✓ Übersetzungsagent ohne persistenten Zustand und ohne Tools
✓ Freigabe-gesteuerter Workflow, in dem jede externe Aktion menschliche Zustimmung braucht

Die OWASP LLM Top 10 - was jedes Risiko wirklich bedeutet

OWASP veröffentlicht die De-facto-Industrie-Liste der kritischsten LLM-Sicherheitsrisiken. Die Ausgabe 2025 hat die Risiken auf Basis realer Vorfälle 2024-2025 neu sortiert: Sensitive Information Disclosure ist von Platz sechs auf zwei vorgerückt, Supply Chain auf drei¹. Hier jedes Risiko in Klartext mit dem typischen Mittelstandskontext.

LLM01:2025 Prompt Injection

Ein Angreifer manipuliert das Verhalten des LLM, indem er Anweisungen in die Eingabe einschleust. Direkte Prompt Injection: der Nutzer tippt die bösartige Anweisung selbst ein. Indirekte Prompt Injection: die Anweisung kommt über externe Inhalte, die das LLM liest². Indirekt ist die gefährliche Variante - der Nutzer ist unschuldig, aber die E-Mail, das PDF oder die Webseite, die der Agent zusammenfassen soll, enthält versteckte Befehle.

LLM02:2025 Sensitive Information Disclosure

Das Modell gibt private Daten in seinen Antworten preis - personenbezogene Daten, Credentials, System-Prompts, geistiges Eigentum. 2025 von Platz sechs auf zwei aufgrund wiederholter realer Datenlecks¹. Im Mittelstand heißt das typischerweise: ein HR-Agent fasst eine Anfrage zusammen und nimmt versehentlich das Gehalt einer anderen Person auf, oder ein Code-Assistent fügt einen Kunden-API-Key in eine unzusammenhängende Antwort ein.

LLM03:2025 Supply Chain

Sie vertrauen Modellen, Fine-Tuning-Datensätzen, Plugins und Tools, die Sie nicht selbst gebaut haben. Jedes davon ist ein potenzieller Einschleusungspunkt. Ein Modell aus einer öffentlichen Registry kann vergiftet sein. Ein fremder MCP-Server kann bösartige Tools maskieren. Ein Fine-Tune-Datensatz kann Backdoor-Trigger enthalten. Mittelständler, die Open-Source-Bausteine ohne Provenienzprüfung kombinieren, erben jede Schwäche der Kette¹.

LLM04:2025 Data and Model Poisoning

Angreifer korrumpieren absichtlich Trainingsdaten, Fine-Tuning-Daten oder RAG-Wissensbasen. Das Modell verhält sich auf den meisten Eingaben normal, produziert aber bei bestimmten Triggern vom Angreifer gesteuerte Antworten. Besonders relevant für Unternehmen, die kundeneingereichte Inhalte (Support-Tickets, Produktbewertungen, hochgeladene Dokumente) in eine vom Agenten genutzte Wissensbasis einspeisen¹.

LLM05:2025 Improper Output Handling

Die Anwendung behandelt LLM-Ausgaben so, als wären sie vertrauenswürdiger Code oder vertrauenswürdige Daten. Der Agent erzeugt eine SQL-Abfrage, die ohne Parametrisierung ausgeführt wird. Der Agent gibt JavaScript aus, das ohne Escaping gerendert wird. Der Agent produziert einen Shell-Befehl, der ohne Prüfung läuft. Klassischer Injection-Bug, nur mit dem LLM als Quelle¹.

LLM06:2025 Excessive Agency

Der Agent hat mehr Rechte, Tools oder Autonomie als der Anwendungsfall erfordert. Ein E-Mail-Zusammenfasser braucht keine Sendefähigkeit. Ein Dokumentenanalyser braucht keinen Shell-Zugriff. Der Schadensradius einer erfolgreichen Prompt Injection skaliert direkt mit den Rechten des Agenten. Die meisten Mittelstands-Agenten scheitern an dieser Prüfung am ersten Tag¹.

LLM07:2025 System Prompt Leakage

Der Agent verrät seinen eigenen System-Prompt - Konfiguration, Persona, interne Anweisungen, manchmal eingebettete Credentials oder Tool-Definitionen - durch geschickte Nutzeranfragen. Neuzugang 2025. System-Prompts enthalten oft Datenquellen, Namenskonventionen und Sicherheitsregeln, die einem Angreifer beim nächsten Schritt helfen¹.

LLM08:2025 Vector and Embedding Weaknesses

Die Schwachstellenklasse für RAG-Architekturen. Vergiftete Dokumente in der Vektordatenbank, Embedding-Inversionsangriffe, die Originalinhalte rekonstruieren, Retrieval, das Zugriffskontrollen ignoriert, und Vektorräume, die Mandanten vermischen. Neuzugang 2025, weil RAG im Mittelstand vom Prototyp in die Produktion gewandert ist¹.

LLM09:2025 Misinformation

Das Modell produziert plausibel klingende, aber faktisch falsche Ausgaben, die Menschen für korrekt halten. Im Sicherheitskontext: eine Fehlklassifizierung einer bösartigen Eingabe als harmlos, eine halluzinierte Kontrolle, die nicht existiert, oder eine selbstbewusst falsche Bedrohungsbewertung. Misinformation überlappt mit operativer Zuverlässigkeit, hat aber direkte Sicherheitskonsequenzen, wenn Menschen sich auf die Ausgabe verlassen¹.

LLM10:2025 Unbounded Consumption

Ressourcenerschöpfungsangriffe - Prompt-Muster, die teure Berechnungen erzwingen, Endlosschleifen im Agenten-Reasoning, Denial-of-Service durch parallele teure Anfragen. Kostenbasierte Angriffe sind heute eine reale Bedrohung für jeden Agenten auf einer abgerechneten API. Ein anhaltender Angriff gegen einen unbegrenzten Agenten kann in Tagen sechsstellige Cloud-Rechnungen erzeugen¹.

OWASP-Risiko	Rang-Veränderung 2025	Am stärksten exponiertes Mittelstandssystem	Primäre Gegenmaßnahme
Prompt Injection	Nr. 1 (unverändert)	E-Mail- und Dokumentenagenten	Eingangsfilterung, Kontextisolation
Sensitive Info Disclosure	Nr. 6 zu Nr. 2	HR- und Finanz-Copiloten	Ausgangsfilterung, Zugriffsbegrenzung
Supply Chain	Aufstieg auf Nr. 3	RAG- und MCP-Ökosysteme	Provenienz, Signierung, Allow-Lists
Data and Model Poisoning	Nr. 4	RAG mit Kundeninhalten	Quellprüfung, Drift-Monitoring
Improper Output Handling	Nr. 5	Code- und SQL-Agenten	Output als untrusted behandeln, Sandbox
Excessive Agency	Nr. 6	Browser-Use- und MCP-Agenten	Least Privilege, Capability-Scoping
System Prompt Leakage	Neu	Kundengerichtete Chatbots	Keine Geheimnisse im Prompt, Trennung
Vector + Embedding Weaknesses	Neu	Produktive RAG-Systeme	Mandantentrennung, ACL-konformes Retrieval
Misinformation	Nr. 9	Entscheidungs-Support-Agenten	Grounding, Zitate, Confidence-Scoring
Unbounded Consumption	Nr. 10	Öffentliche Agenten auf abgerechneten APIs	Quotas, Budgets, Rate Limits

„Jede KI in einer adversarischen Umgebung mit untrusted Trainingsdaten oder Eingaben ist anfällig für Prompt Injection. Es ist ein existenzielles Problem, das, soweit ich das beurteilen kann, die meisten Entwickler dieser Technologien einfach ignorieren.“

- Bruce Schneier, Sicherheitstechnologe und Lecturer an der Harvard Kennedy School⁵

Sorgen wegen Ihres bestehenden KI-Agenten?

Buchen Sie 30 Minuten. Wir prüfen Ihre Architektur gegen die OWASP LLM Top 10.

Demo buchen →

Defense-in-Depth-Architektur für KI-Agenten

Reale Vorfälle 2025 - was passiert ist, was fehlte, was zu lernen ist

Theorie ist einfach. Lehrwert haben die öffentlichen Vorfälle 2025, weil sie genau zeigen, welche Kontrollen fehlten. Fünf kurze Fallstudien, dann das verbindende Muster.

Fall 1: EchoLeak (Microsoft 365 Copilot, Juni 2025)

Was passiert ist - Forscher von Aim Security schickten eine harmlos wirkende E-Mail mit verstecktem Prompt-Injection-Text. M365 Copilot indexierte sie. Als der Nutzer Copilot später eine beliebige Frage stellte, führten die versteckten Anweisungen aus - Inbox, OneDrive, SharePoint und Teams-Inhalte lesen, dann über einen Markdown-Bild-Fetch an eine vom Angreifer kontrollierte URL exfiltrieren¹².
Warum es funktionierte - LLM Scope Violation: externer untrusted Content wurde im selben Kontext wie private Daten verarbeitet und konnte externe Netzwerk-Calls auslösen.
Was fehlte - Kontextisolation zwischen vertrauenswürdigen Anweisungen und untrusted E-Mail-Body. Ausgangsfilterung auf ausgehende URLs. Microsofts XPIA-Klassifikator wurde durch Reference-Style-Markdown umgangen¹³.
Gegenmaßnahme - Microsoft patchte serverseitig ohne Client-Update. Der Fix begrenzt Copilots Fähigkeit, versteckten adversarialen Prompts in Dateien zu folgen¹⁵.

Fall 2: Cursor IDE Remote Code Execution (CVE-2025-54135)

Was passiert ist - Ein Angreifer versteckte Prompt Injection in einer öffentlichen README. Als ein Entwickler das Repo mit aktivem Cursor öffnete, wies der Agent ihn an, eine bösartige .cursor/mcp.json zu schreiben. Diese Konfiguration lud einen feindlichen MCP-Server mit beliebiger Befehlsausführung¹⁶.
Warum es funktionierte - Der Agent behandelte Repository-Inhalte wie Nutzeranweisungen. Konfigurationsdateien waren ohne Bestätigung schreibbar. MCP-Server wurden automatisch geladen.
Was fehlte - Capability-Gating, Schreibschutz auf Konfigurationsdateien, MCP-Server-Allow-List.

Fall 3: GitHub Copilot Unattended Execution (CVE-2025-53773)

Was passiert ist - Ein Angreifer bettete Prompt Injection in Code-Kommentare in einem öffentlichen Repository ein. Als ein Entwickler es mit aktivem Copilot öffnete, modifizierte die Injection IDE-Einstellungen, um „unbeaufsichtigte Befehlsausführung“ zu aktivieren. Folgebefehle liefen ohne Prompts¹⁶.
Warum es funktionierte - Copilot hatte Schreibzugriff auf seine eigene Berechtigungskonfiguration. Der Agent konnte sich über normale Ausgaben selbst eskalieren.
Was fehlte - Privilegiengrenzen zwischen Agentenkontext und Agentenkonfiguration. Der Agent darf sich nicht selbst Rechte erteilen.

Fall 4: Devin AI ungeschützt (Forschung, 2025)

Was passiert ist - Ein Sicherheitsforscher gab 500 USD aus, um Devins autonomen Coding-Agenten zu testen, und fand ihn vollständig ungeschützt. Mit sorgfältig formulierten Prompts brachte er den Agenten dazu, Ports zum Internet zu öffnen, Access Tokens zu leaken und Command-and-Control-Malware zu installieren⁴.
Warum es funktionierte - Maximale Autonomie, keine Capability-Beschränkungen, keine Freigabegates, keine Anomalieerkennung.
Was fehlte - Praktisch alles. Der Lehrwert liegt darin zu zeigen, wie ein ungehärteter Agent in Produktion aussieht.

Fall 5: Gemini Enterprise Jira Memory Wipe (15.000 USD Bounty)

Was passiert ist - Ein Forscher reichte ein Jira-Ticket ein, dessen Beschreibung Anweisungen an Gemini Enterprise enthielt. Als der Agent das Ticket verarbeitete, löschte er still den persistenten Speicher des Nutzers über Sessions hinweg¹⁶.
Warum es funktionierte - Untrusted Nutzerinhalt (Ticketbeschreibung) hatte denselben Vertrauenslevel wie die eigenen Zustandsoperationen des Agenten.
Was fehlte - Privilegientrennung zwischen Dateneingabe und Agenten-Zustandsänderungen.

Das verbindende Muster

Untrusted Content wurde als trusted behandelt - In jedem Fall fehlte dem Agenten die architektonische Trennung zwischen „was der Nutzer wollte“ und „Text, den der Agent zufällig las“.
Capabilities waren zu breit - In jedem Fall hatte der Agent mehr Tools, mehr Rechte oder mehr Netzwerkzugriff, als der Anwendungsfall erforderte.
Externe Kommunikation war unbegrenzt - In jedem Fall konnte der Agent ausgehenden Verkehr initiieren, den ein Angreifer steuern konnte.
Erkennung kam zu spät - In jedem Fall lief der Angriff still durch. Erkennung kam von Forschern, nicht aus produktivem Monitoring.
Der Fix war architektonisch, nicht patchbasiert - Jeder Anbieter musste die Vertrauensgrenze neu zeichnen, nicht nur ein String-Muster blockieren.

Die Lehre für den Mittelstand

Wenn ein von Microsoft, GitHub, Google oder Cognition gebauter Agent durch diese Muster kompromittierbar ist, dann ist Ihr eigener Pilot es auch - es sei denn, Sie ziehen die Vertrauensgrenzen bewusst. Die gute Nachricht: Die Kontrollen sind bekannt, und die meisten lassen sich umsetzen, ohne Modell oder Anbieter zu wechseln.

Die Defense-in-Depth-Architektur - sieben Schichten, die halten

Keine einzelne Kontrolle stoppt Prompt Injection. Der BSI-Leitfaden zu LLM-Evasion-Angriffen, das NIST-AI-RMF-GenAI-Profil und die OWASP-Mitigation-Guidance laufen alle auf dasselbe hinaus: gestaffelte Verteidigung, die begrenzt, was eine erfolgreiche Injection tatsächlich anrichten kann¹⁹²³. Hier das Sieben-Schichten-Modell, das produktive Teams heute tatsächlich einsetzen.

Schicht 1: Identity und Least-Privilege-Zugriff

Dedizierte Servicekonten - Jeder Agent erhält eine eigene Identität, nicht mit Menschen geteilt. Rechte werden auf das Minimum für den Anwendungsfall begrenzt.
Read-only per default - Schreibzugriff wird nach Sicherheitsprüfung pro Anwendungsfall vergeben, nicht per default.
Objektebenen-Scoping - Der Agent sieht die Datensätze, die er braucht, und sonst nichts. Ein Sales-Agent bekommt keine HR-Daten, auch wenn beide in derselben Datenbank liegen.
Kurze Token-Lebensdauer - Tokens rotieren. Langlebige API-Keys sind das wertvollste Kompromittierungsziel.
Audit auf jedem Aufruf - Jede Aktion landet im SIEM mit Nutzer, Prompt, Tool und Ergebnis.

Schicht 2: Eingangsfilterung und Kontextisolation

Prompt-Injection-Klassifikatoren - Spezialisierte Modelle, die Eingaben auf Injection-Muster bewerten. Nicht perfekt, aber ein nützlicher erster Filter.
Trust-Labels - Nutzereingabe bekommt einen Trust-Level. Abgerufene Dokumente einen niedrigeren. Externer Webinhalt den niedrigsten.
Quarantäne für Low-Trust-Content - Verdächtige Eingaben durchlaufen eine strengere Pipeline (kleineres Modell, keine Tools, keine privaten Daten), bevor sie in den Hauptfluss gelangen.
Strukturelle Trenner - Untrusted Content wird in eindeutige Begrenzungen verpackt, die das Modell respektieren soll - nicht perfekt, aber hilfreich.
Längen- und Inhaltsgrenzen - Offensichtlich feindliche Eingaben blockieren (sehr lange Anweisungssequenzen, Base64-Payloads, versteckte Unicode-Zeichen).

Schicht 3: Capability-Beschränkung und Sandboxing

Tool-Allow-Lists - Der Agent darf nur vorab freigegebene Tools aufrufen. Neue Tools brauchen Sicherheitsprüfung.
Kein Shell, kein Internet per default - Beides wird pro Anwendungsfall mit expliziter Freigabe ergänzt, nicht standardmäßig.
Sandbox-Ausführung - Code, den der Agent erzeugt, läuft in einem isolierten Container ohne Produktiv-Netzzugang.
MCP-Server-Allow-Lists - Wer MCP nutzt, lässt nur signierte und freigegebene Server zu. Allow-List, keine Deny-List.
Quotas pro Aktion - Der Agent kann nicht 10.000 E-Mails verschicken oder eine teure API in einer Schleife aufrufen.

Schicht 4: Ausgangsfilterung und DLP

URL-Filterung ausgehend - Bild-Fetches, Linkgenerierung und Webhook-Aufrufe werden gegen eine Allow-List gefiltert. EchoLeak exfiltrierte über eine Bild-URL - diese Kontrolle hätte gestoppt.
PII- und Secret-Scanning - Ausgaben werden auf Credentials, API-Keys und PII-Muster geprüft, bevor sie die Agentengrenze verlassen.
Halluzinations-Grounding - Faktische Aussagen müssen eine vom Agenten abgerufene Quelle zitieren. Unbelegte selbstbewusste Aussagen werden markiert.
Schema-Validierung - Tool-Eingaben des Agenten werden vor Ausführung gegen strenge Schemata validiert.
Markdown-Rendering-Kontrollen - In kundengerichteten Ausgaben Reference-Style-Markdown blockieren, der Payloads verstecken kann.

Schicht 5: Monitoring, Alerting und Anomalieerkennung

Vollständiges Transcript-Logging - Jeder Prompt, jede Antwort, jeder Tool-Aufruf landet in einem abfragbaren Speicher.
Verhaltens-Baselines - Normaler Token-Verbrauch, normale Tool-Call-Muster, normale Output-Größen. Abweichungen alarmieren.
Kostenanomalie-Erkennung - Unbounded-Consumption-Angriffe zeigen sich als Kostenausschlag. Alarm bei 2x Baseline.
Egress-Monitoring - Agent-Netzwerkverkehr läuft auf denselben DLP- und SIEM-Schienen wie der Rest.
Red-Team-Replay - Bekannte Prompt-Injection-Payloads laufen wöchentlich gegen Produktion. Treffer triggern Untersuchung.

Schicht 6: Human-in-the-Loop und Freigabegates

Risikogestaffelte Freigaben - Read-only-Zusammenfassung: keine Freigabe. E-Mail an Kunde senden: Freigabe. Geld bewegen: Vier-Augen-Freigabe.
Reversibilitäts-Check - Reversible Aktionen können autonom laufen, irreversible (Löschen, Zahlungen, öffentliche Posts) brauchen Freigabe.
Confidence-Schwellen - Der Agent eskaliert an Menschen, wenn seine eigene Confidence unter einem definierten Wert liegt.
Stichproben-Audit - Auch vollautonome Aktionen werden wöchentlich stichprobenartig geprüft.
Kill-Switch - Ein Befehl pausiert den Agenten global. Quartalsweise getestet.

Schicht 7: Incident Response und Wiederherstellung

Runbook - Ein dokumentiertes Playbook für „Agent kompromittiert“ - wer entscheidet, wer schaltet ab, wer benachrichtigt, wer untersucht.
Forensik-fähige Logs - 30 bis 90 Tage Transcripts und Tool-Calls für Untersuchungen aufbewahrt.
Tabletop-Übungen - Quartalsweise. CISO durchläuft mit KI-Lead und Datenschutzbeauftragtem ein reales EchoLeak-Szenario.
Vendor-Incident-Klauseln - Verträge verlangen Offenlegung relevanter CVEs und Patch-Zeitpläne.
Recovery-Test - Geprobt, wie Agent-Credentials zu widerrufen, Keys zu rotieren und ein sauberer Zustand wiederherzustellen ist.

Schicht	Primäres Ziel	Stoppt	Typische Tools
1. Identity	Reichweite begrenzen	Excessive Agency, Sensitive Info Disclosure	IAM, Servicekonten, gescopte Tokens
2. Eingangsfilter	Injection-Erfolg begrenzen	Prompt Injection (direkt + indirekt)	Klassifikatoren, Trenner, Trust-Labels
3. Capability-Beschränkung	Schadensradius begrenzen	Excessive Agency, Improper Output Handling	Allow-Lists, Sandboxes, MCP-Signierung
4. Ausgangsfilter	Exfiltration begrenzen	Sensitive Info Disclosure, Datenabfluss	DLP, URL-Allow-List, Schema-Validierung
5. Monitoring	Angriffe erkennen	Unbounded Consumption, neue Angriffe	SIEM, Verhaltensanalyse, Kosten-Alerts
6. Menschliche Prüfung	Hochkritische Fehler abfangen	Misinformation, irreversible Fehler	Freigabe-Workflows, Kill-Switch
7. Incident Response	Eindämmen und wiederherstellen	Alle Kategorien nach Kompromittierung	Runbooks, Tabletop, Forensik

„Es ist unmöglich, Prompt Injection zu 100 Prozent zu blockieren. Wir müssen unser Mindset ändern.“

- Dennis Xu, Senior Director Analyst bei Gartner¹¹

EU-KI-VO, BSI-Leitfaden und das NIST AI RMF

KI-Agenten-Sicherheit ist nicht nur eine gute Idee, sondern zunehmend regulatorische Pflicht. Drei Rahmenwerke sind für den deutschen Mittelstand entscheidend: die EU-KI-Verordnung, der BSI-Leitfaden zu LLMs und das NIST AI Risk Management Framework. Sie überlappen mehr, als sie sich widersprechen.

EU-KI-VO Artikel 15 - Cybersicherheit für Hochrisiko-Systeme

Artikel 15 verlangt ausdrücklich, dass Hochrisiko-KI-Systeme widerstandsfähig gegen Angriffe sind. Der Text nennt konkrete Bedrohungen²⁰:

Data Poisoning - Manipulation von Trainingsdaten zur Korruption des Modellverhaltens.
Model Poisoning - Manipulation vortrainierter Komponenten.
Adversarial Examples (Modell-Evasion) - Eingaben, die das Modell zu Fehlverhalten bringen - hier lebt Prompt Injection.
Vertraulichkeitsangriffe - Versuche, Trainingsdaten oder System-Prompts zu extrahieren.
Modellfehler - Ausnutzbare Schwächen im Modell selbst.

Für Hochrisiko-Systeme müssen Kontrollen den jeweiligen Risiken und Umständen angemessen sein. Widerstandsfähigkeit lässt sich durch technische Redundanz, Backups und Fail-Safe-Pläne erreichen²⁰. Die meisten internen Mittelstands-Agenten fallen in begrenztes oder minimales Risiko, sodass Artikel 15 oft nicht direkt bindend ist - die gleichen Prinzipien gelten aber über DSGVO Artikel 32 (Sicherheit der Verarbeitung) und die NIS2-Richtlinie für KRITIS-Betreiber.

EU-KI-VO Sanktionen

Verstöße gegen verbotene KI - Bis zu 35 Mio. EUR oder 7 Prozent des weltweiten Umsatzes²¹
Hochrisiko-Nichteinhaltung - Bis zu 15 Mio. EUR oder 3 Prozent des weltweiten Umsatzes²¹
Irreführende Angaben - Bis zu 7,5 Mio. EUR oder 1 Prozent des weltweiten Umsatzes²¹
KMU-Sonderregelung - Für KMU gilt der jeweils niedrigere (nicht höhere) Betrag, was kleinere Unternehmen verhältnismäßig schützt²¹
Volle Anwendbarkeit - 2. August 2026²²

BSI-Leitfaden zu Evasion-Angriffen

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat „Evasion Attacks auf LLMs - Gegenmaßnahmen in der Praxis“ veröffentlicht, gerichtet an Entwickler und IT-Verantwortliche in Unternehmen und Behörden, die vortrainierte Modelle einsetzen¹⁹. Die Kernempfehlungen:

Gestaffelte Verteidigung - Technische Kontrollen (Filter, Sandboxing, RAG mit vertrauenswürdiger Retrieval) und organisatorische Praxis (adversariales Testen, Governance, Schulung) kombinieren.
Versagen einzelner Kontrollen annehmen - Keine einzelne Schutzmaßnahme reicht. Mehrere Schichten kompensieren, wenn eine umgangen wird.
Kontinuierliches Monitoring - Die Besonderheit von Evasion-Angriffen erfordert aktive Beobachtung, nicht periodische Audits.
Adversariales Testen - Eigene Systeme red-teamen, bevor Angreifer es tun.
Defense in Depth über den Lebenszyklus - Sicherheit gilt während Entwicklung, Deployment und Betrieb - nicht nur an einer Stelle.

NIST AI RMF Generative AI Profile (NIST-AI-600-1)

Das im Juli 2024 veröffentlichte NIST AI RMF GenAI Profile katalogisiert über 400 Mitigationsmaßnahmen über den KI-Lebenszyklus²³. In der EU freiwillig, aber von US-Anbietern breit übernommen und zunehmend in deutscher Beschaffung referenziert. Das Profil deckt Risiken über OWASP hinaus ab - Konfabulation, schädliche Verzerrung, Umweltauswirkungen - und überlappt bei den Sicherheitskategorien.

Rahmenwerk	Geltungsbereich	Bindend?	Fokus für KI-Agenten-Sicherheit
EU-KI-VO	EU	Ja (Hochrisiko)	Artikel 15 Cybersicherheit, Artikel 4 Schulung
BSI LLM-Leitfaden	Deutschland	Empfehlung	Evasion-Angriffs-Gegenmaßnahmen
NIST AI RMF GenAI Profile	USA	Freiwillig	400+ Mitigationen über Lebenszyklus
OWASP LLM Top 10	Global	Industriestandard	Top 10 LLM-Anwendungsrisiken
ISO/IEC 42001	Global	Zertifizierbar	KI-Managementsystem-Standard
DSGVO Artikel 32	EU	Ja	Sicherheit der Verarbeitung personenbezogener Daten

KI-Agenten-Compliance-Checkliste

Inventar aller KI-Agenten und ihrer Zugriffsbereiche dokumentiert
Jeder Agent nach EU-KI-VO-Risikoklasse klassifiziert (meist begrenzt oder minimal)
Artikel-4-Schulung für alle Mitarbeitenden durchgeführt, die mit KI interagieren
DSGVO-Artikel-32-Sicherheitskontrollen jedem Agenten zugeordnet
Datenschutzbeauftragter hat Datenflüsse jedes Agenten geprüft
Betriebsrat informiert für jeden Agenten, der Mitarbeitendendaten verarbeitet
BSI-Evasion-Gegenmaßnahmen auf Hochrisiko-Agenten angewendet
Anbieterverträge enthalten KI-Sicherheitsklauseln (CVE-Offenlegung, Patch-SLA)
Audit-Log-Aufbewahrung erfüllt sektorale Anforderungen (typisch 90+ Tage)
Incident-Response-Runbook quartalsweise getestet

Der 90-Tage-Hardening-Plan

Die meisten Mittelständler haben bereits einen oder zwei KI-Agenten in Produktion - meist eine Copilot-Einführung, einen vom Anbieter gebauten Customer-Service-Agenten oder einen internen Piloten. Ein 90-Tage-Hardening ist der realistische Weg von „wir haben es, sind aber nervös“ zu „wir wissen, was schiefgehen kann, und haben Kontrollen“. Hier die Wochen-Aufschlüsselung.

Phase 1: Inventur und Threat Model (Wochen 1-4)

Woche 1: Agenten-Inventur - Jeden KI-Agenten, Copiloten und KI-fähiges Tool im Einsatz auflisten - genehmigt und ungenehmigt. Browser-Erweiterungen, IDE-Assistenten, eingebaute Anbieter-Features einschließen. Der Schatten-KI-Footprint ist meist 3-5x größer, als die IT glaubt.
Woche 2: Datenfluss-Mapping - Pro Agent dokumentieren, welche Daten er liest, welche Tools er aufrufen kann und welchen externen Verkehr er erzeugt. Hier zeigen sich die Agenten mit der Lethal Trifecta.
Woche 3: Threat Modelling - Pro Hochpriorität-Agent die OWASP LLM Top 10 durchgehen. Jedes Risiko als hoch, mittel oder niedrig im Kontext bewerten. Die fünf wichtigsten Lücken identifizieren.
Woche 4: Compliance-Gap-Analyse - Jeden Agenten der EU-KI-VO-Risikoklasse, DSGVO-Pflichten und sektorspezifischen Regeln zuordnen. Lücken in Schulung, Dokumentation und Audit-Logging identifizieren.

Phase 2: Kontrollen umsetzen (Wochen 5-8)

Woche 5: Identity und Zugriff - Jeden Agenten auf ein dediziertes Servicekonto umstellen. Least Privilege anwenden. Langlebige Credentials rotieren. Per-Action-Audit-Logging zum SIEM aktivieren.
Woche 6: Eingangs- und Ausgangsfilterung - Prompt-Injection-Klassifikator auf Eingang einsetzen. DLP-Scanning auf Ausgang ergänzen. URL-Allow-Lists für ausgehende Kommunikation umsetzen. Reference-Style-Markdown blockieren, wo passend.
Woche 7: Capability-Beschränkung - Tools entfernen, die der Agent nicht braucht. Code-Ausführung sandboxen. MCP-Server allow-listen. Quotas pro Aktion umsetzen. Kill-Switch ergänzen.
Woche 8: Freigabegates - Aktionen nach Reversibilität und Risiko staffeln. Menschliche Freigabe für irreversible oder hochwirksame Aktionen verdrahten. Freigabematrix dokumentieren, damit sie teamübergreifend konsistent ist.

Phase 3: Red Team und Operationalisieren (Wochen 9-12)

Woche 9: Red-Team-Übung - Bekannte Prompt-Injection-Payloads gegen jeden Agenten laufen lassen. EchoLeak-artige indirekte Injection probieren. Excessive Agency ausnutzen. Kostenbasiertes DoS testen. Dokumentieren, was funktioniert.
Woche 10: Tabletop-Übung - CISO, KI-Lead, Datenschutzbeauftragter und Betriebsrat (wo relevant) gehen ein „Agent kompromittiert“-Szenario durch. Lücken im Runbook identifizieren.
Woche 11: Monitoring-Rollout - Verhaltens-Baselines und Anomalie-Alerts ausrollen. Kosten-Monitoring verdrahten. Wöchentliches Red-Team-Replay in CI ergänzen. Kill-Switch unter produktiven Bedingungen testen.
Woche 12: Governance und Review - Monatliche Governance-Routine etablieren. IT-Team auf das Runbook schulen. Vorstand mit messbaren Ergebnissen briefen (geschlossene Lücken, operationelle Kontrollen, akzeptierte Restrisiken).

90-Tage-Bereitschafts-Checkliste

Jeder KI-Agent hat dokumentierten Owner und Risikoklassifizierung
Jeder Agent läuft mit Least-Privilege-Servicekonto
Eingangsfilterung und Ausgangs-DLP sind ausgerollt
Capability-Allow-Lists sind erzwungen (kein Shell oder Internet per default)
Externe URL-Allow-List blockiert unerwartete Exfiltrationspfade
Audit-Logs fließen mit 90+ Tagen Aufbewahrung in das SIEM
Freigabegates sind für irreversible Aktionen verdrahtet
Kill-Switch mindestens einmal unter produktiven Bedingungen getestet
Wöchentliches Red-Team-Replay läuft in CI
Quartalsweise Tabletop-Übung geplant

Inhouse

✓ Baut interne Kompetenz auf - das Team lernt die Muster
✓ Voller Kontext - das Team kennt die eigenen Systeme
✗ Talent-Lücke - LLM-Sicherheitsspezialisten sind im Mittelstand selten
✗ Langsamer - 6-9 Monate für den ersten Hardening-Zyklus typisch
✗ Blinde Flecken - das Team hat noch keine 100 Produktiv-Agenten gesehen

Externer Partner

✓ Schneller - 90 Tage sind realistisch für ein fokussiertes Engagement
✓ Musterbibliothek - Partner hat gesehen, was funktioniert und was scheitert
✓ Unabhängige Sicht - externes Red-Team findet blinde Flecken
✗ Wissenstransfer nötig - Kompetenz muss intern landen, bevor der Partner geht
✗ Anbieterauswahl ist entscheidend - generalistische Berater übersehen oft die LLM-spezifischen Risiken

12 Fragen an einen KI-Agenten-Anbieter, bevor Sie unterschreiben

Die meisten Einkaufs-Teams stellen die falschen Fragen. Sie fokussieren auf Features und Preis. Die Fragen, die wirklich Risiko aufdecken, sind konkret und architektonisch. Diese Liste wörtlich im nächsten Anbietergespräch verwenden.

Wo steht Prompt Injection auf Ihrer Roadmap? - Die ehrliche Antwort lautet „dauerhaft und für immer“. Anbieter, die sagen „wir haben es gelöst“, sind nicht glaubwürdig.
Welche OWASP LLM Top 10 Risiken haben Sie wie getestet? - Konkrete Testmethodik erfragen, kein Häkchen.
Welche Kontrollen haben Sie auf ausgehendem Netzwerkverkehr aus dem Agenten? - Hier lebt die EchoLeak-Klasse.
Wie isolieren Sie untrusted Content von vertrauenswürdigen Anweisungen im Modellkontext? - Konkrete architektonische Antwort, kein Marketing-Satz.
Wie ist Ihr CVE-Offenlegungs-SLA? - Benachrichtigung in Tagen erwarten, nicht erst nach einer Pressemitteilung.
Wie behandeln Sie MCP-Server, Plugins oder kundenseitig hinzugefügte Tools? - Allow-List, Signierung, Sandboxing - konkret werden.
Wo werden Daten verarbeitet und gespeichert, welche Sub-Auftragsverarbeiter sind beteiligt? - DSGVO-Artikel-28-Frage. Vollständige Sub-Auftragsverarbeiter-Liste verlangen.
Wie lange werden Agenten-Transcripts aufbewahrt, wer hat Zugriff? - Kritisch für Incident Response und DSGVO-Compliance.
Zeigen Sie mir das Audit-Log-Format - Echte Systeme haben reichhaltige, abfragbare Logs. Spielzeug-Systeme nicht.
Wie ist Ihre Incident-Response-Historie für KI-spezifische Vorfälle? - Anonymisierte Post-Mortems sind ein starkes positives Signal.
Wie behandeln Sie EU-KI-VO-Konformitätsbewertung, falls unser Anwendungsfall hochriskant wird? - Der Anbieter sollte vorbereitet sein oder es aktiv vorbereiten.
Können Sie Referenzen von einem ähnlich großen deutschen Mittelständler nennen? - Zwei Referenzen, beide erreichbar, beide ehrlich über das, was schiefging.

Warnsignale

Anbieter meiden, die sagen „unser Modell ist vollständig sicher“, „Prompt Injection ist gelöst“, „darüber müssen Sie sich keine Gedanken machen“ oder „unsere Enterprise-Stufe handhabt das alles“. Echte Sicherheitsanbieter sprechen von Defense in Depth, Restrisiko und kontinuierlicher Verbesserung - nicht von Wundermitteln.

Wie Superkind KI-Agenten-Sicherheit löst

Superkind baut maßgeschneiderte KI-Agenten für KMU und Konzerne. Sicherheit ist kein separater Workstream, der am Ende kommt - sie ist die Architektur ab Woche eins. Jeder Agent, den wir ausliefern, ist standardmäßig gegen die Lethal Trifecta und die OWASP LLM Top 10 entworfen.

Trifecta-bewusstes Design - Jeder Agent startet mit einer bewussten Entscheidung, welche der drei Eigenschaften (private Daten, untrusted Content, externe Kommunikation) tatsächlich nötig ist. Wir brechen die Trifecta per default, wo immer Geschäftswert es erlaubt.
Least Privilege per default - Jeder Agent erhält ein dediziertes Servicekonto, eingegrenzt auf die minimal nötigen Daten und Tools. Read-only ist Ausgangspunkt, Schreibrechte werden pro Anwendungsfall begründet.
Eingangs- und Ausgangsfilter eingebaut - Jeder Agent kommt mit Prompt-Injection-Klassifikation auf Eingang und DLP-Scanning auf Ausgang. Ausgehende URLs sind allow-gelistet. Reference-Style-Markdown ist in Kundenkanälen blockiert.
Capability-Beschränkung erzwungen - Kein Shell, kein Internet, kein MCP-Server, sofern nicht explizit nötig. Jedes Tool ist allow-gelistet. Jede Aktion wird geloggt. Quotas verhindern Unbounded Consumption.
Freigabegates verdrahtet - Irreversible Aktionen gehen durch menschliche Prüfung. Risiko-Stufen und Freigabematrizen sind dokumentiert. Kill-Switches werden vor dem Launch getestet, nicht nach.
Audit-bereit ab Tag eins - Jeder Prompt, jede Antwort, jeder Tool-Aufruf landet im SIEM. 90 Tage Aufbewahrung per default. EU-KI-VO- und DSGVO-Audit-Felder werden automatisch befüllt.
Souveräne Datenverarbeitung - Kundendaten bleiben in Ihrer Infrastruktur oder EU-Cloud. Kein Training auf Ihren Daten. Keine Drittanbieter-Sub-Verarbeiter ohne explizite Freigabe.
Kontinuierliches Red-Teaming - Bekannte Prompt-Injection-Payloads laufen wöchentlich gegen Ihre Agenten. Neue CVEs triggern automatischen Regressionstest. Funde werden binnen Tagen offengelegt.

Ansatz	Generischer KI-Anbieter	Superkind
Default-Agentenhaltung	Maximale Capability für Demos	Minimale Capability, Erweiterung pro Anwendungsfall
Trifecta-Behandlung	Oft alle drei Eigenschaften vorhanden	Trifecta per default gebrochen, wo möglich
Ausgehender Verkehr	Per default offen	Per default allow-gelistet
Audit-Logging	Optionales Add-on	Eingebaut in Ihr SIEM
Red-Team-Kadenz	Bestenfalls jährlich	Wöchentliches Replay + CVE-Regression
EU-KI-VO-Bereitschaft	Verantwortung beim Kunden	Dokumentation Teil der Lieferung
Incident-SLA	Standard-Support	CVE-Offenlegung binnen 5 Werktagen

Vorteile

✓ Sicherheit zuerst - Trifecta-bewusst ab Woche eins
✓ OWASP-konforme Kontrollen - jedes Top-10-Risiko mit dokumentierter Gegenmaßnahme
✓ EU-KI-VO- und BSI-bereit - Dokumentation als Teil der Lieferung
✓ Wöchentliches Red-Team-Replay - Regressionen vor Kundenkontakt
✓ SIEM-natives Logging - integriert in Ihren Sicherheitsstack

Einschränkungen

✗ Langsamere Demo - Freigabegates lassen Vertriebsdemos weniger magisch wirken
✗ Weniger Features beim Launch - Capability-Beschränkung heißt: Ihr erster Agent kann weniger als bei Anbietern, die das überspringen
✗ Engagement-Modell - wir brauchen Zugang zu echten Systemen, nicht nur Dokumentation
✗ Nicht für ungehärtete Pilots - wer einen 2-Wochen-PoC ohne Sicherheit will, ist bei uns falsch

Entscheidungs-Framework: Bereit zum Launch oder erst härten?

Verschiedene Ausgangslagen brauchen verschiedene Antworten. Diese Tabelle hilft bei der Entscheidung: jetzt launchen, mit Härtung launchen, oder pausieren und Fundamente bauen.

Signal	Was es bedeutet	Maßnahme
Sie haben einen oder mehrere Agenten in Produktion mit breiten Rechten	Hoher Schadensradius, Lethal Trifecta wahrscheinlich	90-Tage-Hardening-Plan jetzt starten
Mitarbeitende nutzen Schatten-KI mit Firmendaten	20% der Vorfälle durch Schatten-KI; +670.000 USD Kosten	Genehmigte Alternative innerhalb von 30 Tagen anbieten
Sie evaluieren einen neuen Agenten-Anbieter	Beschaffung ist Ihr letzter günstiger Sicherheits-Hebel	Die 12 Fragen vor Vertragsabschluss stellen
Ein Pilot lief, ging aber nie in Produktion	Häufiger Stillstandspunkt - meist Sicherheit oder Governance	Mit Threat Model starten, nicht mit nächstem Pilot
Ihr Agent verarbeitet kundeneingereichte Inhalte	Hohe Prompt-Injection-Exposition	Eingangsfilterung und Capability-Beschränkung priorisieren
Sie verarbeiten regulierte Daten (Gesundheit, Finanzen, öffentlicher Sektor)	EU-KI-VO-Hochrisiko-Klassifizierung wahrscheinlich	Artikel-15-Kontrollen jetzt als bindend behandeln, nicht 2026
Sie haben keine Audit-Logs vom Agenten	Sie können einen Vorfall weder erkennen noch untersuchen	SIEM-Logging vor jeder anderen Änderung ergänzen

Launchen und härten

✓ Geschäftsmomentum bleibt - der Agent liefert Wert, während Sie härten
✓ Echte Produktivdaten - Threat Model ist geerdet, nicht theoretisch
✓ Team lernt durch Tun - Kompetenz baut sich während des Härtens auf
✗ Restrisiko besteht - bis Kontrollen operationell sind
✗ Ehrlicher Scope nötig - keine breiten Capabilities, bevor Hardening landet

Verzögern und bauen

✓ Niedrigeres Anfangsrisiko - Kontrollen vor den Nutzern
✓ Saubere Audit-Spur - Kontrollen ab Tag eins sichtbar
✗ Pilot-Purgatory-Risiko - liefern macht Projekte real
✗ Langsameres Lernen - Threat Models ohne realen Verkehr übersehen Dinge
✗ Wettbewerbsverzug - andere liefern mit unvollkommener Sicherheit

Häufige Fragen

Prompt Injection bedeutet, dass ein Angreifer Anweisungen in Inhalten versteckt, die der KI-Agent liest - eine E-Mail, ein PDF, eine Kalendereinladung, ein Support-Ticket - und der Agent diese versteckten Anweisungen so behandelt, als hätten Sie sie selbst eingegeben. Der Agent kann nicht zuverlässig zwischen Ihren echten Anweisungen und denen des Angreifers unterscheiden. OWASP führt dies als das Risiko Nummer eins für LLM-Anwendungen 2025.

Real. 2025 hat EchoLeak (CVE-2025-32711) Daten aus Microsoft 365 Copilot über eine einzige harmlos wirkende E-Mail abgegriffen. Cursor IDE wurde durch eine manipulierte README zu Remote Code Execution gebracht. GitHub Copilot wurde aus einem öffentlichen Repository heraus dazu gebracht, unbeaufsichtigte Befehlsausführung zu aktivieren. Gemini Enterprise hat den Speicher eines Opfers über ein Jira-Ticket gelöscht und 15.000 USD Bug Bounty kassiert. Das sind Produktiv-Exploits, keine Laborübungen.

Nein. Gartner-Analyst Dennis Xu hat es klar gesagt: "Es ist unmöglich, Prompt Injection zu 100 Prozent zu blockieren." Die stärksten Verteidigungslinien kombinieren Eingangsfilterung, Ausgangsfilterung, Capability-Beschränkung und menschliche Prüfung. Der Mindset muss sich verschieben - von "jeden Angriff verhindern" zu "den Schaden begrenzen, wenn ein Angriff durchkommt".

Ein Begriff des Sicherheitsforschers Simon Willison. Ein KI-Agent hat die Lethal Trifecta, wenn er drei Eigenschaften gleichzeitig kombiniert: Zugriff auf private Daten, Verarbeitung nicht vertrauenswürdiger Inhalte und externe Kommunikationsfähigkeit. Fehlt eine dieser Eigenschaften, wird Datenabfluss deutlich schwerer. Die schnellste Gegenmaßnahme ist, die Trifecta zu brechen - meist durch Entfernen externer Kommunikation oder Sandboxing untrusted Content.

Ja. Artikel 15 der EU-KI-Verordnung verlangt ausdrücklich, dass Hochrisiko-KI-Systeme widerstandsfähig gegen Angriffe sind - einschließlich Data Poisoning, Model Poisoning, Adversarial Examples und Vertraulichkeitsangriffen. Artikel 99 sieht Bußgelder bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes vor. Ab dem 2. August 2026 gilt die volle Anwendbarkeit. Die meisten internen Mittelstands-Agenten fallen in die Kategorien begrenztes oder minimales Risiko, doch Sicherheitspflichten bestehen weiterhin über die DSGVO, NIS2 und sektorspezifische Regularien.

Schatten-KI bedeutet, dass Mitarbeitende KI-Tools an der IT vorbei nutzen - private ChatGPT-Konten auf Firmengeräten, kostenlose Browser-Erweiterungen, ungenehmigte Automatisierungsskripte. IBMs Cost of a Data Breach Report 2025 zeigt: Schatten-KI war an 20 Prozent der Vorfälle beteiligt und hat die durchschnittlichen Kosten um 670.000 USD erhöht. Die Lösung ist nicht das Verbot von KI, sondern eine genehmigte Alternative, die Mitarbeitende tatsächlich nutzen wollen.

Über Least-Privilege-Zugriff. Der Agent erhält ein dediziertes Servicekonto mit den minimal nötigen Rechten - wo möglich nur lesend, auf konkrete Objekte begrenzt und kontinuierlich auditiert. Kombiniert mit Eingangs- und Ausgangsfilterung, Retrieval-Grounding, Capability-Beschränkung (kein Shell, kein Internet per default) und menschlicher Freigabe für Aktionen oberhalb eines definierten Risikoschwellenwerts. Audit-Logs gehen ins bestehende SIEM.

On-Premise eliminiert eine Bedrohung - Daten verlassen Ihr Netz nicht über eine Drittanbieter-API. Es eliminiert weder Prompt Injection noch Supply-Chain-Risiken, Model Poisoning, Excessive Agency oder andere OWASP-LLM-Risiken. Die Hosting-Entscheidung ist real, aber kleiner als oft gedacht. Architektur und Kontrollen rund um das Modell zählen mehr als der Standort der GPUs.

Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat den Leitfaden "Evasion Attacks auf LLMs - Gegenmaßnahmen in der Praxis" veröffentlicht. Er richtet sich an Entwickler und IT-Verantwortliche. Die Empfehlungen: gestaffelte Verteidigung - Eingangsfilter, Sandboxing, Retrieval-Augmented Generation mit vertrauenswürdigen Quellen, adversariales Testen und kontinuierliches Monitoring. Kernbotschaft: Keine einzelne Kontrolle reicht, selbst gut konfigurierte Systeme lassen sich ohne Defense in Depth aushebeln.

Ein fokussiertes Hardening-Projekt läuft etwa 90 Tage. Wochen 1-4: Inventur, Threat Model, Gap-Analyse. Wochen 5-8: Eingangs-/Ausgangsfilterung, Capability-Beschränkungen und Identity-Kontrollen umsetzen. Wochen 9-12: Red-Team-Übungen, Incident-Response-Runbook und Monitoring-Rollout. Die meisten Mittelstandsunternehmen entdecken in der ersten Phase drei bis fünf Lücken mit hoher Schwere.

CISO-Verantwortung mit geteilter Umsetzung. Der CISO verantwortet Policy, Risikoakzeptanz und Audit. Der KI-Verantwortliche oder Anbieter setzt um. Der Datenschutzbeauftragte gibt die Datenverarbeitung frei. Der Betriebsrat wird einbezogen, wenn Mitarbeitendendaten betroffen sind. Eine monatliche Governance-Routine von 30 Minuten hält alle vier Rollen abgestimmt - ohne neuen Ausschuss.

Selten wie im Film. Das typische Muster ist leiser Datenabfluss über Stunden oder Tage - der Agent verarbeitet ein manipuliertes Dokument, folgt versteckten Anweisungen und schickt Daten über einen Kanal hinaus, der normal aussieht: eine ausgehende E-Mail, ein Webhook, ein geteilter Link. Erkennung kommt aus Anomalie-Monitoring auf Agent-Traffic, nicht aus Antivirus. Deshalb sind Output-Logging und DLP auf Agent-Kanälen genauso wichtig wie Eingangsfilterung.

Anderes Bedrohungsprofil, nicht pauschal sicherer. Offene Gewichte eliminieren Drittanbieter-Datenexposition, fügen aber Supply-Chain-Risiken hinzu - heruntergeladene Modelle können Hintertüren enthalten oder beim Training vergiftet worden sein. Kommerzielle APIs setzen einen Anbieter zwischen Sie und die Daten, bieten aber besseren Incident-Response und Patching. Die ehrliche Antwort: nach Datensensitivität entscheiden, nach Kapazität Ihres Teams und nach Sicherheitsreife des gewählten Anbieters oder Modell-Registries.

Quellen

Henri Jung

Co-Founder bei Superkind, wo er KMU und Konzernen hilft, maßgeschneiderte KI-Agenten einzusetzen, die wirklich zur Arbeitsweise ihrer Teams passen. Henri schließt mit Leidenschaft die Lücke zwischen dem, was KI kann, und dem Wert, den sie in echten Unternehmen schafft. Er glaubt, dass der Mittelstand alles hat, was er braucht, um bei KI führend zu sein - er braucht nur den richtigen Ansatz.

Bereit, Ihre KI-Agenten zu härten?

Buchen Sie 30 Minuten mit Henri. Wir prüfen Ihren aktuellen Aufbau gegen die OWASP LLM Top 10 und skizzieren einen 90-Tage-Hardening-Plan - unverbindlich, ohne Verkaufsgespräch.