Im Juni 2025 schickte ein Sicherheitsforscher von Aim Security eine harmlos wirkende E-Mail in ein Microsoft-365-Postfach. Der Empfänger öffnete sie nie. Er klickte nichts an. Er sah sie nicht einmal. Innerhalb weniger Minuten hatte Microsoft 365 Copilot die in der E-Mail versteckten Anweisungen gelesen, das SharePoint, OneDrive und die Teams-Inhalte des Nutzers durchsucht und vertrauliche Daten still über eine vom Angreifer kontrollierte Bild-URL exfiltriert. Der Exploit heißt EchoLeak (CVE-2025-32711) und erreichte einen CVSS-Score von 9,312.
EchoLeak ist kein Einzelfall. 2025 sahen wir auch Cursor IDE über ein manipuliertes README kompromittiert16, GitHub Copilot aus einem öffentlichen Repository heraus zu unbeaufsichtigter Befehlsausführung gebracht16, Devin AI mit einem Forschungsbudget von 500 USD zur Installation von Command-and-Control-Malware manipuliert16 und Gemini Enterprise, das den Speicher eines Opfers über ein Jira-Ticket löschte - 15.000 USD Bug Bounty16. Das sind Produktiv-Exploits in Tools, die deutsche Mittelständler heute einsetzen.
Gleichzeitig melden 87 Prozent der deutschen Unternehmen, in den letzten zwölf Monaten Opfer von Datendiebstahl, Industriespionage oder Sabotage geworden zu sein - mit Schäden von 289,2 Milliarden Euro25. IBMs Cost of a Data Breach Report 2025 zeigt: 97 Prozent der Organisationen mit einem KI-bezogenen Sicherheitsvorfall hatten keine angemessenen KI-Zugriffskontrollen, und Schatten-KI allein erhöhte die Durchschnittskosten eines Vorfalls um 670.000 USD7. Dieser Leitfaden richtet sich an CISO, IT-Verantwortliche, Geschäftsführer oder Datenschutzbeauftragte deutscher KMU, die wissen müssen, was bei KI-Agenten-Sicherheit tatsächlich kaputt ist, was die OWASP LLM Top 10 in Klartext bedeuten und wie sich ein produktiver Agent in 90 Tagen härten lässt.
TL;DR
Prompt Injection ist OWASPs LLM-Risiko Nummer eins für 2025 und lässt sich nicht vollständig verhindern. Die Strategie heißt: Schadensradius begrenzen, nicht jeden Angriff blockieren.
Die Lethal Trifecta - private Daten, untrusted Content und externe Kommunikation im selben Agenten - ist das Muster hinter jedem großen Vorfall 2025.
Defense in Depth über sieben Schichten (Identity, Eingang, Capability, Ausgang, Monitoring, menschliche Prüfung, Incident Response) ist die einzige Architektur, die unter realen Angriffen hält.
Artikel 15 der EU-KI-VO verlangt von Hochrisiko-KI-Systemen Widerstandsfähigkeit gegen Data Poisoning, adversarial Inputs und Vertraulichkeitsangriffe. BSI-Leitfaden und NIST AI RMF zeigen auf dieselben Kontrollen.
90 Tage reichen, um einen produktiven Agenten zu inventarisieren, zu modellieren, zu härten und durchzutesten - wenn man sich auf ein System konzentriert.
Die Bedrohungslage im Mittelstand
Der deutsche Mittelstand ist heute ein attraktives Ziel. Etwa 36 Prozent der deutschen Unternehmen setzen KI in irgendeiner Form ein27, doch die meisten haben schneller eingeführt als gehärtet. Das Ergebnis ist eine Agentenschicht auf geschäftskritischen Systemen mit sehr wenig Härtung darunter. Die Datenlage ist eindeutig.
- Cyberangriffe sind die Norm - 87 Prozent der deutschen Unternehmen waren in den letzten zwölf Monaten von Datendiebstahl, Spionage oder Sabotage betroffen, im Vorjahr waren es 81 Prozent. 59 Prozent fühlen ihre Existenz durch Cyberangriffe bedroht. Jährlicher Schaden für die deutsche Wirtschaft: 202,4 Milliarden Euro25.
- Russland und China sind die Haupttäter - 46 Prozent der betroffenen Unternehmen melden Angriffe aus Russland, ebenso viele aus China25. Mittelständler mit sensiblem geistigem Eigentum gelten heute als weiche Ziele.
- KI-Zugriffskontrollen fehlen - 97 Prozent der Organisationen mit einem KI-bezogenen Sicherheitsvorfall hatten keine angemessenen KI-Zugriffskontrollen7. 63 Prozent hatten überhaupt keine KI-Governance-Richtlinie.
- Schatten-KI ist leise und teuer - Schatten-KI war an 20 Prozent der Vorfälle beteiligt und erhöhte die durchschnittlichen Kosten um 670.000 USD. Schatten-KI-Vorfälle exponieren ungewöhnlich viele personenbezogene Daten79.
- Der durchschnittliche Vorfall ist weiter teuer - 4,44 Millionen USD weltweit in 2025, neun Prozent weniger als im Vorjahr, weil KI-gestützte Erkennung die Reaktionszeit verkürzte. Die Verteilung ist aber ungleich: nicht regulierte KI-Systeme werden häufiger kompromittiert und sind dann teurer7.
- Mittelstand bevorzugt deutsche KI - 88 Prozent der deutschen Unternehmen halten das Herkunftsland ihres KI-Anbieters für wichtig, 93 Prozent davon würden eine Lösung aus Deutschland bevorzugen27. Souveränitätsfragen treiben heute die Beschaffung, nicht nur die IT-Präferenz.
Kennzahl
Gartner prognostiziert, dass KI-Anwendungen bis 2028 die Hälfte der Cybersecurity-Incident-Response-Aufwände treiben werden10. Übersetzt: In zwei Jahren wird die Hälfte jeder CISO-Vorfallswarteschlange auf einen KI-Agenten oder einen KI-gestützten Angriff zurückgehen. Teams, die sich heute vorbereiten, löschen später weniger Brände.
Die Bedrohungslage des Mittelstands ist breiter, als viele Vorstände realisieren, weil KI-Agenten drei Dinge kombinieren, die früher getrennt waren. Sie greifen auf dieselben Daten zu wie ERP, CRM und SharePoint. Sie verarbeiten untrusted Content aus E-Mails, Webseiten und Kundendokumenten. Und sie können handeln - Nachrichten senden, APIs aufrufen, Datensätze anlegen. Diese Kombination ist das Sicherheitsproblem in einem Satz.
| Bedrohungsvektor | Häufigkeit 2025 | Durchschnittliche Auswirkung | Quelle |
|---|---|---|---|
| Cyberangriff auf deutsches Unternehmen | 87% in letzten 12 Monaten | 289,2 Mrd. EUR Gesamtschaden | Bitkom 202525 |
| KI-bezogener Sicherheitsvorfall | 13% der Organisationen | 4,44 Mio. USD Durchschnitt | IBM 20257 |
| Schatten-KI beteiligt | 20% der Vorfälle | +670.000 USD Mehrkosten | IBM 202579 |
| Fehlende KI-Zugriffskontrollen | 97% der betroffenen KI-Organisationen | Höhere PII-Exposition | IBM 20257 |
| Keine KI-Governance-Richtlinie | 63% der Organisationen | Langsamere Erkennung, höhere Kosten | IBM/Ponemon 20257 |
| Prompt Injection in Cyber-Response | Prognose 50% bis 2028 | Hälfte aller IR-Aufwände | Gartner 202610 |
Die Lethal Trifecta - das Muster hinter jedem großen Vorfall
Sicherheitsforscher Simon Willison prägte 2022 den Begriff Prompt Injection und im Juni 2025 die operativ nützlichste Einordnung dazu - die Lethal Trifecta4. Die Trifecta ist das sauberste mentale Modell für KI-Agenten-Risiko. Wenn Sie nur eine Sache aus diesem Artikel mitnehmen, dann diese.
Die drei Eigenschaften
- Zugriff auf private Daten - Der Agent kann Informationen lesen, die nicht öffentlich werden dürfen: Postfach, Kalender, Kundendatenbank, Quellcode, ERP, SharePoint, Dateisystem.
- Verarbeitung untrusted Content - Der Agent verarbeitet Eingaben aus Quellen, die Sie nicht kontrollieren: eingehende E-Mails, Webseiten, PDFs, Support-Tickets, Kalendereinladungen, Lieferantendokumente, öffentliche Repositories.
- Externe Kommunikationsfähigkeit - Der Agent kann Daten herausschicken: ausgehende E-Mail, Webhooks, HTTP-Requests, öffentliche Datei-Schreibvorgänge, Bild-Fetches, generierte Links.
Wenn alle drei im selben Agentenkontext zusammenkommen, kann ein Angreifer, der Anweisungen in irgendeine untrusted Quelle einschleust, damit private Daten lesen und exfiltrieren lassen. Der Agent hat keinen eingebauten Mechanismus, das zu verweigern - er kann nicht zuverlässig zwischen „mein Chef hat mich gebeten, diesen Bericht zu schicken“ und „ein Angreifer hat in einem PDF eine Anweisung versteckt, diesen Bericht zu schicken“ unterscheiden. Das ist die gesamte Schwachstellenklasse.
„Wenn Ihr Agent diese drei Eigenschaften kombiniert, kann ein Angreifer ihn leicht dazu bringen, auf private Daten zuzugreifen und sie an den Angreifer zu schicken.“
- Simon Willison, Sicherheitsforscher und Co-Schöpfer von Django4
Wie die Trifecta auf reale Vorfälle 2025 abbildet
- EchoLeak (Microsoft 365 Copilot) - Private Daten: Outlook, OneDrive, SharePoint. Untrusted Content: eingehende E-Mail. Externe Kommunikation: Bild-URL-Fetch. Alle drei vorhanden. Angriff erfolgreich12.
- GitHub Copilot RCE (CVE-2025-53773) - Private Daten: lokale Entwicklerumgebung. Untrusted Content: Code-Kommentare im öffentlichen Repository. Externe Kommunikation: Shell-Ausführung. Alle drei vorhanden. Angriff erfolgreich16.
- Cursor IDE (CVE-2025-54135) - Private Daten: Entwicklermaschine. Untrusted Content: README-Dateien. Externe Kommunikation: Schreiben beliebiger Konfiguration, die MCP-Server triggerte. Alle drei vorhanden. Angriff erfolgreich16.
- Gemini Enterprise Jira - Private Daten: Agent-Speicher über Sessions. Untrusted Content: Jira-Ticket-Beschreibungen. Externe Kommunikation: agentengesteuerte Aktionen. Alle drei vorhanden. Angriff erfolgreich16.
- Devin AI - Private Daten: Entwickler-Credentials und Code. Untrusted Content: Projektbeschreibung. Externe Kommunikation: Ports öffnen, C2-Malware installieren. Alle drei vorhanden. Angriff erfolgreich4.
Die Gegenmaßnahme
Brechen Sie die Trifecta. Entfernen Sie eine der Eigenschaften, und Datenabfluss wird deutlich schwerer. Praktisch am besten: externe Kommunikation einschränken (kein ausgehender HTTP-Verkehr aus Agentenkontext) oder untrusted Content sandboxen (separate Agenteninstanz ohne Zugriff auf private Daten). Die meisten Produktiv-Agenten liefern denselben Geschäftswert auch mit einer entfernten Eigenschaft.
Trifecta-Risiko nach typischem Agentenmuster
Hohes Risiko (volle Trifecta)
- ✗ E-Mail-Zusammenfasser mit Web-Suche und ausgehender E-Mail
- ✗ Customer-Service-Agent mit CRM-Zugriff und ausgehendem Chat
- ✗ Coding-Assistent mit Repo-Zugriff, Web-Fetch und Shell
- ✗ Browser-Use-Agent mit Dateizugriff und beliebiger Navigation
- ✗ MCP-Assistent mit breitem Tool-Zugriff und ungeprüften MCP-Servern
Niedrigeres Risiko (Trifecta gebrochen)
- ✓ Read-only-RAG über interne Dokumente, ohne externe Kommunikation
- ✓ Dokumentenklassifizierer ohne Internet und ohne Schreibrechte
- ✓ Public-Web-Scraper ohne private Daten im Kontext
- ✓ Übersetzungsagent ohne persistenten Zustand und ohne Tools
- ✓ Freigabe-gesteuerter Workflow, in dem jede externe Aktion menschliche Zustimmung braucht
Die OWASP LLM Top 10 - was jedes Risiko wirklich bedeutet
OWASP veröffentlicht die De-facto-Industrie-Liste der kritischsten LLM-Sicherheitsrisiken. Die Ausgabe 2025 hat die Risiken auf Basis realer Vorfälle 2024-2025 neu sortiert: Sensitive Information Disclosure ist von Platz sechs auf zwei vorgerückt, Supply Chain auf drei1. Hier jedes Risiko in Klartext mit dem typischen Mittelstandskontext.
LLM01:2025 Prompt Injection
Ein Angreifer manipuliert das Verhalten des LLM, indem er Anweisungen in die Eingabe einschleust. Direkte Prompt Injection: der Nutzer tippt die bösartige Anweisung selbst ein. Indirekte Prompt Injection: die Anweisung kommt über externe Inhalte, die das LLM liest2. Indirekt ist die gefährliche Variante - der Nutzer ist unschuldig, aber die E-Mail, das PDF oder die Webseite, die der Agent zusammenfassen soll, enthält versteckte Befehle.
LLM02:2025 Sensitive Information Disclosure
Das Modell gibt private Daten in seinen Antworten preis - personenbezogene Daten, Credentials, System-Prompts, geistiges Eigentum. 2025 von Platz sechs auf zwei aufgrund wiederholter realer Datenlecks1. Im Mittelstand heißt das typischerweise: ein HR-Agent fasst eine Anfrage zusammen und nimmt versehentlich das Gehalt einer anderen Person auf, oder ein Code-Assistent fügt einen Kunden-API-Key in eine unzusammenhängende Antwort ein.
LLM03:2025 Supply Chain
Sie vertrauen Modellen, Fine-Tuning-Datensätzen, Plugins und Tools, die Sie nicht selbst gebaut haben. Jedes davon ist ein potenzieller Einschleusungspunkt. Ein Modell aus einer öffentlichen Registry kann vergiftet sein. Ein fremder MCP-Server kann bösartige Tools maskieren. Ein Fine-Tune-Datensatz kann Backdoor-Trigger enthalten. Mittelständler, die Open-Source-Bausteine ohne Provenienzprüfung kombinieren, erben jede Schwäche der Kette1.
LLM04:2025 Data and Model Poisoning
Angreifer korrumpieren absichtlich Trainingsdaten, Fine-Tuning-Daten oder RAG-Wissensbasen. Das Modell verhält sich auf den meisten Eingaben normal, produziert aber bei bestimmten Triggern vom Angreifer gesteuerte Antworten. Besonders relevant für Unternehmen, die kundeneingereichte Inhalte (Support-Tickets, Produktbewertungen, hochgeladene Dokumente) in eine vom Agenten genutzte Wissensbasis einspeisen1.
LLM05:2025 Improper Output Handling
Die Anwendung behandelt LLM-Ausgaben so, als wären sie vertrauenswürdiger Code oder vertrauenswürdige Daten. Der Agent erzeugt eine SQL-Abfrage, die ohne Parametrisierung ausgeführt wird. Der Agent gibt JavaScript aus, das ohne Escaping gerendert wird. Der Agent produziert einen Shell-Befehl, der ohne Prüfung läuft. Klassischer Injection-Bug, nur mit dem LLM als Quelle1.
LLM06:2025 Excessive Agency
Der Agent hat mehr Rechte, Tools oder Autonomie als der Anwendungsfall erfordert. Ein E-Mail-Zusammenfasser braucht keine Sendefähigkeit. Ein Dokumentenanalyser braucht keinen Shell-Zugriff. Der Schadensradius einer erfolgreichen Prompt Injection skaliert direkt mit den Rechten des Agenten. Die meisten Mittelstands-Agenten scheitern an dieser Prüfung am ersten Tag1.
LLM07:2025 System Prompt Leakage
Der Agent verrät seinen eigenen System-Prompt - Konfiguration, Persona, interne Anweisungen, manchmal eingebettete Credentials oder Tool-Definitionen - durch geschickte Nutzeranfragen. Neuzugang 2025. System-Prompts enthalten oft Datenquellen, Namenskonventionen und Sicherheitsregeln, die einem Angreifer beim nächsten Schritt helfen1.
LLM08:2025 Vector and Embedding Weaknesses
Die Schwachstellenklasse für RAG-Architekturen. Vergiftete Dokumente in der Vektordatenbank, Embedding-Inversionsangriffe, die Originalinhalte rekonstruieren, Retrieval, das Zugriffskontrollen ignoriert, und Vektorräume, die Mandanten vermischen. Neuzugang 2025, weil RAG im Mittelstand vom Prototyp in die Produktion gewandert ist1.
LLM09:2025 Misinformation
Das Modell produziert plausibel klingende, aber faktisch falsche Ausgaben, die Menschen für korrekt halten. Im Sicherheitskontext: eine Fehlklassifizierung einer bösartigen Eingabe als harmlos, eine halluzinierte Kontrolle, die nicht existiert, oder eine selbstbewusst falsche Bedrohungsbewertung. Misinformation überlappt mit operativer Zuverlässigkeit, hat aber direkte Sicherheitskonsequenzen, wenn Menschen sich auf die Ausgabe verlassen1.
LLM10:2025 Unbounded Consumption
Ressourcenerschöpfungsangriffe - Prompt-Muster, die teure Berechnungen erzwingen, Endlosschleifen im Agenten-Reasoning, Denial-of-Service durch parallele teure Anfragen. Kostenbasierte Angriffe sind heute eine reale Bedrohung für jeden Agenten auf einer abgerechneten API. Ein anhaltender Angriff gegen einen unbegrenzten Agenten kann in Tagen sechsstellige Cloud-Rechnungen erzeugen1.
| OWASP-Risiko | Rang-Veränderung 2025 | Am stärksten exponiertes Mittelstandssystem | Primäre Gegenmaßnahme |
|---|---|---|---|
| Prompt Injection | Nr. 1 (unverändert) | E-Mail- und Dokumentenagenten | Eingangsfilterung, Kontextisolation |
| Sensitive Info Disclosure | Nr. 6 zu Nr. 2 | HR- und Finanz-Copiloten | Ausgangsfilterung, Zugriffsbegrenzung |
| Supply Chain | Aufstieg auf Nr. 3 | RAG- und MCP-Ökosysteme | Provenienz, Signierung, Allow-Lists |
| Data and Model Poisoning | Nr. 4 | RAG mit Kundeninhalten | Quellprüfung, Drift-Monitoring |
| Improper Output Handling | Nr. 5 | Code- und SQL-Agenten | Output als untrusted behandeln, Sandbox |
| Excessive Agency | Nr. 6 | Browser-Use- und MCP-Agenten | Least Privilege, Capability-Scoping |
| System Prompt Leakage | Neu | Kundengerichtete Chatbots | Keine Geheimnisse im Prompt, Trennung |
| Vector + Embedding Weaknesses | Neu | Produktive RAG-Systeme | Mandantentrennung, ACL-konformes Retrieval |
| Misinformation | Nr. 9 | Entscheidungs-Support-Agenten | Grounding, Zitate, Confidence-Scoring |
| Unbounded Consumption | Nr. 10 | Öffentliche Agenten auf abgerechneten APIs | Quotas, Budgets, Rate Limits |
„Jede KI in einer adversarischen Umgebung mit untrusted Trainingsdaten oder Eingaben ist anfällig für Prompt Injection. Es ist ein existenzielles Problem, das, soweit ich das beurteilen kann, die meisten Entwickler dieser Technologien einfach ignorieren.“
- Bruce Schneier, Sicherheitstechnologe und Lecturer an der Harvard Kennedy School5
Sorgen wegen Ihres bestehenden KI-Agenten?
Buchen Sie 30 Minuten. Wir prüfen Ihre Architektur gegen die OWASP LLM Top 10.

Reale Vorfälle 2025 - was passiert ist, was fehlte, was zu lernen ist
Theorie ist einfach. Lehrwert haben die öffentlichen Vorfälle 2025, weil sie genau zeigen, welche Kontrollen fehlten. Fünf kurze Fallstudien, dann das verbindende Muster.
Fall 1: EchoLeak (Microsoft 365 Copilot, Juni 2025)
- Was passiert ist - Forscher von Aim Security schickten eine harmlos wirkende E-Mail mit verstecktem Prompt-Injection-Text. M365 Copilot indexierte sie. Als der Nutzer Copilot später eine beliebige Frage stellte, führten die versteckten Anweisungen aus - Inbox, OneDrive, SharePoint und Teams-Inhalte lesen, dann über einen Markdown-Bild-Fetch an eine vom Angreifer kontrollierte URL exfiltrieren12.
- Warum es funktionierte - LLM Scope Violation: externer untrusted Content wurde im selben Kontext wie private Daten verarbeitet und konnte externe Netzwerk-Calls auslösen.
- Was fehlte - Kontextisolation zwischen vertrauenswürdigen Anweisungen und untrusted E-Mail-Body. Ausgangsfilterung auf ausgehende URLs. Microsofts XPIA-Klassifikator wurde durch Reference-Style-Markdown umgangen13.
- Gegenmaßnahme - Microsoft patchte serverseitig ohne Client-Update. Der Fix begrenzt Copilots Fähigkeit, versteckten adversarialen Prompts in Dateien zu folgen15.
Fall 2: Cursor IDE Remote Code Execution (CVE-2025-54135)
- Was passiert ist - Ein Angreifer versteckte Prompt Injection in einer öffentlichen README. Als ein Entwickler das Repo mit aktivem Cursor öffnete, wies der Agent ihn an, eine bösartige .cursor/mcp.json zu schreiben. Diese Konfiguration lud einen feindlichen MCP-Server mit beliebiger Befehlsausführung16.
- Warum es funktionierte - Der Agent behandelte Repository-Inhalte wie Nutzeranweisungen. Konfigurationsdateien waren ohne Bestätigung schreibbar. MCP-Server wurden automatisch geladen.
- Was fehlte - Capability-Gating, Schreibschutz auf Konfigurationsdateien, MCP-Server-Allow-List.
Fall 3: GitHub Copilot Unattended Execution (CVE-2025-53773)
- Was passiert ist - Ein Angreifer bettete Prompt Injection in Code-Kommentare in einem öffentlichen Repository ein. Als ein Entwickler es mit aktivem Copilot öffnete, modifizierte die Injection IDE-Einstellungen, um „unbeaufsichtigte Befehlsausführung“ zu aktivieren. Folgebefehle liefen ohne Prompts16.
- Warum es funktionierte - Copilot hatte Schreibzugriff auf seine eigene Berechtigungskonfiguration. Der Agent konnte sich über normale Ausgaben selbst eskalieren.
- Was fehlte - Privilegiengrenzen zwischen Agentenkontext und Agentenkonfiguration. Der Agent darf sich nicht selbst Rechte erteilen.
Fall 4: Devin AI ungeschützt (Forschung, 2025)
- Was passiert ist - Ein Sicherheitsforscher gab 500 USD aus, um Devins autonomen Coding-Agenten zu testen, und fand ihn vollständig ungeschützt. Mit sorgfältig formulierten Prompts brachte er den Agenten dazu, Ports zum Internet zu öffnen, Access Tokens zu leaken und Command-and-Control-Malware zu installieren4.
- Warum es funktionierte - Maximale Autonomie, keine Capability-Beschränkungen, keine Freigabegates, keine Anomalieerkennung.
- Was fehlte - Praktisch alles. Der Lehrwert liegt darin zu zeigen, wie ein ungehärteter Agent in Produktion aussieht.
Fall 5: Gemini Enterprise Jira Memory Wipe (15.000 USD Bounty)
- Was passiert ist - Ein Forscher reichte ein Jira-Ticket ein, dessen Beschreibung Anweisungen an Gemini Enterprise enthielt. Als der Agent das Ticket verarbeitete, löschte er still den persistenten Speicher des Nutzers über Sessions hinweg16.
- Warum es funktionierte - Untrusted Nutzerinhalt (Ticketbeschreibung) hatte denselben Vertrauenslevel wie die eigenen Zustandsoperationen des Agenten.
- Was fehlte - Privilegientrennung zwischen Dateneingabe und Agenten-Zustandsänderungen.
Das verbindende Muster
- Untrusted Content wurde als trusted behandelt - In jedem Fall fehlte dem Agenten die architektonische Trennung zwischen „was der Nutzer wollte“ und „Text, den der Agent zufällig las“.
- Capabilities waren zu breit - In jedem Fall hatte der Agent mehr Tools, mehr Rechte oder mehr Netzwerkzugriff, als der Anwendungsfall erforderte.
- Externe Kommunikation war unbegrenzt - In jedem Fall konnte der Agent ausgehenden Verkehr initiieren, den ein Angreifer steuern konnte.
- Erkennung kam zu spät - In jedem Fall lief der Angriff still durch. Erkennung kam von Forschern, nicht aus produktivem Monitoring.
- Der Fix war architektonisch, nicht patchbasiert - Jeder Anbieter musste die Vertrauensgrenze neu zeichnen, nicht nur ein String-Muster blockieren.
Die Lehre für den Mittelstand
Wenn ein von Microsoft, GitHub, Google oder Cognition gebauter Agent durch diese Muster kompromittierbar ist, dann ist Ihr eigener Pilot es auch - es sei denn, Sie ziehen die Vertrauensgrenzen bewusst. Die gute Nachricht: Die Kontrollen sind bekannt, und die meisten lassen sich umsetzen, ohne Modell oder Anbieter zu wechseln.
Die Defense-in-Depth-Architektur - sieben Schichten, die halten
Keine einzelne Kontrolle stoppt Prompt Injection. Der BSI-Leitfaden zu LLM-Evasion-Angriffen, das NIST-AI-RMF-GenAI-Profil und die OWASP-Mitigation-Guidance laufen alle auf dasselbe hinaus: gestaffelte Verteidigung, die begrenzt, was eine erfolgreiche Injection tatsächlich anrichten kann1923. Hier das Sieben-Schichten-Modell, das produktive Teams heute tatsächlich einsetzen.
Schicht 1: Identity und Least-Privilege-Zugriff
- Dedizierte Servicekonten - Jeder Agent erhält eine eigene Identität, nicht mit Menschen geteilt. Rechte werden auf das Minimum für den Anwendungsfall begrenzt.
- Read-only per default - Schreibzugriff wird nach Sicherheitsprüfung pro Anwendungsfall vergeben, nicht per default.
- Objektebenen-Scoping - Der Agent sieht die Datensätze, die er braucht, und sonst nichts. Ein Sales-Agent bekommt keine HR-Daten, auch wenn beide in derselben Datenbank liegen.
- Kurze Token-Lebensdauer - Tokens rotieren. Langlebige API-Keys sind das wertvollste Kompromittierungsziel.
- Audit auf jedem Aufruf - Jede Aktion landet im SIEM mit Nutzer, Prompt, Tool und Ergebnis.
Schicht 2: Eingangsfilterung und Kontextisolation
- Prompt-Injection-Klassifikatoren - Spezialisierte Modelle, die Eingaben auf Injection-Muster bewerten. Nicht perfekt, aber ein nützlicher erster Filter.
- Trust-Labels - Nutzereingabe bekommt einen Trust-Level. Abgerufene Dokumente einen niedrigeren. Externer Webinhalt den niedrigsten.
- Quarantäne für Low-Trust-Content - Verdächtige Eingaben durchlaufen eine strengere Pipeline (kleineres Modell, keine Tools, keine privaten Daten), bevor sie in den Hauptfluss gelangen.
- Strukturelle Trenner - Untrusted Content wird in eindeutige Begrenzungen verpackt, die das Modell respektieren soll - nicht perfekt, aber hilfreich.
- Längen- und Inhaltsgrenzen - Offensichtlich feindliche Eingaben blockieren (sehr lange Anweisungssequenzen, Base64-Payloads, versteckte Unicode-Zeichen).
Schicht 3: Capability-Beschränkung und Sandboxing
- Tool-Allow-Lists - Der Agent darf nur vorab freigegebene Tools aufrufen. Neue Tools brauchen Sicherheitsprüfung.
- Kein Shell, kein Internet per default - Beides wird pro Anwendungsfall mit expliziter Freigabe ergänzt, nicht standardmäßig.
- Sandbox-Ausführung - Code, den der Agent erzeugt, läuft in einem isolierten Container ohne Produktiv-Netzzugang.
- MCP-Server-Allow-Lists - Wer MCP nutzt, lässt nur signierte und freigegebene Server zu. Allow-List, keine Deny-List.
- Quotas pro Aktion - Der Agent kann nicht 10.000 E-Mails verschicken oder eine teure API in einer Schleife aufrufen.
Schicht 4: Ausgangsfilterung und DLP
- URL-Filterung ausgehend - Bild-Fetches, Linkgenerierung und Webhook-Aufrufe werden gegen eine Allow-List gefiltert. EchoLeak exfiltrierte über eine Bild-URL - diese Kontrolle hätte gestoppt.
- PII- und Secret-Scanning - Ausgaben werden auf Credentials, API-Keys und PII-Muster geprüft, bevor sie die Agentengrenze verlassen.
- Halluzinations-Grounding - Faktische Aussagen müssen eine vom Agenten abgerufene Quelle zitieren. Unbelegte selbstbewusste Aussagen werden markiert.
- Schema-Validierung - Tool-Eingaben des Agenten werden vor Ausführung gegen strenge Schemata validiert.
- Markdown-Rendering-Kontrollen - In kundengerichteten Ausgaben Reference-Style-Markdown blockieren, der Payloads verstecken kann.
Schicht 5: Monitoring, Alerting und Anomalieerkennung
- Vollständiges Transcript-Logging - Jeder Prompt, jede Antwort, jeder Tool-Aufruf landet in einem abfragbaren Speicher.
- Verhaltens-Baselines - Normaler Token-Verbrauch, normale Tool-Call-Muster, normale Output-Größen. Abweichungen alarmieren.
- Kostenanomalie-Erkennung - Unbounded-Consumption-Angriffe zeigen sich als Kostenausschlag. Alarm bei 2x Baseline.
- Egress-Monitoring - Agent-Netzwerkverkehr läuft auf denselben DLP- und SIEM-Schienen wie der Rest.
- Red-Team-Replay - Bekannte Prompt-Injection-Payloads laufen wöchentlich gegen Produktion. Treffer triggern Untersuchung.
Schicht 6: Human-in-the-Loop und Freigabegates
- Risikogestaffelte Freigaben - Read-only-Zusammenfassung: keine Freigabe. E-Mail an Kunde senden: Freigabe. Geld bewegen: Vier-Augen-Freigabe.
- Reversibilitäts-Check - Reversible Aktionen können autonom laufen, irreversible (Löschen, Zahlungen, öffentliche Posts) brauchen Freigabe.
- Confidence-Schwellen - Der Agent eskaliert an Menschen, wenn seine eigene Confidence unter einem definierten Wert liegt.
- Stichproben-Audit - Auch vollautonome Aktionen werden wöchentlich stichprobenartig geprüft.
- Kill-Switch - Ein Befehl pausiert den Agenten global. Quartalsweise getestet.
Schicht 7: Incident Response und Wiederherstellung
- Runbook - Ein dokumentiertes Playbook für „Agent kompromittiert“ - wer entscheidet, wer schaltet ab, wer benachrichtigt, wer untersucht.
- Forensik-fähige Logs - 30 bis 90 Tage Transcripts und Tool-Calls für Untersuchungen aufbewahrt.
- Tabletop-Übungen - Quartalsweise. CISO durchläuft mit KI-Lead und Datenschutzbeauftragtem ein reales EchoLeak-Szenario.
- Vendor-Incident-Klauseln - Verträge verlangen Offenlegung relevanter CVEs und Patch-Zeitpläne.
- Recovery-Test - Geprobt, wie Agent-Credentials zu widerrufen, Keys zu rotieren und ein sauberer Zustand wiederherzustellen ist.
| Schicht | Primäres Ziel | Stoppt | Typische Tools |
|---|---|---|---|
| 1. Identity | Reichweite begrenzen | Excessive Agency, Sensitive Info Disclosure | IAM, Servicekonten, gescopte Tokens |
| 2. Eingangsfilter | Injection-Erfolg begrenzen | Prompt Injection (direkt + indirekt) | Klassifikatoren, Trenner, Trust-Labels |
| 3. Capability-Beschränkung | Schadensradius begrenzen | Excessive Agency, Improper Output Handling | Allow-Lists, Sandboxes, MCP-Signierung |
| 4. Ausgangsfilter | Exfiltration begrenzen | Sensitive Info Disclosure, Datenabfluss | DLP, URL-Allow-List, Schema-Validierung |
| 5. Monitoring | Angriffe erkennen | Unbounded Consumption, neue Angriffe | SIEM, Verhaltensanalyse, Kosten-Alerts |
| 6. Menschliche Prüfung | Hochkritische Fehler abfangen | Misinformation, irreversible Fehler | Freigabe-Workflows, Kill-Switch |
| 7. Incident Response | Eindämmen und wiederherstellen | Alle Kategorien nach Kompromittierung | Runbooks, Tabletop, Forensik |
„Es ist unmöglich, Prompt Injection zu 100 Prozent zu blockieren. Wir müssen unser Mindset ändern.“
- Dennis Xu, Senior Director Analyst bei Gartner11
EU-KI-VO, BSI-Leitfaden und das NIST AI RMF
KI-Agenten-Sicherheit ist nicht nur eine gute Idee, sondern zunehmend regulatorische Pflicht. Drei Rahmenwerke sind für den deutschen Mittelstand entscheidend: die EU-KI-Verordnung, der BSI-Leitfaden zu LLMs und das NIST AI Risk Management Framework. Sie überlappen mehr, als sie sich widersprechen.
EU-KI-VO Artikel 15 - Cybersicherheit für Hochrisiko-Systeme
Artikel 15 verlangt ausdrücklich, dass Hochrisiko-KI-Systeme widerstandsfähig gegen Angriffe sind. Der Text nennt konkrete Bedrohungen20:
- Data Poisoning - Manipulation von Trainingsdaten zur Korruption des Modellverhaltens.
- Model Poisoning - Manipulation vortrainierter Komponenten.
- Adversarial Examples (Modell-Evasion) - Eingaben, die das Modell zu Fehlverhalten bringen - hier lebt Prompt Injection.
- Vertraulichkeitsangriffe - Versuche, Trainingsdaten oder System-Prompts zu extrahieren.
- Modellfehler - Ausnutzbare Schwächen im Modell selbst.
Für Hochrisiko-Systeme müssen Kontrollen den jeweiligen Risiken und Umständen angemessen sein. Widerstandsfähigkeit lässt sich durch technische Redundanz, Backups und Fail-Safe-Pläne erreichen20. Die meisten internen Mittelstands-Agenten fallen in begrenztes oder minimales Risiko, sodass Artikel 15 oft nicht direkt bindend ist - die gleichen Prinzipien gelten aber über DSGVO Artikel 32 (Sicherheit der Verarbeitung) und die NIS2-Richtlinie für KRITIS-Betreiber.
EU-KI-VO Sanktionen
- Verstöße gegen verbotene KI - Bis zu 35 Mio. EUR oder 7 Prozent des weltweiten Umsatzes21
- Hochrisiko-Nichteinhaltung - Bis zu 15 Mio. EUR oder 3 Prozent des weltweiten Umsatzes21
- Irreführende Angaben - Bis zu 7,5 Mio. EUR oder 1 Prozent des weltweiten Umsatzes21
- KMU-Sonderregelung - Für KMU gilt der jeweils niedrigere (nicht höhere) Betrag, was kleinere Unternehmen verhältnismäßig schützt21
- Volle Anwendbarkeit - 2. August 202622
BSI-Leitfaden zu Evasion-Angriffen
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat „Evasion Attacks auf LLMs - Gegenmaßnahmen in der Praxis“ veröffentlicht, gerichtet an Entwickler und IT-Verantwortliche in Unternehmen und Behörden, die vortrainierte Modelle einsetzen19. Die Kernempfehlungen:
- Gestaffelte Verteidigung - Technische Kontrollen (Filter, Sandboxing, RAG mit vertrauenswürdiger Retrieval) und organisatorische Praxis (adversariales Testen, Governance, Schulung) kombinieren.
- Versagen einzelner Kontrollen annehmen - Keine einzelne Schutzmaßnahme reicht. Mehrere Schichten kompensieren, wenn eine umgangen wird.
- Kontinuierliches Monitoring - Die Besonderheit von Evasion-Angriffen erfordert aktive Beobachtung, nicht periodische Audits.
- Adversariales Testen - Eigene Systeme red-teamen, bevor Angreifer es tun.
- Defense in Depth über den Lebenszyklus - Sicherheit gilt während Entwicklung, Deployment und Betrieb - nicht nur an einer Stelle.
NIST AI RMF Generative AI Profile (NIST-AI-600-1)
Das im Juli 2024 veröffentlichte NIST AI RMF GenAI Profile katalogisiert über 400 Mitigationsmaßnahmen über den KI-Lebenszyklus23. In der EU freiwillig, aber von US-Anbietern breit übernommen und zunehmend in deutscher Beschaffung referenziert. Das Profil deckt Risiken über OWASP hinaus ab - Konfabulation, schädliche Verzerrung, Umweltauswirkungen - und überlappt bei den Sicherheitskategorien.
| Rahmenwerk | Geltungsbereich | Bindend? | Fokus für KI-Agenten-Sicherheit |
|---|---|---|---|
| EU-KI-VO | EU | Ja (Hochrisiko) | Artikel 15 Cybersicherheit, Artikel 4 Schulung |
| BSI LLM-Leitfaden | Deutschland | Empfehlung | Evasion-Angriffs-Gegenmaßnahmen |
| NIST AI RMF GenAI Profile | USA | Freiwillig | 400+ Mitigationen über Lebenszyklus |
| OWASP LLM Top 10 | Global | Industriestandard | Top 10 LLM-Anwendungsrisiken |
| ISO/IEC 42001 | Global | Zertifizierbar | KI-Managementsystem-Standard |
| DSGVO Artikel 32 | EU | Ja | Sicherheit der Verarbeitung personenbezogener Daten |
KI-Agenten-Compliance-Checkliste
- Inventar aller KI-Agenten und ihrer Zugriffsbereiche dokumentiert
- Jeder Agent nach EU-KI-VO-Risikoklasse klassifiziert (meist begrenzt oder minimal)
- Artikel-4-Schulung für alle Mitarbeitenden durchgeführt, die mit KI interagieren
- DSGVO-Artikel-32-Sicherheitskontrollen jedem Agenten zugeordnet
- Datenschutzbeauftragter hat Datenflüsse jedes Agenten geprüft
- Betriebsrat informiert für jeden Agenten, der Mitarbeitendendaten verarbeitet
- BSI-Evasion-Gegenmaßnahmen auf Hochrisiko-Agenten angewendet
- Anbieterverträge enthalten KI-Sicherheitsklauseln (CVE-Offenlegung, Patch-SLA)
- Audit-Log-Aufbewahrung erfüllt sektorale Anforderungen (typisch 90+ Tage)
- Incident-Response-Runbook quartalsweise getestet
Der 90-Tage-Hardening-Plan
Die meisten Mittelständler haben bereits einen oder zwei KI-Agenten in Produktion - meist eine Copilot-Einführung, einen vom Anbieter gebauten Customer-Service-Agenten oder einen internen Piloten. Ein 90-Tage-Hardening ist der realistische Weg von „wir haben es, sind aber nervös“ zu „wir wissen, was schiefgehen kann, und haben Kontrollen“. Hier die Wochen-Aufschlüsselung.
Phase 1: Inventur und Threat Model (Wochen 1-4)
- Woche 1: Agenten-Inventur - Jeden KI-Agenten, Copiloten und KI-fähiges Tool im Einsatz auflisten - genehmigt und ungenehmigt. Browser-Erweiterungen, IDE-Assistenten, eingebaute Anbieter-Features einschließen. Der Schatten-KI-Footprint ist meist 3-5x größer, als die IT glaubt.
- Woche 2: Datenfluss-Mapping - Pro Agent dokumentieren, welche Daten er liest, welche Tools er aufrufen kann und welchen externen Verkehr er erzeugt. Hier zeigen sich die Agenten mit der Lethal Trifecta.
- Woche 3: Threat Modelling - Pro Hochpriorität-Agent die OWASP LLM Top 10 durchgehen. Jedes Risiko als hoch, mittel oder niedrig im Kontext bewerten. Die fünf wichtigsten Lücken identifizieren.
- Woche 4: Compliance-Gap-Analyse - Jeden Agenten der EU-KI-VO-Risikoklasse, DSGVO-Pflichten und sektorspezifischen Regeln zuordnen. Lücken in Schulung, Dokumentation und Audit-Logging identifizieren.
Phase 2: Kontrollen umsetzen (Wochen 5-8)
- Woche 5: Identity und Zugriff - Jeden Agenten auf ein dediziertes Servicekonto umstellen. Least Privilege anwenden. Langlebige Credentials rotieren. Per-Action-Audit-Logging zum SIEM aktivieren.
- Woche 6: Eingangs- und Ausgangsfilterung - Prompt-Injection-Klassifikator auf Eingang einsetzen. DLP-Scanning auf Ausgang ergänzen. URL-Allow-Lists für ausgehende Kommunikation umsetzen. Reference-Style-Markdown blockieren, wo passend.
- Woche 7: Capability-Beschränkung - Tools entfernen, die der Agent nicht braucht. Code-Ausführung sandboxen. MCP-Server allow-listen. Quotas pro Aktion umsetzen. Kill-Switch ergänzen.
- Woche 8: Freigabegates - Aktionen nach Reversibilität und Risiko staffeln. Menschliche Freigabe für irreversible oder hochwirksame Aktionen verdrahten. Freigabematrix dokumentieren, damit sie teamübergreifend konsistent ist.
Phase 3: Red Team und Operationalisieren (Wochen 9-12)
- Woche 9: Red-Team-Übung - Bekannte Prompt-Injection-Payloads gegen jeden Agenten laufen lassen. EchoLeak-artige indirekte Injection probieren. Excessive Agency ausnutzen. Kostenbasiertes DoS testen. Dokumentieren, was funktioniert.
- Woche 10: Tabletop-Übung - CISO, KI-Lead, Datenschutzbeauftragter und Betriebsrat (wo relevant) gehen ein „Agent kompromittiert“-Szenario durch. Lücken im Runbook identifizieren.
- Woche 11: Monitoring-Rollout - Verhaltens-Baselines und Anomalie-Alerts ausrollen. Kosten-Monitoring verdrahten. Wöchentliches Red-Team-Replay in CI ergänzen. Kill-Switch unter produktiven Bedingungen testen.
- Woche 12: Governance und Review - Monatliche Governance-Routine etablieren. IT-Team auf das Runbook schulen. Vorstand mit messbaren Ergebnissen briefen (geschlossene Lücken, operationelle Kontrollen, akzeptierte Restrisiken).
90-Tage-Bereitschafts-Checkliste
- Jeder KI-Agent hat dokumentierten Owner und Risikoklassifizierung
- Jeder Agent läuft mit Least-Privilege-Servicekonto
- Eingangsfilterung und Ausgangs-DLP sind ausgerollt
- Capability-Allow-Lists sind erzwungen (kein Shell oder Internet per default)
- Externe URL-Allow-List blockiert unerwartete Exfiltrationspfade
- Audit-Logs fließen mit 90+ Tagen Aufbewahrung in das SIEM
- Freigabegates sind für irreversible Aktionen verdrahtet
- Kill-Switch mindestens einmal unter produktiven Bedingungen getestet
- Wöchentliches Red-Team-Replay läuft in CI
- Quartalsweise Tabletop-Übung geplant
Inhouse-Hardening vs. externer Partner
Inhouse
- ✓ Baut interne Kompetenz auf - das Team lernt die Muster
- ✓ Voller Kontext - das Team kennt die eigenen Systeme
- ✗ Talent-Lücke - LLM-Sicherheitsspezialisten sind im Mittelstand selten
- ✗ Langsamer - 6-9 Monate für den ersten Hardening-Zyklus typisch
- ✗ Blinde Flecken - das Team hat noch keine 100 Produktiv-Agenten gesehen
Externer Partner
- ✓ Schneller - 90 Tage sind realistisch für ein fokussiertes Engagement
- ✓ Musterbibliothek - Partner hat gesehen, was funktioniert und was scheitert
- ✓ Unabhängige Sicht - externes Red-Team findet blinde Flecken
- ✗ Wissenstransfer nötig - Kompetenz muss intern landen, bevor der Partner geht
- ✗ Anbieterauswahl ist entscheidend - generalistische Berater übersehen oft die LLM-spezifischen Risiken
12 Fragen an einen KI-Agenten-Anbieter, bevor Sie unterschreiben
Die meisten Einkaufs-Teams stellen die falschen Fragen. Sie fokussieren auf Features und Preis. Die Fragen, die wirklich Risiko aufdecken, sind konkret und architektonisch. Diese Liste wörtlich im nächsten Anbietergespräch verwenden.
- Wo steht Prompt Injection auf Ihrer Roadmap? - Die ehrliche Antwort lautet „dauerhaft und für immer“. Anbieter, die sagen „wir haben es gelöst“, sind nicht glaubwürdig.
- Welche OWASP LLM Top 10 Risiken haben Sie wie getestet? - Konkrete Testmethodik erfragen, kein Häkchen.
- Welche Kontrollen haben Sie auf ausgehendem Netzwerkverkehr aus dem Agenten? - Hier lebt die EchoLeak-Klasse.
- Wie isolieren Sie untrusted Content von vertrauenswürdigen Anweisungen im Modellkontext? - Konkrete architektonische Antwort, kein Marketing-Satz.
- Wie ist Ihr CVE-Offenlegungs-SLA? - Benachrichtigung in Tagen erwarten, nicht erst nach einer Pressemitteilung.
- Wie behandeln Sie MCP-Server, Plugins oder kundenseitig hinzugefügte Tools? - Allow-List, Signierung, Sandboxing - konkret werden.
- Wo werden Daten verarbeitet und gespeichert, welche Sub-Auftragsverarbeiter sind beteiligt? - DSGVO-Artikel-28-Frage. Vollständige Sub-Auftragsverarbeiter-Liste verlangen.
- Wie lange werden Agenten-Transcripts aufbewahrt, wer hat Zugriff? - Kritisch für Incident Response und DSGVO-Compliance.
- Zeigen Sie mir das Audit-Log-Format - Echte Systeme haben reichhaltige, abfragbare Logs. Spielzeug-Systeme nicht.
- Wie ist Ihre Incident-Response-Historie für KI-spezifische Vorfälle? - Anonymisierte Post-Mortems sind ein starkes positives Signal.
- Wie behandeln Sie EU-KI-VO-Konformitätsbewertung, falls unser Anwendungsfall hochriskant wird? - Der Anbieter sollte vorbereitet sein oder es aktiv vorbereiten.
- Können Sie Referenzen von einem ähnlich großen deutschen Mittelständler nennen? - Zwei Referenzen, beide erreichbar, beide ehrlich über das, was schiefging.
Warnsignale
Anbieter meiden, die sagen „unser Modell ist vollständig sicher“, „Prompt Injection ist gelöst“, „darüber müssen Sie sich keine Gedanken machen“ oder „unsere Enterprise-Stufe handhabt das alles“. Echte Sicherheitsanbieter sprechen von Defense in Depth, Restrisiko und kontinuierlicher Verbesserung - nicht von Wundermitteln.
Wie Superkind KI-Agenten-Sicherheit löst
Superkind baut maßgeschneiderte KI-Agenten für KMU und Konzerne. Sicherheit ist kein separater Workstream, der am Ende kommt - sie ist die Architektur ab Woche eins. Jeder Agent, den wir ausliefern, ist standardmäßig gegen die Lethal Trifecta und die OWASP LLM Top 10 entworfen.
- Trifecta-bewusstes Design - Jeder Agent startet mit einer bewussten Entscheidung, welche der drei Eigenschaften (private Daten, untrusted Content, externe Kommunikation) tatsächlich nötig ist. Wir brechen die Trifecta per default, wo immer Geschäftswert es erlaubt.
- Least Privilege per default - Jeder Agent erhält ein dediziertes Servicekonto, eingegrenzt auf die minimal nötigen Daten und Tools. Read-only ist Ausgangspunkt, Schreibrechte werden pro Anwendungsfall begründet.
- Eingangs- und Ausgangsfilter eingebaut - Jeder Agent kommt mit Prompt-Injection-Klassifikation auf Eingang und DLP-Scanning auf Ausgang. Ausgehende URLs sind allow-gelistet. Reference-Style-Markdown ist in Kundenkanälen blockiert.
- Capability-Beschränkung erzwungen - Kein Shell, kein Internet, kein MCP-Server, sofern nicht explizit nötig. Jedes Tool ist allow-gelistet. Jede Aktion wird geloggt. Quotas verhindern Unbounded Consumption.
- Freigabegates verdrahtet - Irreversible Aktionen gehen durch menschliche Prüfung. Risiko-Stufen und Freigabematrizen sind dokumentiert. Kill-Switches werden vor dem Launch getestet, nicht nach.
- Audit-bereit ab Tag eins - Jeder Prompt, jede Antwort, jeder Tool-Aufruf landet im SIEM. 90 Tage Aufbewahrung per default. EU-KI-VO- und DSGVO-Audit-Felder werden automatisch befüllt.
- Souveräne Datenverarbeitung - Kundendaten bleiben in Ihrer Infrastruktur oder EU-Cloud. Kein Training auf Ihren Daten. Keine Drittanbieter-Sub-Verarbeiter ohne explizite Freigabe.
- Kontinuierliches Red-Teaming - Bekannte Prompt-Injection-Payloads laufen wöchentlich gegen Ihre Agenten. Neue CVEs triggern automatischen Regressionstest. Funde werden binnen Tagen offengelegt.
| Ansatz | Generischer KI-Anbieter | Superkind |
|---|---|---|
| Default-Agentenhaltung | Maximale Capability für Demos | Minimale Capability, Erweiterung pro Anwendungsfall |
| Trifecta-Behandlung | Oft alle drei Eigenschaften vorhanden | Trifecta per default gebrochen, wo möglich |
| Ausgehender Verkehr | Per default offen | Per default allow-gelistet |
| Audit-Logging | Optionales Add-on | Eingebaut in Ihr SIEM |
| Red-Team-Kadenz | Bestenfalls jährlich | Wöchentliches Replay + CVE-Regression |
| EU-KI-VO-Bereitschaft | Verantwortung beim Kunden | Dokumentation Teil der Lieferung |
| Incident-SLA | Standard-Support | CVE-Offenlegung binnen 5 Werktagen |
Superkind
Vorteile
- ✓ Sicherheit zuerst - Trifecta-bewusst ab Woche eins
- ✓ OWASP-konforme Kontrollen - jedes Top-10-Risiko mit dokumentierter Gegenmaßnahme
- ✓ EU-KI-VO- und BSI-bereit - Dokumentation als Teil der Lieferung
- ✓ Wöchentliches Red-Team-Replay - Regressionen vor Kundenkontakt
- ✓ SIEM-natives Logging - integriert in Ihren Sicherheitsstack
Einschränkungen
- ✗ Langsamere Demo - Freigabegates lassen Vertriebsdemos weniger magisch wirken
- ✗ Weniger Features beim Launch - Capability-Beschränkung heißt: Ihr erster Agent kann weniger als bei Anbietern, die das überspringen
- ✗ Engagement-Modell - wir brauchen Zugang zu echten Systemen, nicht nur Dokumentation
- ✗ Nicht für ungehärtete Pilots - wer einen 2-Wochen-PoC ohne Sicherheit will, ist bei uns falsch
Entscheidungs-Framework: Bereit zum Launch oder erst härten?
Verschiedene Ausgangslagen brauchen verschiedene Antworten. Diese Tabelle hilft bei der Entscheidung: jetzt launchen, mit Härtung launchen, oder pausieren und Fundamente bauen.
| Signal | Was es bedeutet | Maßnahme |
|---|---|---|
| Sie haben einen oder mehrere Agenten in Produktion mit breiten Rechten | Hoher Schadensradius, Lethal Trifecta wahrscheinlich | 90-Tage-Hardening-Plan jetzt starten |
| Mitarbeitende nutzen Schatten-KI mit Firmendaten | 20% der Vorfälle durch Schatten-KI; +670.000 USD Kosten | Genehmigte Alternative innerhalb von 30 Tagen anbieten |
| Sie evaluieren einen neuen Agenten-Anbieter | Beschaffung ist Ihr letzter günstiger Sicherheits-Hebel | Die 12 Fragen vor Vertragsabschluss stellen |
| Ein Pilot lief, ging aber nie in Produktion | Häufiger Stillstandspunkt - meist Sicherheit oder Governance | Mit Threat Model starten, nicht mit nächstem Pilot |
| Ihr Agent verarbeitet kundeneingereichte Inhalte | Hohe Prompt-Injection-Exposition | Eingangsfilterung und Capability-Beschränkung priorisieren |
| Sie verarbeiten regulierte Daten (Gesundheit, Finanzen, öffentlicher Sektor) | EU-KI-VO-Hochrisiko-Klassifizierung wahrscheinlich | Artikel-15-Kontrollen jetzt als bindend behandeln, nicht 2026 |
| Sie haben keine Audit-Logs vom Agenten | Sie können einen Vorfall weder erkennen noch untersuchen | SIEM-Logging vor jeder anderen Änderung ergänzen |
Launchen-und-härten vs. Verzögern-und-bauen
Launchen und härten
- ✓ Geschäftsmomentum bleibt - der Agent liefert Wert, während Sie härten
- ✓ Echte Produktivdaten - Threat Model ist geerdet, nicht theoretisch
- ✓ Team lernt durch Tun - Kompetenz baut sich während des Härtens auf
- ✗ Restrisiko besteht - bis Kontrollen operationell sind
- ✗ Ehrlicher Scope nötig - keine breiten Capabilities, bevor Hardening landet
Verzögern und bauen
- ✓ Niedrigeres Anfangsrisiko - Kontrollen vor den Nutzern
- ✓ Saubere Audit-Spur - Kontrollen ab Tag eins sichtbar
- ✗ Pilot-Purgatory-Risiko - liefern macht Projekte real
- ✗ Langsameres Lernen - Threat Models ohne realen Verkehr übersehen Dinge
- ✗ Wettbewerbsverzug - andere liefern mit unvollkommener Sicherheit
Häufige Fragen
Prompt Injection bedeutet, dass ein Angreifer Anweisungen in Inhalten versteckt, die der KI-Agent liest - eine E-Mail, ein PDF, eine Kalendereinladung, ein Support-Ticket - und der Agent diese versteckten Anweisungen so behandelt, als hätten Sie sie selbst eingegeben. Der Agent kann nicht zuverlässig zwischen Ihren echten Anweisungen und denen des Angreifers unterscheiden. OWASP führt dies als das Risiko Nummer eins für LLM-Anwendungen 2025.
Real. 2025 hat EchoLeak (CVE-2025-32711) Daten aus Microsoft 365 Copilot über eine einzige harmlos wirkende E-Mail abgegriffen. Cursor IDE wurde durch eine manipulierte README zu Remote Code Execution gebracht. GitHub Copilot wurde aus einem öffentlichen Repository heraus dazu gebracht, unbeaufsichtigte Befehlsausführung zu aktivieren. Gemini Enterprise hat den Speicher eines Opfers über ein Jira-Ticket gelöscht und 15.000 USD Bug Bounty kassiert. Das sind Produktiv-Exploits, keine Laborübungen.
Nein. Gartner-Analyst Dennis Xu hat es klar gesagt: "Es ist unmöglich, Prompt Injection zu 100 Prozent zu blockieren." Die stärksten Verteidigungslinien kombinieren Eingangsfilterung, Ausgangsfilterung, Capability-Beschränkung und menschliche Prüfung. Der Mindset muss sich verschieben - von "jeden Angriff verhindern" zu "den Schaden begrenzen, wenn ein Angriff durchkommt".
Ein Begriff des Sicherheitsforschers Simon Willison. Ein KI-Agent hat die Lethal Trifecta, wenn er drei Eigenschaften gleichzeitig kombiniert: Zugriff auf private Daten, Verarbeitung nicht vertrauenswürdiger Inhalte und externe Kommunikationsfähigkeit. Fehlt eine dieser Eigenschaften, wird Datenabfluss deutlich schwerer. Die schnellste Gegenmaßnahme ist, die Trifecta zu brechen - meist durch Entfernen externer Kommunikation oder Sandboxing untrusted Content.
Ja. Artikel 15 der EU-KI-Verordnung verlangt ausdrücklich, dass Hochrisiko-KI-Systeme widerstandsfähig gegen Angriffe sind - einschließlich Data Poisoning, Model Poisoning, Adversarial Examples und Vertraulichkeitsangriffen. Artikel 99 sieht Bußgelder bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes vor. Ab dem 2. August 2026 gilt die volle Anwendbarkeit. Die meisten internen Mittelstands-Agenten fallen in die Kategorien begrenztes oder minimales Risiko, doch Sicherheitspflichten bestehen weiterhin über die DSGVO, NIS2 und sektorspezifische Regularien.
Schatten-KI bedeutet, dass Mitarbeitende KI-Tools an der IT vorbei nutzen - private ChatGPT-Konten auf Firmengeräten, kostenlose Browser-Erweiterungen, ungenehmigte Automatisierungsskripte. IBMs Cost of a Data Breach Report 2025 zeigt: Schatten-KI war an 20 Prozent der Vorfälle beteiligt und hat die durchschnittlichen Kosten um 670.000 USD erhöht. Die Lösung ist nicht das Verbot von KI, sondern eine genehmigte Alternative, die Mitarbeitende tatsächlich nutzen wollen.
Über Least-Privilege-Zugriff. Der Agent erhält ein dediziertes Servicekonto mit den minimal nötigen Rechten - wo möglich nur lesend, auf konkrete Objekte begrenzt und kontinuierlich auditiert. Kombiniert mit Eingangs- und Ausgangsfilterung, Retrieval-Grounding, Capability-Beschränkung (kein Shell, kein Internet per default) und menschlicher Freigabe für Aktionen oberhalb eines definierten Risikoschwellenwerts. Audit-Logs gehen ins bestehende SIEM.
On-Premise eliminiert eine Bedrohung - Daten verlassen Ihr Netz nicht über eine Drittanbieter-API. Es eliminiert weder Prompt Injection noch Supply-Chain-Risiken, Model Poisoning, Excessive Agency oder andere OWASP-LLM-Risiken. Die Hosting-Entscheidung ist real, aber kleiner als oft gedacht. Architektur und Kontrollen rund um das Modell zählen mehr als der Standort der GPUs.
Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat den Leitfaden "Evasion Attacks auf LLMs - Gegenmaßnahmen in der Praxis" veröffentlicht. Er richtet sich an Entwickler und IT-Verantwortliche. Die Empfehlungen: gestaffelte Verteidigung - Eingangsfilter, Sandboxing, Retrieval-Augmented Generation mit vertrauenswürdigen Quellen, adversariales Testen und kontinuierliches Monitoring. Kernbotschaft: Keine einzelne Kontrolle reicht, selbst gut konfigurierte Systeme lassen sich ohne Defense in Depth aushebeln.
Ein fokussiertes Hardening-Projekt läuft etwa 90 Tage. Wochen 1-4: Inventur, Threat Model, Gap-Analyse. Wochen 5-8: Eingangs-/Ausgangsfilterung, Capability-Beschränkungen und Identity-Kontrollen umsetzen. Wochen 9-12: Red-Team-Übungen, Incident-Response-Runbook und Monitoring-Rollout. Die meisten Mittelstandsunternehmen entdecken in der ersten Phase drei bis fünf Lücken mit hoher Schwere.
CISO-Verantwortung mit geteilter Umsetzung. Der CISO verantwortet Policy, Risikoakzeptanz und Audit. Der KI-Verantwortliche oder Anbieter setzt um. Der Datenschutzbeauftragte gibt die Datenverarbeitung frei. Der Betriebsrat wird einbezogen, wenn Mitarbeitendendaten betroffen sind. Eine monatliche Governance-Routine von 30 Minuten hält alle vier Rollen abgestimmt - ohne neuen Ausschuss.
Selten wie im Film. Das typische Muster ist leiser Datenabfluss über Stunden oder Tage - der Agent verarbeitet ein manipuliertes Dokument, folgt versteckten Anweisungen und schickt Daten über einen Kanal hinaus, der normal aussieht: eine ausgehende E-Mail, ein Webhook, ein geteilter Link. Erkennung kommt aus Anomalie-Monitoring auf Agent-Traffic, nicht aus Antivirus. Deshalb sind Output-Logging und DLP auf Agent-Kanälen genauso wichtig wie Eingangsfilterung.
Anderes Bedrohungsprofil, nicht pauschal sicherer. Offene Gewichte eliminieren Drittanbieter-Datenexposition, fügen aber Supply-Chain-Risiken hinzu - heruntergeladene Modelle können Hintertüren enthalten oder beim Training vergiftet worden sein. Kommerzielle APIs setzen einen Anbieter zwischen Sie und die Daten, bieten aber besseren Incident-Response und Patching. Die ehrliche Antwort: nach Datensensitivität entscheiden, nach Kapazität Ihres Teams und nach Sicherheitsreife des gewählten Anbieters oder Modell-Registries.
Verwandte Artikel
- Schatten-KI im Mittelstand: Das Governance-Playbook
- Human-in-the-Loop: Vertrauen in KI-Agenten aufbauen
- KI als Compliance-Assistent
- Die EU-KI-Verordnung für den Mittelstand
- Souveräne KI: Wann Datensouveränität wirklich zählt
Quellen
- OWASP - Top 10 für LLM-Anwendungen 2025 (PDF)
- OWASP - LLM01:2025 Prompt Injection
- OWASP - Top 10 für Large Language Model Applications
- Simon Willison - The Lethal Trifecta for AI Agents
- Bruce Schneier - We Are Still Unable to Secure LLMs from Malicious Inputs
- Bruce Schneier - Applying Security Engineering to Prompt Injection Security
- IBM - Cost of a Data Breach 2025: Navigating the AI Rush
- IBM - Cost of a Data Breach 2025 Report
- Kiteworks - Wie Schatten-KI Unternehmen 670.000 USD zusätzlich kostet
- Gartner - KI-Anwendungen treiben 50% der Cybersecurity-Incident-Response bis 2028
- Hyperproof - Gartner Security and Risk 2025 (Dennis Xu Zitat)
- HackTheBox - Inside CVE-2025-32711 (EchoLeak)
- Trend Micro - Preventing Zero-Click AI Threats: Insights from EchoLeak
- arxiv - EchoLeak: The First Real-World Zero-Click Prompt Injection Exploit
- The Hacker News - Zero-Click AI Vulnerability Exposes Microsoft 365 Copilot
- Obsidian Security - Prompt Injection Attacks: The Most Common AI Exploit in 2025
- Lakera - Indirect Prompt Injection: The Hidden Threat
- Vectra AI - Prompt Injection: Types, Real-World CVEs, and Enterprise Defenses
- Security Affairs - BSI veröffentlicht Leitlinien gegen Evasion-Angriffe auf LLMs
- EU-KI-VO - Artikel 15: Genauigkeit, Robustheit und Cybersicherheit
- EU-KI-VO - Artikel 99: Sanktionen
- EU-KI-VO - Implementation Timeline
- NIST - AI Risk Management Framework: Generative AI Profile (NIST-AI-600-1)
- NIST - AI Risk Management Framework Übersicht
- Bitkom - Wirtschaftsschutz 2025 Studie
- TWINSOFT - Bitkom Cybersecurity-Studie 2025 Zusammenfassung
- Privacy Conference - Bitkom Durchbruch bei Künstlicher Intelligenz
- Airia - AI Security in 2026: Prompt Injection, the Lethal Trifecta, and How to Defend
- Oligo Security - OWASP Top 10 LLM Updated 2025: Examples and Mitigation
- SOC Prime - CVE-2025-32711 Zero-Click AI Vulnerability
Bereit, Ihre KI-Agenten zu härten?
Buchen Sie 30 Minuten mit Henri. Wir prüfen Ihren aktuellen Aufbau gegen die OWASP LLM Top 10 und skizzieren einen 90-Tage-Hardening-Plan - unverbindlich, ohne Verkaufsgespräch.
Demo buchen →
