Definition: RAG (Retrieval-Augmented Generation)
Retrieval-Augmented Generation ist eine KI-Architektur, bei der die Ausgabe eines Sprachmodells in Dokumenten verankert wird, die zur Anfragezeit aus einem externen Wissensspeicher abgerufen werden - statt sich ausschließlich auf Informationen zu verlassen, die während des Trainings in die Modellgewichte eingebettet wurden.
Kernmerkmale von RAG
RAG kombiniert zwei Komponenten: einen Retriever, der relevante Textpassagen aus einer Wissensbasis abruft, und ein Large Language Model, das diese Passagen zu einer kohärenten Antwort verarbeitet. Dieser zweistufige Prozess verankert die Modellausgabe in nachvollziehbaren Quellen.
- Retrieval findet zur Anfragezeit statt, nicht zum Trainingszeitpunkt
- Quelldokumente werden in Fragmente aufgeteilt, als Vektoren eingebettet und in einer Vektordatenbank gespeichert
- Abgerufene Passagen werden als Kontext in den Modell-Prompt eingefügt
- Antworten können die exakten Quelldokumente zitieren
RAG vs. Fine-Tuning
Fine-Tuning kodiert neues Wissen in die Modellgewichte, indem das Modell auf einem kuratierten Datensatz nachtrainiert wird. RAG hält das Wissen in einem externen Speicher und ruft es bei Bedarf ab. Fine-Tuning eignet sich besser, wenn das Verhalten oder der Stil des Modells verändert werden soll; RAG ist die bessere Wahl, wenn sich das zugrundeliegende Wissen häufig ändert oder nachvollziehbar sein muss. Die meisten Unternehmen entscheiden sich für RAG, weil Dokumente aktualisiert, entfernt oder ergänzt werden können - ohne erneutes Modelltraining.
Bedeutung von RAG im Enterprise-KI-Umfeld
RAG hat sich zur Standardarchitektur für KI-Assistenten in Unternehmen entwickelt, weil es die beiden Probleme löst, die Basissprachmodelle im Geschäftskontext unbrauchbar machen: fehlende unternehmensspezifische Kenntnisse und Halluzinationen. Laut Microsoft Azure Benchmarks erreichen RAG-Systeme bei domänenspezifischen Anfragen eine 40 bis 70 Prozent bessere Faktengenauigkeit als Basis-LLMs ohne Retrieval.
Methoden und Verfahren für RAG
Der Aufbau eines RAG-Systems umfasst drei klar getrennte Phasen: Indexierung, Retrieval und Generierung.
Indexierung
Die Indexierungsphase bereitet Ihre Dokumente für das Retrieval vor. Quelldateien - PDFs, Word-Dokumente, ERP-Exporte, SharePoint-Seiten - werden durch eine Pipeline für intelligente Dokumentenverarbeitung verarbeitet, die Text extrahiert, ihn in Fragmente von etwa 300 bis 500 Token aufteilt und jedes Fragment mit einem Embedding-Modell in einen numerischen Vektor umwandelt. Diese Vektoren werden zusammen mit dem Originaltext in einer Vektordatenbank gespeichert.
- Dokumentenaufnahme aus Dateiablagen, SharePoint und Datenbanken
- Textextraktion und -bereinigung
- Wahl der Chunking-Strategie (feste Größe, semantisch oder hierarchisch)
Retrieval
Wenn ein Nutzer eine Anfrage stellt, wandelt das System die Anfrage mit demselben Embedding-Modell wie bei der Indexierung in einen Vektor um und sucht in der Vektordatenbank nach den semantisch ähnlichsten Fragmenten. Hybrides Retrieval kombiniert dichte Vektorsuche mit klassischer Stichwortsuche, um sowohl semantische als auch exakte Treffer zuverlässig zu finden. Gutes Prompt Engineering formatiert dann die abgerufenen Passagen und die Nutzeranfrage zu einem strukturierten Prompt, dem das Modell folgen kann.
Generierung
Das Sprachmodell erhält den abgerufenen Kontext und die Nutzeranfrage in einem einzigen strukturierten Prompt. Es synthesiert eine Antwort ausschließlich auf Basis der bereitgestellten Passagen. Produktionssysteme enthalten Guardrails, die das Modell anweisen, “Ich weiß es nicht” zu sagen, statt zu spekulieren, wenn der abgerufene Kontext nicht ausreicht.
Wichtige Kennzahlen für RAG
Die Messung eines RAG-Systems erfordert, Retrieval-Qualität und Generierungsqualität getrennt zu verfolgen.
Retrieval-Kennzahlen
- Recall@k: Anteil relevanter Dokumente unter den Top-k-Ergebnissen; Zielwert über 0,8
- Mean Reciprocal Rank (MRR): wie hoch das erste relevante Ergebnis rangiert; Zielwert über 0,7
- Latenz: End-to-End-Antwortzeit; Zielwert unter 3 Sekunden für interaktive Nutzung
- Index-Aktualität: Zeit zwischen Dokumentenaktualisierung und Verfügbarkeit im Retrieval; Zielwert unter 1 Stunde
Generierungskennzahlen
Treue (Faithfulness) und Antwortrelevanz sind die zwei Standarddimensionen, messbar mit Evaluierungsframeworks wie RAGAS. Gartner stellt fest, dass Unternehmen, die diese Metriken im Produktionsbetrieb verfolgen, Qualitätsprobleme erkennen, bevor Nutzer sie bemerken - der entscheidende Unterschied zwischen einem Pilot und einem Produktionssystem.
Geschäftliche Kennzahlen
Das wichtigste Maß ist die Aufgabenabschlussrate - ob Nutzer das Ziel erreichen, das sie zum KI-Assistenten geführt hat. Ergänzen Sie diese durch die Antwortzeit im Vergleich zur manuellen Baseline und den Anteil der Anfragen, die an einen Menschen eskaliert werden.
Risikofaktoren und Kontrollen bei RAG
RAG reduziert Halluzinationen, bringt aber eigene Fehlerquellen mit sich.
Retrieval-Fehler
Wenn der Retrieval-Schritt irrelevante oder veraltete Fragmente zurückgibt, generiert das Modell eine Antwort, die zuverlässig wirkt, aber auf dem falschen Quellmaterial basiert. Das ist schwerer zu erkennen als eine Halluzination eines Basismodells.
- Chunk-Grenzfehler, bei denen Informationen zwischen zwei Fragmenten aufgeteilt werden
- Veraltete Dokumente, die nach einer Aktualisierung nicht neu indexiert wurden
- Vokabular-Mismatches, wenn Nutzer Fragen anders formulieren als die Dokumente geschrieben sind
Datenqualität
Garbage in, garbage out gilt direkt für RAG. Eine Datenpipeline, die schlecht formatierte PDFs, Dubletten oder zugriffsgeschützte Inhalte aufnimmt, liefert unzuverlässige Ergebnisse - unabhängig davon, wie gut das Modell ist.
Zugriffssteuerung
RAG-Systeme können Dokumente versehentlich Nutzern zugänglich machen, die keinen Zugriff haben sollten. Jede Enterprise-RAG-Einführung erfordert eine dokumentenseitige Zugriffssteuerung, die abgerufene Ergebnisse anhand der Berechtigungen des anfragenden Nutzers filtert, bevor sie das Modell erreichen.
Praxisbeispiel
Ein mittelständischer Komponentenhersteller mit 600 Mitarbeitenden setzte einen RAG-basierten Assistenten auf seiner technischen Dokumentationsbibliothek, dem Qualitätsmanagementsystem und dem Lieferantenportal auf. Vor dem System verbrachten Außentechniker durchschnittlich 40 Minuten pro Anfrage mit der Recherche von Produktspezifikationen und zugelassenen Toleranzen.
- Antwortzeit für Spezifikationsrecherchen von 40 Minuten auf unter 90 Sekunden gesenkt
- Quellenangaben werden neben jeder Antwort angezeigt, damit Techniker sie prüfen können
- Automatische Neuindexierung, sobald Qualitätsdokumente im DMS aktualisiert werden
- Wissensmanagement-Berichte zeigen, welche Dokumente am häufigsten abgefragt werden und welche nie abgerufen werden
Aktuelle Entwicklungen und Auswirkungen
RAG entwickelt sich in drei Dimensionen weiter, die für Unternehmenseinführungen relevant sind.
Agentisches RAG
RAG wird zunehmend mit KI-Agenten-Architekturen kombiniert, bei denen der Agent entscheidet, welche Wissensspeicher abgefragt werden, die Anfrage bei unzureichenden Ergebnissen neu formuliert und Ergebnisse aus mehreren Quellen zusammenführt. Agentisches RAG geht über einstufige Fragen und Antworten hinaus und ermöglicht mehrstufige Rechercheaufgaben.
- Iterative Retrieval-Schleifen, die Anfragen auf Basis erster Ergebnisse verfeinern
- Quellenübergreifendes Reasoning, das interne Dokumente mit Live-Außendaten kombiniert
- Gedächtnisschichten, die Kontext über mehrere Sitzungen hinweg persistieren
Multimodales Retrieval
Neuere Embedding-Modelle verarbeiten Bilder, Diagramme und Tabellen neben Text. Enterprise-RAG-Systeme erweitern das Retrieval auf CAD-Zeichnungen, Prüfbilder und Finanzcharts - besonders relevant für die Fertigungs- und Immobilienbranche.
Reife der Evaluierungswerkzeuge
Das RAGAS-Framework und ähnliche Bibliotheken entwickeln sich rasch weiter und geben Unternehmensteams reproduzierbare Metriken für RAG-Qualität, die keine manuelle Prüfung erfordern. Standardisierte Evaluierung ist das, was RAG vom Piloten in den Produktionsbetrieb überführt.
Fazit
RAG ist zur praktischen Grundlage für Unternehmens-KI-Systeme geworden, die mit unternehmensspezifischem, häufig wechselndem und zugriffsgeschütztem Wissen arbeiten müssen. Es bietet einen schnelleren, günstigeren und nachvollziehbareren Weg als Fine-Tuning für die meisten Geschäftsanwendungen. Mit der Reifung agentischer Architekturen und der Standardisierung von Evaluierungswerkzeugen wird RAG zur Standardannahme hinter jedem KI-Assistenten, der in einem Unternehmen eingesetzt wird. Organisationen, die jetzt solide Indexierungspipelines und Retrieval-Qualitätsmetriken aufbauen, werden diesen Vorsprung nutzen können, wenn die zugrundeliegenden Modelle besser werden.
Häufig gestellte Fragen
Wie unterscheidet sich RAG davon, der KI einfach ein Dokument zum Lesen zu geben?
Ein Dokument-Upload funktioniert für eine einzelne Sitzung mit einigen wenigen Seiten. RAG indexiert Tausende oder Millionen von Dokumenten in einer Vektordatenbank und ruft nur die relevantesten Fragmente zur Anfragezeit ab. Das macht RAG auf gesamte Unternehmens-Wissensbasen skalierbar, während die Antwortlatenz unter wenigen Sekunden bleibt.
Eliminiert RAG Halluzinationen vollständig?
Nein. RAG reduziert Halluzinationen erheblich, indem Antworten in abgerufenen Inhalten verankert werden, aber das Modell kann eine abgerufene Passage falsch interpretieren oder das richtige Dokument nicht abrufen. Treue-Evaluierung und obligatorische Quellenangaben sind die wichtigsten Kontrollen im Produktionsbetrieb.
Funktioniert RAG auch mit strukturierten Daten wie SAP- oder ERP-Exporten?
Ja. Strukturierte Daten werden typischerweise in natürlichsprachliche Beschreibungen oder formatierte Tabellen umgewandelt, bevor sie in Fragmente aufgeteilt und eingebettet werden. Manche Architekturen verwenden einen separaten SQL-Generierungspfad für präzise Zahlenanfragen und RAG für unstrukturierte Dokumentenrecherche, wobei Anfragen automatisch dem richtigen Pfad zugewiesen werden.
Wie lange dauert der Aufbau eines produktionsfähigen RAG-Systems?
Ein fokussierter Pilot auf einer einzelnen Dokumentensammlung kann in zwei bis vier Wochen in Betrieb genommen werden. Ein Produktionssystem mit Zugriffssteuerung, automatischer Neuindexierung, Evaluierungs-Dashboards und Integration in bestehende Workflows dauert typischerweise drei bis sechs Monate.
Welche Vektordatenbank sollten wir verwenden?
Für die meisten mittelständischen Einführungen bieten verwaltete Dienste wie Azure AI Search, AWS OpenSearch oder Pinecone ausreichende Leistung ohne Infrastrukturaufwand. Selbst gehostete Optionen wie Qdrant oder Weaviate sind sinnvoll, wenn Datenschutzanforderungen verlangen, dass Vektoren on-premises bleiben.
Fällt RAG unter die EU-KI-Verordnung?
RAG-Systeme, die Mitarbeitende bei Entscheidungen unterstützen - Fragen beantworten, Entwürfe erstellen - fallen in der Regel in die Kategorien minimales oder begrenztes Risiko. Hochrisikoanwendungen wie HR-Scoring oder Kreditentscheidungen erfordern zusätzliche Transparenz- und Dokumentationspflichten, unabhängig davon, ob sie RAG oder eine andere Architektur verwenden.