KI-Lexikon

RAG (Retrieval-Augmented Generation): KI, die mit Ihren eigenen Unternehmensdaten arbeitet

24. April 2026

Retrieval-Augmented Generation (RAG) ist eine KI-Architektur, die ein Sprachmodell mit einem Live-Abrufschritt aus Ihren eigenen Dokumenten und Datenbanken kombiniert, bevor eine Antwort generiert wird. Statt sich ausschließlich auf das zu verlassen, womit das Modell trainiert wurde, ruft RAG zur Anfragezeit die relevantesten Textpassagen aus Ihrer Unternehmens-Wissensbasis ab und übergibt sie dem Modell als Kontext. Dieser Artikel erklärt, wie RAG funktioniert, warum es zur dominierenden Architektur für Unternehmens-KI geworden ist und was Sie für ein produktionsfähiges System brauchen.

Kernpunkte

RAG verankert KI-Antworten in abgerufenen Dokumenten und reduziert damit die Halluzinationsrate von Basissprachmodellen erheblich.
Laut Microsoft Azure Benchmarks erreichen domänenspezifische RAG-Systeme bei Unternehmensanfragen 40 bis 70 Prozent bessere Faktengenauigkeit als Basis-LLMs ohne Retrieval.
RAG erfordert kein Fine-Tuning des Modells und lässt sich in Wochen statt Monaten zu einem Bruchteil der Rechenkosten einführen.
Gartner identifizierte RAG als eines der wichtigsten Enterprise-KI-Muster für 2024 und 2025, mit einer jährlichen Verdopplung der Adoptionsrate.
Ein Produktions-RAG-System arbeitet typischerweise gegen eine Vektordatenbank mit Hunderttausenden indexierter Dokumentenfragmente.

Definition: RAG (Retrieval-Augmented Generation)

Retrieval-Augmented Generation ist eine KI-Architektur, bei der die Ausgabe eines Sprachmodells in Dokumenten verankert wird, die zur Anfragezeit aus einem externen Wissensspeicher abgerufen werden - statt sich ausschließlich auf Informationen zu verlassen, die während des Trainings in die Modellgewichte eingebettet wurden.

Kernmerkmale von RAG

RAG kombiniert zwei Komponenten: einen Retriever, der relevante Textpassagen aus einer Wissensbasis abruft, und ein Large Language Model, das diese Passagen zu einer kohärenten Antwort verarbeitet. Dieser zweistufige Prozess verankert die Modellausgabe in nachvollziehbaren Quellen.

Retrieval findet zur Anfragezeit statt, nicht zum Trainingszeitpunkt
Quelldokumente werden in Fragmente aufgeteilt, als Vektoren eingebettet und in einer Vektordatenbank gespeichert
Abgerufene Passagen werden als Kontext in den Modell-Prompt eingefügt
Antworten können die exakten Quelldokumente zitieren

RAG vs. Fine-Tuning

Fine-Tuning kodiert neues Wissen in die Modellgewichte, indem das Modell auf einem kuratierten Datensatz nachtrainiert wird. RAG hält das Wissen in einem externen Speicher und ruft es bei Bedarf ab. Fine-Tuning eignet sich besser, wenn das Verhalten oder der Stil des Modells verändert werden soll; RAG ist die bessere Wahl, wenn sich das zugrundeliegende Wissen häufig ändert oder nachvollziehbar sein muss. Die meisten Unternehmen entscheiden sich für RAG, weil Dokumente aktualisiert, entfernt oder ergänzt werden können - ohne erneutes Modelltraining.

Bedeutung von RAG im Enterprise-KI-Umfeld

RAG hat sich zur Standardarchitektur für KI-Assistenten in Unternehmen entwickelt, weil es die beiden Probleme löst, die Basissprachmodelle im Geschäftskontext unbrauchbar machen: fehlende unternehmensspezifische Kenntnisse und Halluzinationen. Laut Microsoft Azure Benchmarks erreichen RAG-Systeme bei domänenspezifischen Anfragen eine 40 bis 70 Prozent bessere Faktengenauigkeit als Basis-LLMs ohne Retrieval.

Methoden und Verfahren für RAG

Der Aufbau eines RAG-Systems umfasst drei klar getrennte Phasen: Indexierung, Retrieval und Generierung.

Indexierung

Die Indexierungsphase bereitet Ihre Dokumente für das Retrieval vor. Quelldateien - PDFs, Word-Dokumente, ERP-Exporte, SharePoint-Seiten - werden durch eine Pipeline für intelligente Dokumentenverarbeitung verarbeitet, die Text extrahiert, ihn in Fragmente von etwa 300 bis 500 Token aufteilt und jedes Fragment mit einem Embedding-Modell in einen numerischen Vektor umwandelt. Diese Vektoren werden zusammen mit dem Originaltext in einer Vektordatenbank gespeichert.

Dokumentenaufnahme aus Dateiablagen, SharePoint und Datenbanken
Textextraktion und -bereinigung
Wahl der Chunking-Strategie (feste Größe, semantisch oder hierarchisch)

Retrieval

Wenn ein Nutzer eine Anfrage stellt, wandelt das System die Anfrage mit demselben Embedding-Modell wie bei der Indexierung in einen Vektor um und sucht in der Vektordatenbank nach den semantisch ähnlichsten Fragmenten. Hybrides Retrieval kombiniert dichte Vektorsuche mit klassischer Stichwortsuche, um sowohl semantische als auch exakte Treffer zuverlässig zu finden. Gutes Prompt Engineering formatiert dann die abgerufenen Passagen und die Nutzeranfrage zu einem strukturierten Prompt, dem das Modell folgen kann.

Generierung

Das Sprachmodell erhält den abgerufenen Kontext und die Nutzeranfrage in einem einzigen strukturierten Prompt. Es synthesiert eine Antwort ausschließlich auf Basis der bereitgestellten Passagen. Produktionssysteme enthalten Guardrails, die das Modell anweisen, “Ich weiß es nicht” zu sagen, statt zu spekulieren, wenn der abgerufene Kontext nicht ausreicht.

Wichtige Kennzahlen für RAG

Die Messung eines RAG-Systems erfordert, Retrieval-Qualität und Generierungsqualität getrennt zu verfolgen.

Retrieval-Kennzahlen

Recall@k: Anteil relevanter Dokumente unter den Top-k-Ergebnissen; Zielwert über 0,8
Mean Reciprocal Rank (MRR): wie hoch das erste relevante Ergebnis rangiert; Zielwert über 0,7
Latenz: End-to-End-Antwortzeit; Zielwert unter 3 Sekunden für interaktive Nutzung
Index-Aktualität: Zeit zwischen Dokumentenaktualisierung und Verfügbarkeit im Retrieval; Zielwert unter 1 Stunde

Generierungskennzahlen

Treue (Faithfulness) und Antwortrelevanz sind die zwei Standarddimensionen, messbar mit Evaluierungsframeworks wie RAGAS. Gartner stellt fest, dass Unternehmen, die diese Metriken im Produktionsbetrieb verfolgen, Qualitätsprobleme erkennen, bevor Nutzer sie bemerken - der entscheidende Unterschied zwischen einem Pilot und einem Produktionssystem.

Geschäftliche Kennzahlen

Das wichtigste Maß ist die Aufgabenabschlussrate - ob Nutzer das Ziel erreichen, das sie zum KI-Assistenten geführt hat. Ergänzen Sie diese durch die Antwortzeit im Vergleich zur manuellen Baseline und den Anteil der Anfragen, die an einen Menschen eskaliert werden.

Risikofaktoren und Kontrollen bei RAG

RAG reduziert Halluzinationen, bringt aber eigene Fehlerquellen mit sich.

Retrieval-Fehler

Wenn der Retrieval-Schritt irrelevante oder veraltete Fragmente zurückgibt, generiert das Modell eine Antwort, die zuverlässig wirkt, aber auf dem falschen Quellmaterial basiert. Das ist schwerer zu erkennen als eine Halluzination eines Basismodells.

Chunk-Grenzfehler, bei denen Informationen zwischen zwei Fragmenten aufgeteilt werden
Veraltete Dokumente, die nach einer Aktualisierung nicht neu indexiert wurden
Vokabular-Mismatches, wenn Nutzer Fragen anders formulieren als die Dokumente geschrieben sind

Datenqualität

Garbage in, garbage out gilt direkt für RAG. Eine Datenpipeline, die schlecht formatierte PDFs, Dubletten oder zugriffsgeschützte Inhalte aufnimmt, liefert unzuverlässige Ergebnisse - unabhängig davon, wie gut das Modell ist.

Zugriffssteuerung

RAG-Systeme können Dokumente versehentlich Nutzern zugänglich machen, die keinen Zugriff haben sollten. Jede Enterprise-RAG-Einführung erfordert eine dokumentenseitige Zugriffssteuerung, die abgerufene Ergebnisse anhand der Berechtigungen des anfragenden Nutzers filtert, bevor sie das Modell erreichen.

Praxisbeispiel

Ein mittelständischer Komponentenhersteller mit 600 Mitarbeitenden setzte einen RAG-basierten Assistenten auf seiner technischen Dokumentationsbibliothek, dem Qualitätsmanagementsystem und dem Lieferantenportal auf. Vor dem System verbrachten Außentechniker durchschnittlich 40 Minuten pro Anfrage mit der Recherche von Produktspezifikationen und zugelassenen Toleranzen.

Antwortzeit für Spezifikationsrecherchen von 40 Minuten auf unter 90 Sekunden gesenkt
Quellenangaben werden neben jeder Antwort angezeigt, damit Techniker sie prüfen können
Automatische Neuindexierung, sobald Qualitätsdokumente im DMS aktualisiert werden
Wissensmanagement-Berichte zeigen, welche Dokumente am häufigsten abgefragt werden und welche nie abgerufen werden

Aktuelle Entwicklungen und Auswirkungen

RAG entwickelt sich in drei Dimensionen weiter, die für Unternehmenseinführungen relevant sind.

Agentisches RAG

RAG wird zunehmend mit KI-Agenten-Architekturen kombiniert, bei denen der Agent entscheidet, welche Wissensspeicher abgefragt werden, die Anfrage bei unzureichenden Ergebnissen neu formuliert und Ergebnisse aus mehreren Quellen zusammenführt. Agentisches RAG geht über einstufige Fragen und Antworten hinaus und ermöglicht mehrstufige Rechercheaufgaben.

Iterative Retrieval-Schleifen, die Anfragen auf Basis erster Ergebnisse verfeinern
Quellenübergreifendes Reasoning, das interne Dokumente mit Live-Außendaten kombiniert
Gedächtnisschichten, die Kontext über mehrere Sitzungen hinweg persistieren

Multimodales Retrieval

Neuere Embedding-Modelle verarbeiten Bilder, Diagramme und Tabellen neben Text. Enterprise-RAG-Systeme erweitern das Retrieval auf CAD-Zeichnungen, Prüfbilder und Finanzcharts - besonders relevant für die Fertigungs- und Immobilienbranche.

Reife der Evaluierungswerkzeuge

Das RAGAS-Framework und ähnliche Bibliotheken entwickeln sich rasch weiter und geben Unternehmensteams reproduzierbare Metriken für RAG-Qualität, die keine manuelle Prüfung erfordern. Standardisierte Evaluierung ist das, was RAG vom Piloten in den Produktionsbetrieb überführt.

Fazit

RAG ist zur praktischen Grundlage für Unternehmens-KI-Systeme geworden, die mit unternehmensspezifischem, häufig wechselndem und zugriffsgeschütztem Wissen arbeiten müssen. Es bietet einen schnelleren, günstigeren und nachvollziehbareren Weg als Fine-Tuning für die meisten Geschäftsanwendungen. Mit der Reifung agentischer Architekturen und der Standardisierung von Evaluierungswerkzeugen wird RAG zur Standardannahme hinter jedem KI-Assistenten, der in einem Unternehmen eingesetzt wird. Organisationen, die jetzt solide Indexierungspipelines und Retrieval-Qualitätsmetriken aufbauen, werden diesen Vorsprung nutzen können, wenn die zugrundeliegenden Modelle besser werden.

Häufig gestellte Fragen

Wie unterscheidet sich RAG davon, der KI einfach ein Dokument zum Lesen zu geben?

Ein Dokument-Upload funktioniert für eine einzelne Sitzung mit einigen wenigen Seiten. RAG indexiert Tausende oder Millionen von Dokumenten in einer Vektordatenbank und ruft nur die relevantesten Fragmente zur Anfragezeit ab. Das macht RAG auf gesamte Unternehmens-Wissensbasen skalierbar, während die Antwortlatenz unter wenigen Sekunden bleibt.

Eliminiert RAG Halluzinationen vollständig?

Nein. RAG reduziert Halluzinationen erheblich, indem Antworten in abgerufenen Inhalten verankert werden, aber das Modell kann eine abgerufene Passage falsch interpretieren oder das richtige Dokument nicht abrufen. Treue-Evaluierung und obligatorische Quellenangaben sind die wichtigsten Kontrollen im Produktionsbetrieb.

Funktioniert RAG auch mit strukturierten Daten wie SAP- oder ERP-Exporten?

Ja. Strukturierte Daten werden typischerweise in natürlichsprachliche Beschreibungen oder formatierte Tabellen umgewandelt, bevor sie in Fragmente aufgeteilt und eingebettet werden. Manche Architekturen verwenden einen separaten SQL-Generierungspfad für präzise Zahlenanfragen und RAG für unstrukturierte Dokumentenrecherche, wobei Anfragen automatisch dem richtigen Pfad zugewiesen werden.

Wie lange dauert der Aufbau eines produktionsfähigen RAG-Systems?

Ein fokussierter Pilot auf einer einzelnen Dokumentensammlung kann in zwei bis vier Wochen in Betrieb genommen werden. Ein Produktionssystem mit Zugriffssteuerung, automatischer Neuindexierung, Evaluierungs-Dashboards und Integration in bestehende Workflows dauert typischerweise drei bis sechs Monate.

Welche Vektordatenbank sollten wir verwenden?

Für die meisten mittelständischen Einführungen bieten verwaltete Dienste wie Azure AI Search, AWS OpenSearch oder Pinecone ausreichende Leistung ohne Infrastrukturaufwand. Selbst gehostete Optionen wie Qdrant oder Weaviate sind sinnvoll, wenn Datenschutzanforderungen verlangen, dass Vektoren on-premises bleiben.

Fällt RAG unter die EU-KI-Verordnung?

RAG-Systeme, die Mitarbeitende bei Entscheidungen unterstützen - Fragen beantworten, Entwürfe erstellen - fallen in der Regel in die Kategorien minimales oder begrenztes Risiko. Hochrisikoanwendungen wie HR-Scoring oder Kreditentscheidungen erfordern zusätzliche Transparenz- und Dokumentationspflichten, unabhängig davon, ob sie RAG oder eine andere Architektur verwenden.

RAG (Retrieval-Augmented Generation): KI, die mit Ihren eigenen Unternehmensdaten arbeitet