Retrieval Augmented Generation
KI-Architektur, die große Sprachmodelle mit externen Wissensquellen verbindet, um präzise Antworten auf Basis aktueller Unternehmensdaten zu liefern.
Retrieval Augmented Generation (RAG) löst ein fundamentales Problem von Large Language Models: Sie kennen Ihre internen Daten nicht. Statt das Modell umzutrainieren, werden relevante Dokumente zur Laufzeit abgerufen und dem Modell als Kontext übergeben. Das Ergebnis sind präzise Antworten auf Basis Ihrer tatsächlichen Unternehmensdaten — mit Quellenangabe.
Die RAG-Pipeline
Ein RAG-System besteht aus vier Stufen: Ingestion (Dokumente aufbereiten und in Chunks zerlegen), Embedding (Text in Vektoren umwandeln), Retrieval (relevante Chunks zur Laufzeit finden) und Generation (LLM generiert Antwort auf Basis des abgerufenen Kontexts). Die Qualität hängt maßgeblich von der Retrieval-Stufe ab.
Die Ingestion-Phase ist dabei aufwendiger, als sie zunächst erscheint. Dokumente liegen in unterschiedlichen Formaten vor — PDF, Word, E-Mail, Confluence-Seiten, Ticketsysteme. Sie müssen extrahiert, bereinigt und in sinnvolle Chunks zerlegt werden. Die Chunk-Größe und Überlappungsstrategie beeinflusst direkt die Antwortqualität: Zu kleine Chunks verlieren Kontext, zu große Chunks verwässern die Relevanz. In der Praxis hat sich eine Chunk-Größe von 500 bis 1.000 Tokens mit überlappenden Rändern als guter Ausgangspunkt erwiesen.
Wie Retrieval funktioniert
Wenn ein Nutzer eine Frage stellt, wird diese durch dasselbe Embedding-Modell in einen Vektor umgewandelt, das auch für die Dokumenten-Chunks verwendet wurde. Die Vector Database findet dann die semantisch ähnlichsten Chunks — also Textpassagen, die inhaltlich zur Frage passen, auch wenn sie andere Formulierungen verwenden. Diese Chunks werden dem LLM als Kontext übergeben, zusammen mit der Anweisung, die Antwort ausschließlich auf Basis dieser Quellen zu formulieren.
Fortgeschrittene RAG-Systeme nutzen Hybrid Search — die Kombination aus semantischer Vektorsuche und klassischer Keyword-Suche — sowie Re-Ranking, um die Relevanz der abgerufenen Chunks weiter zu verbessern. Metadata-Filterung ermöglicht es, die Suche auf bestimmte Dokumentkategorien, Zeiträume oder Abteilungen einzuschränken.
RAG vs. Fine-Tuning
| Merkmal | RAG | Fine-Tuning |
|---|---|---|
| Aktualität | Sofort aktualisierbar | Neues Training erforderlich |
| Kosten | Infrastruktur für Vector DB | Hohe Trainingskosten |
| Nachvollziehbarkeit | Quellenangaben möglich | Keine Quellenverweise |
| Datenschutz | Daten bleiben im eigenen System | Daten fließen ins Training |
| Geeignet für | Faktenwissen, Dokumentation, FAQ | Stil, Tonalität, spezifisches Verhalten |
Fine-Tuning trainiert ein Modell auf neuen Daten — teuer, schwer zu aktualisieren und nicht geeignet für häufig wechselnde Informationen. RAG greift zur Laufzeit auf aktuelle Daten zu — günstiger, sofort aktualisierbar und mit nachvollziehbaren Quellenverweisen. Für die meisten Unternehmens-Anwendungsfälle ist RAG die pragmatischere Lösung.
RAG-Qualität messen
Ein häufiger Fehler ist die Einführung eines RAG-Systems ohne systematische Qualitätsmessung. Frameworks wie RAGAS bewerten die Antwortqualität anhand von Metriken wie Faithfulness (Ist die Antwort durch die Quellen gedeckt?), Answer Relevancy (Beantwortet sie die Frage?) und Context Precision (Wurden die richtigen Quellen abgerufen?). Ohne solche Metriken bleibt die Qualitätsbewertung subjektiv und Verbesserungen sind schwer nachvollziehbar.
Datensicherheit in RAG-Systemen
Für den Unternehmenseinsatz ist die Zugriffskontrolle im RAG-System entscheidend. Nicht jeder Mitarbeitende sollte Zugriff auf alle indexierten Dokumente haben. In der Praxis bedeutet das: Die Berechtigungsstruktur aus dem Quellsystem — etwa Nextcloud, SharePoint oder ein DMS — muss in die Retrieval-Phase übernommen werden. Ein Mitarbeitender aus dem Vertrieb darf keine HR-Dokumente als Kontext erhalten, auch wenn sie semantisch relevant wären. Diese Zugriffssteuerung im RAG-System ist ein häufig unterschätzter Aspekt der Implementierung.
Relevanz für KMUs
RAG ist die zugänglichste Form der KI-Wissenserschließung für den Mittelstand. Typische Einstiegsszenarien sind eine interne Wissensdatenbank auf Basis vorhandener Dokumentation, ein KI-gestützter Kundensupport auf Basis von FAQ und Handbüchern oder ein Vertragsassistent, der Vertragsklauseln auf Basis bestehender Vertragsvorlagen beantwortet. Der Aufbau einer produktionsreifen RAG-Lösung erfordert neben der technischen Infrastruktur vor allem eine sorgfältige Aufbereitung der Quelldokumente — denn die Qualität der Antworten kann nur so gut sein wie die Qualität der indexierten Daten.