Forgeron3
/ Methode11. Mai 20267 Min. Lesezeit

RAG: Einen Assistenten mit Ihren Dokumenten speisen

Ein Assistent, der seine Quellen nicht zitiert, erfindet sie irgendwann. Die drei Prinzipien des RAG, die den Unterschied zwischen einem verlässlichen Werkzeug und einem Halluzinationsgenerator ausmachen.

F3
Das Forgeron3-TeamMarseille & Paris

RAG in einem Satz

RAG steht für Retrieval-Augmented Generation. Der Grundgedanke: Ein Sprachmodell beantwortet Ihre Fragen besser, wenn es im Moment der Antwort Zugang zu Ihren Dokumenten hat — anstatt sich allein auf das zu stützen, was es während des Trainings gelernt hat.

Konkret: Ihre Frage wird in ein Suchsignal umgewandelt, das System sucht die relevanten Passagen in Ihrer Dokumentenbasis, und das Modell formuliert eine Antwort auf Basis dieser Passagen — idealerweise mit Quellenangabe. Nicht mystischer als das.

Der Vorteil: Ihr Assistent kennt Ihre Verträge, Ihre Verfahren, Ihre Beschlüsse, Ihre Doktrin. Keine verallgemeinerte Version des Internets.

Warum die Aufteilung alles verändert

Bevor ein Dokument für den Assistenten „auffindbar” wird, wird es in Passagen aufgeteilt — typischerweise zu einigen hundert Wörtern. Auf diesen Passagen operiert die Suche. Eine schlechte Aufteilung macht alles Weitere fragil: Man findet die Hälfte einer Klausel, den Titel ohne Inhalt, das Fazit ohne die Argumentation.

Die entscheidenden Parameter:

  • Die Passagengröße. Zu kurz (200 Wörter), der Kontext geht verloren. Zu lang (2 000 Wörter), die Suche verliert an Präzision. Der gute Bereich: 400 bis 800 Wörter, je nach Dokumenttyp angepasst.
  • Die Überlappung. Jede Passage geht ein Stück in die nächste über (10 bis 15 %), damit ein Gedanke, der über die Grenze geht, nie zerschnitten wird.
  • Die erhaltene Struktur. Eine Aufteilung, die Überschriften, Abschnitte und Aufzählungen respektiert, funktioniert deutlich besser als eine rein wortzahlbasierte. Ein PDF mit durch OCR zerstörter Struktur liefert zerstörte Antworten.
Die FaustregelWenn Ihre Antworten ungefähr sind, prüfen Sie zuerst die Aufteilung, bevor Sie das Modell anklagen. In 70 % der Fälle, die wir diagnostizieren, liegt das Problem in der gefundenen Passage, nicht in der Generierung. Ein gutes Korpus mit schlechter Aufteilung liefert schlechte Antworten.

Quellenangaben erzwingen

Der Reflex, den Sie ab dem Kickoff durchsetzen müssen: Der Assistent zitiert, oder er antwortet nicht. Nicht „laut unseren Archiven”, sondern „laut Beschluss vom 14. März 2024, Artikel 3, Seite 2”. Drei Vorteile:

  • Der Nutzer kann mit einem Klick prüfen. Nur so entsteht Vertrauen.
  • Der Assistent diszipliniert sich selbst: Findet er keine Quelle, sagt er, dass er es nicht weiß — statt zu extrapolieren.
  • Sie erhalten ein auditierbares Protokoll: welche Frage, welche Quellen, welche Antwort. Wertvoll für die DSGVO, den AI Act und jede kontradiktorische Diskussion.

Wie Sie ein Korpus für gute Quellenangaben vorbereiten, lesen Sie unter Die Dokumentation macht den guten Assistenten.

Die drei Fehler, die Halluzinationen auslösen

  • Das vergammelte Korpus. Sie indexieren alles, was herumliegt — überholte Versionen, Entwürfe, persönliche Notizen. Der Assistent unterscheidet nicht die geltende Doktrin vom 2019 aufgegebenen Arbeitsdokument. Ein sauberes Korpus ist besser als ein vollständiges.
  • Fehlende Governance. Niemand ist für die Aktualität des Korpus verantwortlich. Nach sechs Monaten antwortet der Assistent mit alten Verfahren, und niemand weiß, wann oder warum. Ohne Steuerung driftet jedes RAG ab.
  • Die Anweisung „immer antworten”. Wenn Sie den Assistenten dazu prompten, auch ohne Quelle zu antworten, wird er lieber erfinden als seine Unwissenheit zugeben. Der gute System-Prompt sagt explizit „wenn die Antwort nicht in den Quellen steht, sage es”. Erzwungene Demut schlägt künstliches Selbstvertrauen.

Checkliste für den Produktivbetrieb

  • Das Korpus ist benannt: Wer ist Eigentümer, wer validiert Ergänzungen, wer entfernt, was nicht mehr gültig ist.
  • Die Aufteilung wird an zehn repräsentativen Fragen getestet, bevor die Nutzer Zugriff erhalten.
  • Der Assistent zitiert die Quellen mit Seite, Datum oder Referenz — sichtbar in der Oberfläche, nicht nur im technischen Log.
  • Der System-Prompt enthält explizit die Anweisung „wenn keine Quelle, sage es”.
  • Ein Meldemechanismus ist vorhanden: Ein Nutzer kann eine falsche Antwort mit zwei Klicks melden, und die Meldung erreicht jemanden.
  • Das vollständige Log (Frage, Quellen, Antwort, Modell, Nutzer) wird gemäß Ihrer Aufbewahrungsrichtlinie gespeichert.

Wie Sie dieses RAG in Ihr Informationssystem (SSO, DMS, NAS) integrieren, lesen Sie unter Einen Assistenten in Ihre Infrastruktur integrieren.

Wie viele Dokumente braucht es, damit ein RAG nützlich ist?

Es gibt keine untere Schwelle. Wir haben sehr nützliche RAG-Systeme mit 50 gut aufgeteilten internen Verfahren gesehen. Die obere Schwelle hingegen erfordert ernsthafte Arbeit: Ab 5 000 Dokumenten bestimmen die Qualität der Aufteilung und die Organisation des Korpus die Antwortqualität weit mehr als die Menge.

Ersetzt RAG das Fine-Tuning des Modells?

Für 95 % der Unternehmensfälle: ja. Fine-Tuning hat Kosten (technisch, finanziell, beim Update), die die meisten Organisationen nie amortisieren. RAG genügt, sobald Ihre Anforderung darin besteht, auf Ihrer Dokumentation zu antworten — also in den meisten Fällen.

Kann man den Quellenangaben eines RAG trauen?

Ja, sofern die Quellenangabe systemseitig erstellt wird (Auszug aus der gefundenen Passage) und nicht vom Modell generiert. Ein gutes RAG zeigt Ihnen die anzeigbare Quellpassage, nicht nur eine plausible Textreferenz. Das ist in der Demo zu prüfen: Ein Klick auf die Quellenangabe muss zum Dokument führen, nicht zu einer Fehlerseite.

Auf Ihren Dokumenten testen

Zwanzig Minuten per Videocall mit Ihrem Team. Wir indexieren einige echte Dokumente und schauen uns die Antworten gemeinsam an — keine generische Demo.

Demo buchen