RAG : nourrir un assistant avec vos documents

Le RAG en une phrase

RAG, pour Retrieval-Augmented Generation, c’est l’idée simple qu’un modèle de langage répond mieux à vos questions s’il a accès à vos documents au moment de répondre — au lieu de s’appuyer uniquement sur ce qu’il a appris pendant son entraînement.

Concrètement : votre question est transformée en signal de recherche, le système va chercher les passages pertinents dans votre base documentaire, et le modèle rédige une réponse en s’appuyant sur ces passages — en citant idéalement leur origine. Pas plus mystique que ça.

L’intérêt : votre assistant connaît vos contrats, vos procédures, vos délibérations, votre doctrine. Pas une version généralisée d’internet.

Pourquoi le découpage change tout

Avant qu’un document soit “trouvable” par l’assistant, il est découpé en passages — typiquement de quelques centaines de mots. C’est sur ces passages que la recherche opère. Un mauvais découpage rend toute la suite fragile : on retrouve la moitié d’une clause, le titre sans le contenu, la conclusion sans l’argumentaire.

Les paramètres qui comptent :

La taille du passage. Trop court (200 mots), le contexte est perdu. Trop long (2 000 mots), la recherche perd en précision. La bonne plage : 400 à 800 mots, ajustée selon le type de document.
Le chevauchement. Chaque passage déborde un peu sur le suivant (10 à 15 %), pour qu’une idée à cheval ne soit jamais coupée en deux.
La structure préservée. Un découpage qui respecte les titres, les sections, les puces, fonctionne nettement mieux qu’un découpage purement par nombre de mots. Un PDF à la structure cassée par l’OCR est un PDF qui rendra des réponses cassées.

La règle empiriqueSi vos réponses sont approximatives, vérifiez d’abord le découpage avant d’incriminer le modèle. Dans 70 % des cas que nous diagnostiquons, le problème est dans le passage retrouvé, pas dans la génération. Un bon corpus mal découpé donne de mauvaises réponses.

Forcer la citation des sources

Le réflexe à imposer dès le cadrage : l’assistant cite, ou il ne répond pas. Pas “selon nos archives”, mais “selon la délibération du 14 mars 2024, article 3, page 2”. Trois bénéfices :

L’utilisateur peut vérifier, en un clic. La confiance ne se construit qu’à ce prix.
L’assistant lui-même s’auto-discipline : s’il ne trouve pas de source, il dit qu’il ne sait pas — au lieu d’extrapoler.
Vous obtenez un journal auditable : quelle question, quelles sources, quelle réponse. Précieux pour le RGPD, l’AI Act, et toute discussion contradictoire.

Pour préparer un corpus qui se prête à de bonnes citations, voir La documentation fait le bon assistant.

Les trois erreurs qui font halluciner

Le corpus pourri. Vous indexez tout ce qui traîne — versions périmées, brouillons, notes personnelles. L’assistant ne distingue pas la doctrine en vigueur du document de travail abandonné en 2019. Un corpus propre vaut mieux qu’un corpus exhaustif.
L’absence de gouvernance. Personne n’est responsable de l’à-jour du corpus. Au bout de six mois, l’assistant répond avec d’anciennes procédures, et personne ne sait quand ni pourquoi. Sans pilote, tout RAG dérive.
La consigne de “toujours répondre”. Si vous prompted l’assistant pour qu’il réponde même sans source, il inventera plutôt que d’admettre son ignorance. Le bon prompt système dit explicitement “si la réponse n’est pas dans les sources, dis-le”. L’humilité forcée bat la confiance artificielle.

Check-list de mise en production

Le corpus est nommé : qui en est propriétaire, qui valide les ajouts, qui retire ce qui n’est plus valide.
Le découpage est testé sur dix questions représentatives avant ouverture aux utilisateurs.
L’assistant cite les sources avec page, date, ou référence — visible dans l’interface, pas seulement dans la trace technique.
Le prompt système contient explicitement la consigne “si pas de source, dis-le”.
Un mécanisme de remontée est en place : un utilisateur peut signaler une réponse erronée en deux clics, et la signalisation arrive à quelqu’un.
Le journal complet (question, sources, réponse, modèle, utilisateur) est conservé selon votre politique de rétention.

Pour intégrer ce RAG à votre système d’information (SSO, GED, NAS), voir Intégrer un assistant à votre infrastructure.

Combien de documents faut-il pour qu’un RAG soit utile ?

Il n’y a pas de seuil bas. On a vu des RAG très utiles sur 50 procédures internes bien découpées. Le seuil haut, en revanche, demande un travail sérieux : au-delà de 5 000 documents, la qualité du découpage et l’organisation du corpus déterminent la qualité des réponses bien plus que le volume.

Le RAG remplace-t-il le fine-tuning du modèle ?

Pour 95 % des cas en entreprise, oui. Le fine-tuning a un coût (technique, financier, en mise à jour) que la plupart des organisations n’amortissent jamais. Le RAG suffit dès lors que votre besoin est de répondre sur votre documentation — c’est-à-dire la majorité des cas.

Peut-on faire confiance aux citations d’un RAG ?

Oui, à condition que la citation soit construite côté système (extrait du passage retrouvé) et non générée par le modèle. Un bon RAG vous donne le passage source affichable, pas seulement une référence textuelle plausible. C’est un point à vérifier en démo : cliquer sur la citation doit ramener au document, pas à une page d’erreur.

Tester sur vos documents

Vingt minutes en visio avec votre équipe. On indexe quelques documents réels et on regarde les réponses ensemble — pas une démo générique.

Réserver une démo→

RAG : nourrir un assistant avec vos documents

Le RAG en une phrase

Pourquoi le découpage change tout

Forcer la citation des sources

Les trois erreurs qui font halluciner

Check-list de mise en production

À lire ensuite.

La documentation fait le bon assistant

Intégrer un assistant à votre infrastructure

Prompter comme un pro