Mettre en place un RAG : de la donnée à la réponse

Le RAG (Retrieval-Augmented Generation) connecte un LLM à vos documents. Le modèle ne « devine » plus : il s’appuie sur des passages récupérés avant de répondre.

Architecture minimale

Documents → Découpe (chunks) → Embeddings → Base vectorielle
                                              ↓
Question utilisateur → Embedding → Recherche top-k → Contexte + LLM → Réponse

1. Préparer les sources

Formats : Markdown, PDF, HTML, tickets GLPI, wiki interne.
Nettoyage : retirer menus, footers, doublons.
Métadonnées : date, auteur, URL — utiles pour filtrer et citer.

Sur AI-Automate, la veille Hermes ingère des articles wiki avant publication Astro.

2. Chunking

Découpez en blocs de 300–800 tokens avec recouvrement (10–20 %) pour ne pas couper une idée en deux.

Règles pratiques :

un chunk = un paragraphe ou une section logique ;
garder le titre de section en en-tête du chunk ;
éviter les chunks trop courts (bruit) ou trop longs (dilution).

3. Embeddings & stockage

Choisissez un modèle d’embedding cohérent entre indexation et requête. Stockez dans une base vectorielle (pgvector, Chroma, Qdrant…) ou via Dify / LightRAG.

Indexez aussi des champs texte pour le filtrage (date, tag, source).

4. Retrieval

À la question utilisateur :

Embedder la requête.
Récupérer les top-k chunks (k = 3–8 selon la taille).
Optionnel : re-ranking avec un modèle cross-encoder pour affiner l’ordre.

5. Génération

Injectez les chunks dans le prompt système :

Réponds uniquement à partir du contexte fourni. Si l’information manque, dis-le. Cite la source quand c’est pertinent.

Réduisez les hallucinations en imposant ce cadre strict.

6. Évaluation

Testez sur 20 questions dont vous connaissez la réponse :

la bonne info est-elle dans les chunks récupérés ? (recall)
la réponse finale est-elle correcte ? (qualité)
les sources sont-elles citées ? (traçabilité)

Aller plus loin : Graph RAG

Quand les concepts sont reliés (acteurs, technologies, régulation), un graphe de connaissances améliore le retrieval. Voir Graph RAG avec LightRAG.