Mettre en place un RAG : de la donnée à la réponse
Pipeline RAG complet : ingestion, chunking, embeddings, retrieval et génération — pour des réponses factuelles et sourcées.
Le RAG (Retrieval-Augmented Generation) connecte un LLM à vos documents. Le modèle ne « devine » plus : il s’appuie sur des passages récupérés avant de répondre.
Architecture minimale
Documents → Découpe (chunks) → Embeddings → Base vectorielle
↓
Question utilisateur → Embedding → Recherche top-k → Contexte + LLM → Réponse
1. Préparer les sources
- Formats : Markdown, PDF, HTML, tickets GLPI, wiki interne.
- Nettoyage : retirer menus, footers, doublons.
- Métadonnées : date, auteur, URL — utiles pour filtrer et citer.
Sur AI-Automate, la veille Hermes ingère des articles wiki avant publication Astro.
2. Chunking
Découpez en blocs de 300–800 tokens avec recouvrement (10–20 %) pour ne pas couper une idée en deux.
Règles pratiques :
- un chunk = un paragraphe ou une section logique ;
- garder le titre de section en en-tête du chunk ;
- éviter les chunks trop courts (bruit) ou trop longs (dilution).
3. Embeddings & stockage
Choisissez un modèle d’embedding cohérent entre indexation et requête. Stockez dans une base vectorielle (pgvector, Chroma, Qdrant…) ou via Dify / LightRAG.
Indexez aussi des champs texte pour le filtrage (date, tag, source).
4. Retrieval
À la question utilisateur :
- Embedder la requête.
- Récupérer les top-k chunks (k = 3–8 selon la taille).
- Optionnel : re-ranking avec un modèle cross-encoder pour affiner l’ordre.
5. Génération
Injectez les chunks dans le prompt système :
Réponds uniquement à partir du contexte fourni. Si l’information manque, dis-le. Cite la source quand c’est pertinent.
Réduisez les hallucinations en imposant ce cadre strict.
6. Évaluation
Testez sur 20 questions dont vous connaissez la réponse :
- la bonne info est-elle dans les chunks récupérés ? (recall)
- la réponse finale est-elle correcte ? (qualité)
- les sources sont-elles citées ? (traçabilité)
Aller plus loin : Graph RAG
Quand les concepts sont reliés (acteurs, technologies, régulation), un graphe de connaissances améliore le retrieval. Voir Graph RAG avec LightRAG.