Technique19 décembre 2025

RAG : connecter votre base de connaissance à un LLM

Le Retrieval-Augmented Generation permet à un LLM de répondre avec précision sur votre documentation interne. Voici comment ça marche.

RAG : connecter votre base de connaissance à un LLM

Le RAG (Retrieval-Augmented Generation) est devenu le standard pour créer des assistants IA qui connaissent votre entreprise.

Le problème que le RAG résout

Les LLM ont une date de coupure et ne connaissent pas votre documentation interne. Le fine-tuning est coûteux et difficile à mettre à jour. Le RAG offre une alternative élégante : récupérer les documents pertinents à la volée et les injecter dans le prompt.

Architecture typique

Indexation : Vos documents sont découpés en chunks, encodés en vecteurs et stockés dans une base vectorielle (Pinecone, Weaviate, pgvector).

Requête : La question de l'utilisateur est elle aussi encodée en vecteur.

Retrieval : Les chunks les plus proches sémantiquement sont récupérés.

Génération : Le LLM génère une réponse en se basant sur les chunks récupérés.

Critères de qualité

Chunking strategy : des chunks trop petits perdent le contexte, trop grands diluent la pertinence.

Reranking : après le retrieval vectoriel, un reranker (ex: Cohere Rerank) améliore la précision.

Evaluation : mesurez la fidélité (la réponse est-elle ancrée dans les sources ?) et la pertinence.

Cas d'usage idéaux

Support client sur base documentaire

Assistant juridique ou RH interne

Onboarding de nouveaux employés

Documentation technique interactive