Technique27 novembre 2025

Évaluer un LLM en production : métriques et outils

Sans évaluation rigoureuse, un LLM en production est une boîte noire. Voici comment mesurer ce qui compte vraiment.

Évaluer un LLM en production : métriques et outils

L'évaluation est la discipline la moins glamour du développement IA — et la plus critique. Voici comment la structurer.

Les métriques qui comptent

Fidélité (Faithfulness)

La réponse est-elle ancrée dans les sources fournies ? Une réponse inventée (hallucination) est une faute grave en contexte métier.

Pertinence (Relevance)

La réponse répond-elle bien à la question posée ? Une réponse exacte mais hors sujet est inutile.

Complétude

La réponse couvre-t-elle tous les aspects de la question ? Particulièrement important pour les logiciels d'assistance.

Latence et coût

En production, les métriques opérationnelles sont aussi importantes que les métriques de qualité.

Outils d'évaluation

RAGAS : framework dédié à l'évaluation des systèmes RAG

DeepEval : évaluation automatisée avec LLM-as-a-judge

LangSmith : traçabilité et évaluation pour les pipelines LangChain

Promptfoo : comparaison de prompts et de modèles

L'approche LLM-as-a-judge

Utiliser un LLM puissant pour évaluer les outputs d'un autre LLM est devenu standard. Corrélation élevée avec l'évaluation humaine, à condition de bien structurer les critères d'évaluation.

Notre recommandation

Construisez votre dataset d'évaluation avant de déployer. 50 cas représentatifs bien annotés valent mieux que 1000 cas aléatoires.