Le piège des vanity metrics
Trois indicateurs souvent mis en avant, qui ne mesurent pas ce qu’ils prétendent :
- Nombre de requêtes : un utilisateur qui pose la même question dix fois parce que la réponse est mauvaise gonfle l’indicateur.
- Nombre d’utilisateurs créés : les comptes ouverts ne disent rien de l’usage réel.
- NPS sur l’IA : trop générique, trop affecté par l’effet de nouveauté.
Voici les six KPI qui mesurent la valeur réelle.
1. Adoption active : utilisateurs hebdo / utilisateurs créés
Définition. Pourcentage des utilisateurs créés qui posent au moins trois questions sur les sept derniers jours.
Seuil sain. > 60 % à trois mois, > 70 % à six mois.
Diagnostic. En dessous de 50 % à trois mois, l’usage est superficiel : revoir l’onboarding, mesurer si l’assistant est plus rapide que les outils en place.
2. Justesse mesurée : % de réponses correctes sur recette
Définition. Sur une batterie de 30 à 50 questions de recette stable, le pourcentage de réponses jugées correctes par un référent métier.
Seuil sain. > 90 % en production stable.
Diagnostic. En dessous de 85 %, problème de documentation source ou de configuration. Voir Une bonne documentation fait un bon assistant.
3. Couverture documentaire : % de questions à réponse “je ne sais pas”
Définition. Pourcentage de requêtes où l’assistant indique ne pas pouvoir répondre.
Seuil sain. Entre 5 % et 15 % en routine. En dessous, l’assistant invente probablement (hallucinations). Au-dessus, la base est trop maigre pour les usages réels.
4. Temps économisé : valorisé en heures et en euros
Définition. Heures gagnées par utilisateur et par semaine sur les tâches couvertes (recherche, rédaction, synthèse), valorisées au coût horaire chargé.
Méthode de mesure. Sondage trimestriel auprès d’un panel de 10-15 utilisateurs : “sur les questions que vous avez posées à l’assistant cette semaine, combien de temps auriez-vous mis sans lui ?”.
Seuil sain. 3 à 8 heures/utilisateur/semaine pour des cas usage modérés. Plus pour les cas intensifs (juridique, support, doctrine).
5. Délestage : % de demandes interceptées avant l’humain
Définition. Pour les assistants ouverts au grand public ou au support : pourcentage de demandes traitées entièrement par l’assistant, sans escalade vers un agent.
Seuil sain. Entre 50 % et 75 % selon le périmètre. Plus ouvert = délestage plus faible.
6. Satisfaction utilisateurs : feedback structuré, pas NPS générique
Définition. Trois questions courtes, posées à la fin d’une conversation sur 10 % du trafic :
- Cette réponse était-elle utile ? (oui/non)
- Avez-vous gagné du temps ? (1 à 5)
- Recommanderiez-vous cet assistant ? (1 à 10)
Seuil sain. > 80 % de réponses utiles, > 4/5 sur le gain de temps, > 8/10 sur la recommandation.
Pour le calcul du ROI à partir de ces indicateurs, voir Calculer et maximiser le ROI.
Vingt minutes pour identifier les six KPI adaptés à votre cas, leur fréquence de mesure, leurs seuils d’alerte. On vous remet le modèle prêt à l’emploi.
Réserver une démo→