{"id":15416,"date":"2026-03-31T21:21:45","date_gmt":"2026-03-31T21:21:45","guid":{"rendered":"https:\/\/a-listware.com\/?p=15416"},"modified":"2026-03-31T21:21:45","modified_gmt":"2026-03-31T21:21:45","slug":"ai-agent-performance-analysis-metrics","status":"publish","type":"post","link":"https:\/\/a-listware.com\/fr\/blog\/ai-agent-performance-analysis-metrics","title":{"rendered":"Mesures d'analyse des performances des agents d'IA : Guide 2026"},"content":{"rendered":"<p><b>R\u00e9sum\u00e9 rapide :<\/b><span style=\"font-weight: 400;\"> L'analyse des performances des agents d'IA n\u00e9cessite le suivi de mesures dans quatre domaines cl\u00e9s : les performances techniques (ach\u00e8vement des t\u00e2ches, latence, pr\u00e9cision), l'impact commercial (retour sur investissement, r\u00e9duction des co\u00fbts op\u00e9rationnels), la s\u00e9curit\u00e9 et la conformit\u00e9 (taux d'hallucination, incidents de s\u00e9curit\u00e9) et l'exp\u00e9rience des utilisateurs (taux de satisfaction, taux d'adoption). Selon des recherches men\u00e9es \u00e0 Stanford et au MIT, les agents bien impl\u00e9ment\u00e9s atteignent un taux d'ach\u00e8vement de 85-95% pour les t\u00e2ches structur\u00e9es, bien que l'\u00e9valuation reste difficile, 95% des investissements en IA ne produisant pas de retour mesurable en raison de cadres de mesure inad\u00e9quats.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La cr\u00e9ation d'agents d'IA est devenue remarquablement rapide. Certaines \u00e9quipes d\u00e9ploient d\u00e9sormais des agents fonctionnels en quelques semaines. Mais il y a un hic : la rapidit\u00e9 ne signifie rien si l'agent n'apporte pas de valeur mesurable.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le v\u00e9ritable d\u00e9fi n'est plus de cr\u00e9er des agents. Il s'agit de prouver qu'ils sont efficaces.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon des recherches cit\u00e9es dans des analyses sectorielles, les organisations ont souvent du mal \u00e0 d\u00e9montrer que les investissements dans l'IA ont des retomb\u00e9es mesurables. Ce n'est pas parce que la technologie \u00e9choue, mais parce que les organisations ne sont pas en mesure de d\u00e9terminer \u00e0 quoi ressemble r\u00e9ellement le succ\u00e8s. La recherche indique que l'\u00e9valuation de l'IA met souvent trop l'accent sur les param\u00e8tres techniques par rapport aux facteurs \u00e9conomiques et centr\u00e9s sur l'utilisateur.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Ce d\u00e9s\u00e9quilibre cr\u00e9e de graves probl\u00e8mes. Les \u00e9quipes techniques se f\u00e9licitent d'une faible latence alors que les dirigeants d'entreprise se demandent o\u00f9 est pass\u00e9 le retour sur investissement. Les \u00e9quipes charg\u00e9es de la s\u00e9curit\u00e9 signalent les cas limites qui ne sont jamais trait\u00e9s en priorit\u00e9. Les utilisateurs abandonnent les agents qui \u201cfonctionnent\u201d techniquement, mais qui sont maladroits.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Pourquoi les mesures traditionnelles ne fonctionnent pas pour les agents d'IA<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Les agents d'IA ne sont pas des logiciels traditionnels. Ils fonctionnent avec une variabilit\u00e9 inh\u00e9rente - la m\u00eame entr\u00e9e peut produire des sorties diff\u00e9rentes. Ils prennent des d\u00e9cisions autonomes, appellent des outils et g\u00e8rent des flux de travail \u00e0 plusieurs \u00e9tapes.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Cela introduit des modes de d\u00e9faillance que le suivi traditionnel des erreurs ne peut pas d\u00e9tecter. Appels d'outils hallucin\u00e9s. Boucles infinies. Actions inappropri\u00e9es qui sont techniquement r\u00e9ussies mais contextuellement erron\u00e9es.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le contr\u00f4le standard du temps de fonctionnement ne permet pas de d\u00e9tecter un agent qui r\u00e9pond rapidement avec des informations totalement erron\u00e9es. Les taux d'erreur ne r\u00e9v\u00e8lent pas un agent qui accomplit des t\u00e2ches mais prend cinq fois plus de temps qu'un humain ne le ferait.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Les quatre dimensions fondamentales de la performance des agents d'IA<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Une \u00e9valuation efficace des agents n\u00e9cessite un cadre \u00e9quilibr\u00e9. Selon les recherches men\u00e9es par le Digital Economy Lab de Stanford et le National Institute of Standards and Technology (NIST), qui a r\u00e9cemment annonc\u00e9 la mise en place d'une initiative de normalisation des agents d'intelligence artificielle en f\u00e9vrier 2026, une \u00e9valuation compl\u00e8te englobe quatre dimensions essentielles.<\/span><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-15417 size-full\" src=\"https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38.webp\" alt=\"Les pratiques d&#039;\u00e9valuation actuelles accordent trop d&#039;importance aux param\u00e8tres techniques et sous-estiment l&#039;impact sur l&#039;entreprise et l&#039;exp\u00e9rience de l&#039;utilisateur.\" width=\"1280\" height=\"706\" srcset=\"https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38.webp 1280w, https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38-300x165.webp 300w, https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38-1024x565.webp 1024w, https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38-768x424.webp 768w, https:\/\/a-listware.com\/wp-content\/uploads\/2026\/03\/photo_2026-04-01_00-17-38-18x10.webp 18w\" sizes=\"auto, (max-width: 1280px) 100vw, 1280px\" \/><\/p>\n<p><span style=\"font-weight: 400;\">Chaque dimension r\u00e9pond \u00e0 des besoins diff\u00e9rents des parties prenantes. Les \u00e9quipes techniques ont besoin de mesures op\u00e9rationnelles. Les chefs d'entreprise ont besoin d'une justification financi\u00e8re. Les \u00e9quipes charg\u00e9es de la conformit\u00e9 ont besoin d'une garantie de s\u00e9curit\u00e9. Les utilisateurs finaux ont besoin d'une fiabilit\u00e9 pratique.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Mesures essentielles de la performance technique<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Les mesures techniques constituent la base. Elles permettent de d\u00e9terminer si l'agent ex\u00e9cute ses fonctions principales de mani\u00e8re fiable.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Taux d'ach\u00e8vement des t\u00e2ches<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Il s'agit du pourcentage de t\u00e2ches qu'un agent accomplit sans intervention humaine. Les donn\u00e9es de l'industrie montrent que les agents bien impl\u00e9ment\u00e9s atteignent 85-95% d'ach\u00e8vement autonome pour les t\u00e2ches structur\u00e9es.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Mais l'accomplissement des t\u00e2ches ne suffit pas \u00e0 rendre compte de la situation. Un agent peut accomplir 90% de t\u00e2ches tout en prenant deux fois plus de temps que n\u00e9cessaire ou en commettant des erreurs critiques en cours de route.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Pr\u00e9cision de l'objectif<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La pr\u00e9cision des objectifs mesure si les agents atteignent les r\u00e9sultats escompt\u00e9s, et pas seulement l'ach\u00e8vement des t\u00e2ches. Cette mesure principale doit \u00eatre \u00e9valu\u00e9e \u00e0 85%+ pour les agents de production. Toute valeur inf\u00e9rieure \u00e0 80% indique des probl\u00e8mes importants n\u00e9cessitant une attention imm\u00e9diate.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La distinction est importante. Un agent peut accomplir une t\u00e2che (ex\u00e9cuter toutes les \u00e9tapes) sans atteindre l'objectif (produire le r\u00e9sultat correct).<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Temps de r\u00e9ponse et d\u00e9bit<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La vitesse a un impact direct sur l'exp\u00e9rience de l'utilisateur. Les agents qui traitent les demandes des clients ont besoin de temps de r\u00e9ponse inf\u00e9rieurs \u00e0 la seconde pour les requ\u00eates simples. Les flux de travail complexes \u00e0 plusieurs \u00e9tapes peuvent prendre plus de temps, mais les utilisateurs ont besoin d'une visibilit\u00e9 sur la progression.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le d\u00e9bit mesure le nombre de demandes qu'un agent traite simultan\u00e9ment. Les agents de production doivent g\u00e9n\u00e9ralement pouvoir traiter des centaines ou des milliers d'op\u00e9rations simultan\u00e9es.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Taux de r\u00e9ussite des appels \u00e0 l'outil<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents modernes interagissent avec des outils externes, des API et des bases de donn\u00e9es. Chaque point d'int\u00e9gration pr\u00e9sente un risque d'\u00e9chec. Le suivi des appels d'outils r\u00e9ussis ou \u00e9chou\u00e9s r\u00e9v\u00e8le la fiabilit\u00e9 de l'int\u00e9gration.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon une recherche publi\u00e9e sur arXiv analysant l'\u00e9valuation des agents LLM, les erreurs d'utilisation des outils repr\u00e9sentent un mode de d\u00e9faillance important. Les appels d'outils hallucin\u00e9s - o\u00f9 les agents tentent d'utiliser des fonctions inexistantes - apparaissent fr\u00e9quemment dans les syst\u00e8mes mal configur\u00e9s.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Classification et r\u00e9cup\u00e9ration des erreurs<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Toutes les erreurs n'ont pas le m\u00eame poids. Une erreur de formatage diff\u00e8re grandement d'une violation de la s\u00e9curit\u00e9. Une surveillance efficace permet de classer les erreurs en fonction de leur gravit\u00e9 et de suivre le succ\u00e8s de la r\u00e9cup\u00e9ration.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'agent peut-il d\u00e9tecter ses propres erreurs ? R\u00e9essaie-t-il de mani\u00e8re appropri\u00e9e ? Fait-il appel \u00e0 des humains lorsque cela est n\u00e9cessaire ? La capacit\u00e9 de r\u00e9cup\u00e9ration est souvent plus importante que les taux d'erreur bruts.<\/span><\/p>\n<table>\n<thead>\n<tr>\n<th><span style=\"font-weight: 400;\">M\u00e9trique<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Fourchette cible<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Seuil d'alerte<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Seuil critique<\/span><\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><span style=\"font-weight: 400;\">Taux d'ach\u00e8vement des t\u00e2ches<\/span><\/td>\n<td><span style=\"font-weight: 400;\">85-95%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;85%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;75%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Pr\u00e9cision de l'objectif<\/span><\/td>\n<td><span style=\"font-weight: 400;\">85%+<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;85%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;80%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Temps de r\u00e9ponse (simple)<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;1 seconde<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&gt;2 secondes<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&gt;5 secondes<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Temps de r\u00e9ponse (complexe)<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;10 secondes<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&gt;20 secondes<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&gt;30 secondes<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Succ\u00e8s de l'appel \u00e0 outils<\/span><\/td>\n<td><span style=\"font-weight: 400;\">95%+<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;90%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;85%<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Taux de r\u00e9cup\u00e9ration des erreurs<\/span><\/td>\n<td><span style=\"font-weight: 400;\">80%+<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;70%<\/span><\/td>\n<td><span style=\"font-weight: 400;\">&lt;60%<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2><span style=\"font-weight: 400;\">Des mesures de l'impact sur l'entreprise qui stimulent la prise de d\u00e9cision<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">L'excellence technique ne signifie rien si l'entreprise ne peut pas justifier l'investissement. D'apr\u00e8s les enqu\u00eates men\u00e9es dans le secteur, les leaders technologiques consid\u00e8rent la qualit\u00e9 des performances comme une pr\u00e9occupation majeure, mais les parties prenantes ont besoin de preuves financi\u00e8res.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Retour sur investissement et \u00e9conomies de co\u00fbts<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le calcul du retour sur investissement des agents d'IA n\u00e9cessite de suivre les co\u00fbts directs et indirects. Les co\u00fbts directs comprennent l'infrastructure, les appels d'API et le temps de d\u00e9veloppement. Les co\u00fbts indirects comprennent les frais g\u00e9n\u00e9raux de surveillance, la correction des erreurs et la maintenance.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les \u00e9conomies proviennent de la r\u00e9duction des co\u00fbts de main-d'\u0153uvre, de l'acc\u00e9l\u00e9ration des d\u00e9lais de traitement et de l'am\u00e9lioration de la pr\u00e9cision. Les recherches men\u00e9es par l'\u00e9cole d'information de Berkeley soulignent que le suivi du retour sur investissement doit tenir compte de l'ensemble du cycle de vie de l'agent, et pas seulement de son d\u00e9ploiement initial.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Gains d'efficacit\u00e9 op\u00e9rationnelle<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Quelle est la rapidit\u00e9 d'ex\u00e9cution du travail ? Combien d'heures de travail humain sont r\u00e9orient\u00e9es vers des t\u00e2ches \u00e0 plus forte valeur ajout\u00e9e ?<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Une mesure efficace compare les performances des agents aux performances humaines de r\u00e9f\u00e9rence pour les m\u00eames t\u00e2ches. Les \u00e9quipes qui d\u00e9ploient des agents pour le traitement des factures, le service \u00e0 la client\u00e8le ou la saisie de donn\u00e9es font g\u00e9n\u00e9ralement \u00e9tat d'une r\u00e9duction du temps de 60 \u00e0 80% une fois que les agents ont atteint la maturit\u00e9 de production.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Impact sur les revenus et optimisation des conversions<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Pour les agents en contact avec la client\u00e8le, c'est l'impact sur le chiffre d'affaires qui compte le plus. L'agent augmente-t-il les taux de conversion ? R\u00e9duit-il les abandons de panier ? Fait-il de la vente incitative de mani\u00e8re efficace ?<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les agents charg\u00e9s du commerce \u00e9lectronique qui s'occupent des recommandations de produits doivent suivre les taux de clics, les taux d'ajout au panier et l'ach\u00e8vement de l'achat. Les agents du service client\u00e8le doivent surveiller les taux de r\u00e9solution et l'\u00e9volution de la valeur de la vie du client.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Utilisation des ressources et co\u00fbts de mise \u00e0 l'\u00e9chelle<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents d'IA consomment des ressources informatiques. L'utilisation de jetons pour les appels LLM, les limites de taux de l'API, les requ\u00eates de base de donn\u00e9es et le temps de traitement contribuent tous aux co\u00fbts d'exploitation.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les syst\u00e8mes de production ont besoin d'un suivi d\u00e9taill\u00e9 des co\u00fbts par t\u00e2che, par utilisateur et par p\u00e9riode. Cette granularit\u00e9 permet d'optimiser le syst\u00e8me en identifiant les op\u00e9rations co\u00fbteuses, les invites inefficaces ou les appels d'outils inutiles.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Mesures de s\u00e9curit\u00e9 et de conformit\u00e9<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Les d\u00e9faillances en mati\u00e8re de s\u00e9curit\u00e9 peuvent d\u00e9truire instantan\u00e9ment la confiance. Selon des recherches men\u00e9es \u00e0 Stanford et \u00e0 Princeton sur l'\u00e9tablissement de crit\u00e8res agentiques rigoureux, l'\u00e9valuation de la s\u00e9curit\u00e9 devrait \u00eatre syst\u00e9matique et continue, et non pas un point de contr\u00f4le ponctuel.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">D\u00e9tection et mesure des hallucinations<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les hallucinations - lorsque les agents g\u00e9n\u00e8rent des informations plausibles mais incorrectes - repr\u00e9sentent l'un des modes de d\u00e9faillance les plus dangereux. Dans des domaines \u00e0 fort enjeu comme la finance, une \u00e9tude de r\u00e9f\u00e9rence a r\u00e9v\u00e9l\u00e9 que les mod\u00e8les les plus r\u00e9cents commettaient encore des erreurs critiques dans des environnements contradictoires.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le benchmark CAIA, qui teste les agents d'IA sur les march\u00e9s financiers, a r\u00e9v\u00e9l\u00e9 des lacunes importantes o\u00f9 les mod\u00e8les n'atteignent qu'une pr\u00e9cision de 12-28% sur des t\u00e2ches que les analystes juniors traitent couramment. Rien qu'en 2024, plus de $30 milliards ont \u00e9t\u00e9 perdus \u00e0 cause d'exploits et d'escroqueries sur les march\u00e9s des crypto-monnaies.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La mesure des taux d'hallucination n\u00e9cessite une \u00e9valuation humaine, une v\u00e9rification automatis\u00e9e des faits par rapport \u00e0 la v\u00e9rit\u00e9 de base et des boucles de retour d'information de la part des utilisateurs. Les syst\u00e8mes de production devraient suivre la fr\u00e9quence des hallucinations par type de t\u00e2che et par niveau de gravit\u00e9.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Suivi des incidents de s\u00e9curit\u00e9<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents interagissent avec les syst\u00e8mes sensibles. Ils acc\u00e8dent aux bases de donn\u00e9es, appellent les API et manipulent les donn\u00e9es des utilisateurs. Chaque point d'interaction repr\u00e9sente une vuln\u00e9rabilit\u00e9 potentielle en mati\u00e8re de s\u00e9curit\u00e9.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le Cybersecurity AI Benchmark (CAIBench), un m\u00e9ta-benchmark pour l'\u00e9valuation des agents IA de cybers\u00e9curit\u00e9, met l'accent sur l'\u00e9valuation offensive-d\u00e9fensive syst\u00e9matique. La recherche montre que les mod\u00e8les d'IA de pointe atteignent un succ\u00e8s d'environ 70% sur les mesures de connaissances en mati\u00e8re de s\u00e9curit\u00e9, mais se d\u00e9gradent consid\u00e9rablement pour atteindre un succ\u00e8s de 20-40% dans les sc\u00e9narios adverses \u00e0 plusieurs \u00e9tapes, ce qui indique qu'il y a une marge d'am\u00e9lioration substantielle.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les mesures de s\u00e9curit\u00e9 doivent permettre de suivre les tentatives d'acc\u00e8s non autoris\u00e9, les incidents de fuite de donn\u00e9es, les succ\u00e8s d'injection rapide et les violations de politiques. Les seuils de tol\u00e9rance z\u00e9ro s'appliquent : m\u00eame les incidents isol\u00e9s doivent faire l'objet d'une enqu\u00eate.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">D\u00e9tection des biais et \u00e9valuation de l'\u00e9quit\u00e9<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents d'IA peuvent perp\u00e9tuer ou amplifier les biais pr\u00e9sents dans les donn\u00e9es d'apprentissage. Pour les applications en contact avec la client\u00e8le, les comportements biais\u00e9s entra\u00eenent une responsabilit\u00e9 juridique et une atteinte \u00e0 la r\u00e9putation.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation de l'\u00e9quit\u00e9 n\u00e9cessite de tester les r\u00e9ponses des agents \u00e0 travers les groupes d\u00e9mographiques, les cas d'utilisation et les cas limites. L'ensemble de donn\u00e9es StereoSet, d\u00e9velopp\u00e9 par des chercheurs en PNL de McGill, fournit des cadres de mesure de biais standardis\u00e9s qui testent les st\u00e9r\u00e9otypes de race, de sexe, de profession et de religion.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Pr\u00e9servation de la vie priv\u00e9e et traitement des donn\u00e9es<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents traitent les donn\u00e9es des utilisateurs pour accomplir des t\u00e2ches. Ces donn\u00e9es doivent \u00eatre prot\u00e9g\u00e9es. Les mesures de confidentialit\u00e9 permettent de suivre les p\u00e9riodes de conservation des donn\u00e9es, l'utilisation du cryptage, l'efficacit\u00e9 de l'anonymisation et la conformit\u00e9 avec des r\u00e9glementations telles que le GDPR ou le CCPA.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le CAIBench comprend une \u00e9valuation des performances en mati\u00e8re de pr\u00e9servation de la vie priv\u00e9e gr\u00e2ce \u00e0 sa composante CyberPII-Bench, qui \u00e9value le traitement des informations personnelles identifiables par les agents.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Exp\u00e9rience de l'utilisateur et mesures d'adoption<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">L'excellence technique et la valeur commerciale ne signifient rien si les utilisateurs ne se servent pas de l'agent. Les mesures de l'exp\u00e9rience utilisateur r\u00e9v\u00e8lent si les agents apportent une valeur pratique dans des conditions r\u00e9elles.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Satisfaction des utilisateurs et Net Promoter Score<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le retour d'information direct des utilisateurs fournit des informations irrempla\u00e7ables. Les enqu\u00eates post-interaction, les \u00e9valuations de satisfaction et les Net Promoter Scores (NPS) quantifient le sentiment des utilisateurs.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les syst\u00e8mes de production doivent recueillir des informations en plusieurs points - apr\u00e8s l'ach\u00e8vement d'une t\u00e2che, au cours d'interactions prolong\u00e9es et par le biais d'enqu\u00eates p\u00e9riodiques. Les objectifs de satisfaction sont g\u00e9n\u00e9ralement de 4+ sur 5 ou 70%+ d'\u00e9valuations positives.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Taux d'adoption et utilisation active<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Combien d'utilisateurs pr\u00e9vus utilisent r\u00e9ellement l'agent ? \u00c0 quelle fr\u00e9quence ? Les indicateurs d'adoption r\u00e9v\u00e8lent si les agents apportent suffisamment de valeur pour modifier le comportement des utilisateurs.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Une faible adoption malgr\u00e9 de bonnes mesures techniques indique des probl\u00e8mes d'interface utilisateur, une formation insuffisante ou des cas d'utilisation mal align\u00e9s. Une forte adoption initiale suivie d'un d\u00e9clin de l'utilisation indique un enthousiasme initial suivi d'une d\u00e9ception.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Indicateurs de confiance et sch\u00e9mas d'escalade<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les utilisateurs font-ils confiance aux r\u00e9sultats des agents ? Les taux d'escalade - la fr\u00e9quence \u00e0 laquelle les utilisateurs demandent une v\u00e9rification humaine ou passent outre les d\u00e9cisions de l'agent - r\u00e9v\u00e8lent les niveaux de confiance.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les taux d'escalade sains varient en fonction du domaine. Les d\u00e9cisions \u00e0 fort enjeu (diagnostics m\u00e9dicaux, transactions financi\u00e8res) devraient avoir des taux d'escalade plus \u00e9lev\u00e9s que les t\u00e2ches \u00e0 faible enjeu (planification, saisie de donn\u00e9es).<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Qualit\u00e9 du retour d'information et possibilit\u00e9 d'action<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">La qualit\u00e9 du retour d'information de l'utilisateur compte autant que la quantit\u00e9. Un retour d'information d\u00e9taill\u00e9 permet d'apporter des am\u00e9liorations sp\u00e9cifiques. Les rapports g\u00e9n\u00e9riques \u201cne fonctionne pas\u201d n'ont qu'une valeur limit\u00e9e par rapport \u00e0 \u201cn'a pas r\u00e9ussi \u00e0 traiter les factures avec des codes de devises internationaux\u201d.\u201d<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les syst\u00e8mes doivent enregistrer un retour d'information structur\u00e9 - quelle t\u00e2che a \u00e9t\u00e9 tent\u00e9e, ce qui n'a pas fonctionn\u00e9, ce que l'utilisateur attendait et l'importance de l'\u00e9chec.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Construire un cadre de mesure<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Les mesures individuelles fournissent des points de donn\u00e9es. Un cadre les relie pour en faire des informations exploitables.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9tablissement de la performance de r\u00e9f\u00e9rence<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Une mesure efficace n\u00e9cessite des donn\u00e9es de r\u00e9f\u00e9rence. Quelle est la performance actuelle sans l'agent ? Comment les humains effectuent-ils les m\u00eames t\u00e2ches ?<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'\u00e9tablissement d'une base de r\u00e9f\u00e9rence devrait permettre de recueillir des informations :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">D\u00e9lai et co\u00fbt d'ach\u00e8vement de la t\u00e2che en cours<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Taux et types d'erreurs humaines<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Satisfaction des utilisateurs \u00e0 l'\u00e9gard des processus existants<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Co\u00fbts op\u00e9rationnels et utilisation des ressources<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Ces donn\u00e9es de r\u00e9f\u00e9rence permettent d'effectuer des comparaisons significatives et de calculer le retour sur investissement.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Fixer des rep\u00e8res et des objectifs r\u00e9alistes<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Selon une \u00e9tude du cadre de gestion des risques li\u00e9s \u00e0 l'IA du NIST, la d\u00e9finition des objectifs doit concilier ambition et r\u00e9alisme. En visant une pr\u00e9cision de 99,9% d\u00e8s le premier jour, les \u00e9quipes s'exposent \u00e0 l'\u00e9chec.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les objectifs progressifs sont plus efficaces. Le d\u00e9ploiement initial pourrait viser l'accomplissement des t\u00e2ches 70% sous la surveillance de l'homme. Les syst\u00e8mes matures augmentent progressivement l'autonomie au fur et \u00e0 mesure que la fiabilit\u00e9 s'am\u00e9liore.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le benchmark FinGAIA, une \u00e9valuation de bout en bout des agents d'IA dans le domaine de la finance, t\u00e9moigne d'une d\u00e9finition r\u00e9aliste des objectifs. Chaque t\u00e2che de ce benchmark a n\u00e9cessit\u00e9 environ 90 minutes de conception et d'annotation manuelles, ce qui refl\u00e8te la complexit\u00e9 d'une \u00e9valuation de haute qualit\u00e9.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Mise en \u0153uvre de la surveillance continue<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Une \u00e9valuation unique ne suffit pas. Les performances des agents varient en fonction de la distribution des donn\u00e9es, de l'\u00e9mergence de cas particuliers et de la mise \u00e0 jour des mod\u00e8les sous-jacents.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le contr\u00f4le de la production doit \u00eatre continu et automatis\u00e9. Des tableaux de bord en temps r\u00e9el permettent de suivre les param\u00e8tres cl\u00e9s. Des alertes automatis\u00e9es signalent les anomalies. Des audits r\u00e9guliers permettent de d\u00e9tecter les d\u00e9rives avant qu'elles ne deviennent critiques.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Cr\u00e9er des boucles de r\u00e9troaction pour l'am\u00e9lioration<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Mesurer sans agir, c'est gaspiller des ressources. Les cadres efficaces bouclent la boucle : les mesures \u00e9clairent les d\u00e9cisions, les d\u00e9cisions conduisent \u00e0 des am\u00e9liorations, les am\u00e9liorations sont \u00e0 nouveau mesur\u00e9es.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon les meilleures pratiques d'\u00e9valuation de l'OpenAI, les \u00e9quipes devraient \u00e9tablir des cycles de r\u00e9vision r\u00e9guliers. Examens hebdomadaires des mesures critiques. Des analyses mensuelles approfondies du retour d'information des utilisateurs. R\u00e9\u00e9valuation trimestrielle des objectifs et des rep\u00e8res.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">M\u00e9thodes d'\u00e9valuation et strat\u00e9gies de test<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Diff\u00e9rentes m\u00e9thodes d'\u00e9valuation r\u00e9pondent \u00e0 des objectifs diff\u00e9rents. La surveillance de la production permet de d\u00e9tecter les probl\u00e8mes en direct. Les tests hors ligne permettent de valider les modifications avant leur d\u00e9ploiement. Les ensembles de donn\u00e9es de r\u00e9f\u00e9rence permettent une comparaison normalis\u00e9e.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation en ligne avec les donn\u00e9es de production<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation en ligne permet de contr\u00f4ler les performances des agents en direct avec des utilisateurs r\u00e9els. Cette m\u00e9thode offre la vision la plus pr\u00e9cise des performances r\u00e9elles, mais comporte un risque : les erreurs affectent les utilisateurs r\u00e9els.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon le livre de recettes d'\u00e9valuation Langfuse pour les agents, l'\u00e9valuation en ligne doit comprendre les \u00e9l\u00e9ments suivants :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Suivi en temps r\u00e9el de toutes les interactions<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">M\u00e9canismes de collecte des commentaires des utilisateurs<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">D\u00e9tection d'anomalies et alertes automatis\u00e9es<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Relecture de la session pour d\u00e9boguer les interactions probl\u00e9matiques<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">Les donn\u00e9es de production refl\u00e8tent la r\u00e9alit\u00e9. Des cas de figure qui n'apparaissent jamais dans les ensembles de donn\u00e9es de test font constamment surface. Les mod\u00e8les de comportement des utilisateurs changent. L'\u00e9valuation en ligne permet de saisir cette variabilit\u00e9.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation hors ligne avec des ensembles de donn\u00e9es de r\u00e9f\u00e9rence<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation hors ligne fait appel \u00e0 des ensembles de donn\u00e9es curat\u00e9es dont les r\u00e9ponses correctes sont connues. Cela permet d'effectuer des tests contr\u00f4l\u00e9s sans risque pour les utilisateurs.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La liste de contr\u00f4le Agentic Benchmark Checklist (ABC), synth\u00e9tis\u00e9e \u00e0 partir de l'exp\u00e9rience et des meilleures pratiques en mati\u00e8re de construction de rep\u00e8res, fournit des lignes directrices pour une \u00e9valuation hors ligne rigoureuse. Appliqu\u00e9e \u00e0 CVE-Bench, un benchmark dont les exigences d'\u00e9valuation sont particuli\u00e8rement complexes, l'ABC a permis d'am\u00e9liorer la fiabilit\u00e9 de mani\u00e8re significative.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les ensembles de donn\u00e9es hors ligne doivent comprendre<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Exemples de t\u00e2ches repr\u00e9sentatives couvrant des sc\u00e9narios courants<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Cas limites et modes de d\u00e9faillance connus<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Exemples contradictoires testant la robustesse<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">\u00c9tiquettes de v\u00e9rit\u00e9 terrain pour la notation automatis\u00e9e<\/span><\/li>\n<\/ul>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation du programme LLM en tant que juge<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation LLM-as-judge utilise un mod\u00e8le de langage pour \u00e9valuer le r\u00e9sultat d'un autre mod\u00e8le. Cette approche s'adapte efficacement et g\u00e8re l'\u00e9valuation subjective de la qualit\u00e9 que les mesures automatis\u00e9es ont du mal \u00e0 g\u00e9rer.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon une \u00e9tude du Digital Economy Lab de Stanford, l'utilisation d'un LLM en tant que juge permet d'\u00e9valuer la qualit\u00e9 de la production sur la base de crit\u00e8res sp\u00e9cifiques. Cela permet un contr\u00f4le de qualit\u00e9 rapide et \u00e9volutif pour des syst\u00e8mes tels que les chatbots ou les g\u00e9n\u00e9rateurs de contenu.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Mais les juges du LLM ont des limites. Ils peuvent perp\u00e9tuer des pr\u00e9jug\u00e9s. Ils sont parfois en d\u00e9saccord avec les \u00e9valuateurs humains. Ils fonctionnent mieux lorsqu'ils sont combin\u00e9s \u00e0 d'autres m\u00e9thodes d'\u00e9valuation.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le cadre WebJudge, d\u00e9velopp\u00e9 par des chercheurs et r\u00e9f\u00e9renc\u00e9 \u00e0 l'\u00c9cole de recherche sur l'information de Berkeley, fournit un retour d'information plus approfondi pour les ex\u00e9cutions agentiques. Il a d\u00e9montr\u00e9 une concordance de &gt;85% entre WebJudge et l'\u00e9valuation humaine lors de l'utilisation du mod\u00e8le o4-mini d'OpenAI.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation humaine et examen par des experts<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les mesures automatis\u00e9es ne peuvent pas tout saisir. L'\u00e9valuation humaine reste essentielle :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">\u00c9valuation subjective de la qualit\u00e9 (utilit\u00e9, clart\u00e9, ton)<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Validation de raisonnements complexes<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">S\u00e9curit\u00e9 et consid\u00e9rations \u00e9thiques<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Nouvelle d\u00e9couverte du mode de d\u00e9faillance<\/span><\/li>\n<\/ul>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation humaine est plus co\u00fbteuse et moins efficace que l'automatisation. L'utilisation strat\u00e9gique concentre l'examen humain sur les domaines o\u00f9 les mesures automatis\u00e9es fournissent un signal insuffisant.<\/span><\/p>\n<table>\n<thead>\n<tr>\n<th><span style=\"font-weight: 400;\">M\u00e9thode d'\u00e9valuation<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Meilleur pour<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Limites<\/span><\/th>\n<th><span style=\"font-weight: 400;\">Fr\u00e9quence typique<\/span><\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><span style=\"font-weight: 400;\">Production en ligne<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Performances en conditions r\u00e9elles, comportement des utilisateurs<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Risque pour les utilisateurs, difficult\u00e9s \u00e0 isoler les variables<\/span><\/td>\n<td><span style=\"font-weight: 400;\">En continu<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">\u00c9valuation comparative hors ligne<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Tests contr\u00f4l\u00e9s, d\u00e9tection de la r\u00e9gression<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Peut ne pas refl\u00e9ter la r\u00e9alit\u00e9, ensembles de donn\u00e9es statiques<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Avant chaque d\u00e9ploiement<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">LLM en tant que juge<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Qualit\u00e9 subjective, \u00e9chelle<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Partialit\u00e9 potentielle, d\u00e9saccord avec les humains<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Quotidien \u00e0 hebdomadaire<\/span><\/td>\n<\/tr>\n<tr>\n<td><span style=\"font-weight: 400;\">Revue humaine<\/span><\/td>\n<td><span style=\"font-weight: 400;\">\u00c9valuation nuanc\u00e9e, s\u00e9curit\u00e9<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Co\u00fbteux, lent, non \u00e9volutif<\/span><\/td>\n<td><span style=\"font-weight: 400;\">Hebdomadaire \u00e0 mensuel<\/span><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2><span style=\"font-weight: 400;\">D\u00e9fis communs en mati\u00e8re de mesure de la performance des agents<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">M\u00eame avec de bons cadres, l'\u00e9valuation est confront\u00e9e \u00e0 des d\u00e9fis persistants. Les comprendre permet de trouver de meilleures solutions.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Gestion de la variabilit\u00e9 et du non-d\u00e9terminisme<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les mod\u00e8les linguistiques ne sont pas d\u00e9terministes. La m\u00eame entr\u00e9e peut produire des sorties diff\u00e9rentes. Cela rend les tests de logiciels traditionnels inad\u00e9quats.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation doit tenir compte des variations acceptables. Un agent du service client\u00e8le peut r\u00e9pondre \u00e0 la m\u00eame question de plusieurs fa\u00e7ons, toutes correctes mais formul\u00e9es diff\u00e9remment.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les techniques de gestion de la variabilit\u00e9 comprennent<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Evaluation de la similarit\u00e9 s\u00e9mantique au lieu de la correspondance exacte<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">R\u00e9ponses de r\u00e9f\u00e9rence multiples pour comparaison<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Intervalles de confiance au lieu d'estimations ponctuelles<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Agr\u00e9gation sur plusieurs s\u00e9ries<\/span><\/li>\n<\/ul>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation du raisonnement \u00e0 plusieurs \u00e9tapes et de l'utilisation des outils<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents modernes effectuent des flux de travail complexes en plusieurs \u00e9tapes. Ils d\u00e9composent les probl\u00e8mes en sous-t\u00e2ches, font appel \u00e0 des outils et encha\u00eenent les op\u00e9rations.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation des \u00e9tapes interm\u00e9diaires est aussi importante que les r\u00e9sultats finaux. Un agent peut parvenir \u00e0 la bonne r\u00e9ponse gr\u00e2ce \u00e0 un raisonnement erron\u00e9 - un probl\u00e8me qui se manifeste plus tard lorsque les contextes changent.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le cadre de simulation multi-agents \u00e0 tr\u00e8s grande \u00e9chelle d'AgentScope d\u00e9montre la complexit\u00e9 de l'\u00e9valuation des syst\u00e8mes multi-agents. Les am\u00e9liorations apport\u00e9es \u00e0 la plateforme am\u00e9liorent l'\u00e9volutivit\u00e9 et la facilit\u00e9 d'utilisation des simulations \u00e0 grande \u00e9chelle gr\u00e2ce \u00e0 une architecture distribu\u00e9e.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9quilibrer l'automatisation et la surveillance humaine<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">L'automatisation compl\u00e8te permet de passer \u00e0 l'\u00e9chelle sup\u00e9rieure, mais ne tient pas compte des nuances. L'examen humain complet permet de saisir les nuances, mais ne permet pas de passer \u00e0 l'\u00e9chelle sup\u00e9rieure.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les approches efficaces combinent les deux. Des mesures automatis\u00e9es signalent les probl\u00e8mes potentiels. Des examinateurs humains \u00e9tudient les cas signal\u00e9s. Les cas marginaux permettent d'am\u00e9liorer les mesures automatis\u00e9es.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Exigences d'\u00e9valuation sp\u00e9cifiques au domaine<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les exigences varient selon les domaines. Les agents financiers ont besoin d'une extr\u00eame pr\u00e9cision. Les agents du service client\u00e8le ont besoin d'empathie et de gestion du ton. Les agents de g\u00e9n\u00e9ration de code ont besoin d'une correction fonctionnelle.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le benchmark FinGAIA d\u00e9montre une \u00e9valuation sp\u00e9cifique \u00e0 un domaine pour les agents financiers. Toutes les t\u00e2ches ont \u00e9t\u00e9 formul\u00e9es \u00e0 la suite de discussions avec des experts financiers, et chaque question a n\u00e9cessit\u00e9 environ 90 minutes pour sa conception, son annotation et sa v\u00e9rification.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les cadres d'\u00e9valuation g\u00e9n\u00e9riques doivent \u00eatre adapt\u00e9s au domaine. Ce qui est consid\u00e9r\u00e9 comme \u201cbon\u201d varie consid\u00e9rablement d'un cas d'utilisation \u00e0 l'autre.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Outils et plateformes pour l'\u00e9valuation des agents<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">De nombreuses plates-formes fournissent aujourd'hui une infrastructure d'\u00e9valuation des agents. Les capacit\u00e9s varient consid\u00e9rablement.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Langfuse pour l'observabilit\u00e9 et les essais<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Langfuse fournit un tra\u00e7age et une \u00e9valuation complets pour les applications et les agents LLM. Il capture les \u00e9tapes internes de l'agent, ce qui permet une analyse d\u00e9taill\u00e9e des performances.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La plateforme prend en charge \u00e0 la fois le suivi de la production en ligne et l'\u00e9valuation des ensembles de donn\u00e9es hors ligne. Les \u00e9quipes l'utilisent pour comparer les variantes, suivre les co\u00fbts et identifier les r\u00e9gressions de performance.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Poids et biais pour le suivi des exp\u00e9riences<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Weights &amp; Biases (W&amp;B) permet le suivi des exp\u00e9riences, l'\u00e9valuation des mod\u00e8les et la visualisation. Les \u00e9quipes l'utilisent pour comparer les configurations des agents, suivre les mesures dans le temps et partager les r\u00e9sultats entre les organisations.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">W&amp;B s'int\u00e8gre aux cadres d'agents courants, ce qui permet l'enregistrement et la visualisation automatis\u00e9s des mesures sans instrumentation personnalis\u00e9e.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Evals OpenAI pour les tests standardis\u00e9s<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Le cadre Evals de l'OpenAI fournit des mod\u00e8les d'\u00e9valuation et des ensembles de donn\u00e9es standardis\u00e9s. Il permet d'effectuer des tests coh\u00e9rents entre les versions et les configurations des mod\u00e8les.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon la documentation sur les meilleures pratiques d'\u00e9valuation de l'OpenAI, les \u00e9quipes devraient utiliser un m\u00e9lange de donn\u00e9es de production et d'ensembles de donn\u00e9es cr\u00e9\u00e9s par des experts. Pour les t\u00e2ches de r\u00e9sum\u00e9, les impl\u00e9mentations doivent atteindre un score ROUGE-L d'au moins 0,40 et un score de coh\u00e9rence d'au moins 80% en utilisant G-Eval sur des ensembles conserv\u00e9s.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Pipelines d'\u00e9valuation personnalis\u00e9s<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Certaines \u00e9quipes construisent une infrastructure d'\u00e9valuation personnalis\u00e9e. Cette solution offre une flexibilit\u00e9 maximale mais n\u00e9cessite un investissement technique important.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les pipelines personnalis\u00e9s sont utiles lorsque :<\/span><\/p>\n<ul>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Les exigences du domaine ne correspondent pas aux outils existants<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">L'int\u00e9gration avec les syst\u00e8mes propri\u00e9taires est essentielle<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">L'\u00e9chelle d\u00e9passe les limites de la plate-forme commerciale<\/span><\/li>\n<li style=\"font-weight: 400;\" aria-level=\"1\"><span style=\"font-weight: 400;\">Les exigences r\u00e9glementaires imposent des contr\u00f4les sp\u00e9cifiques<\/span><\/li>\n<\/ul>\n<h2><span style=\"font-weight: 400;\">Faites en sorte que les mesures de votre agent d'IA soient r\u00e9ellement utiles<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">Les mesures de performance n'ont d'importance que si le syst\u00e8me qui les sous-tend est fiable. Dans la pratique, les probl\u00e8mes viennent souvent de la fa\u00e7on dont les donn\u00e9es sont collect\u00e9es, de la fa\u00e7on dont les services interagissent et de la question de savoir si le backend peut prendre en charge des mesures coh\u00e9rentes dans le temps.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">A-listware travaille sur cette couche avec des \u00e9quipes de d\u00e9veloppement d\u00e9di\u00e9es. L'accent est mis sur les syst\u00e8mes dorsaux, les int\u00e9grations et l'infrastructure qui supportent un flux de donn\u00e9es et un reporting stables, de sorte que les mesures de performance refl\u00e8tent les conditions r\u00e9elles plut\u00f4t que des r\u00e9sultats partiels. Contact <\/span><a href=\"https:\/\/a-listware.com\/\" target=\"_blank\" rel=\"noopener\"><span style=\"font-weight: 400;\">Logiciel de liste A<\/span><\/a><span style=\"font-weight: 400;\"> pour faciliter la mise en place du syst\u00e8me et assurer l'exactitude des mesures en production.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Orientations futures de l'\u00e9valuation des agents<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation des agents continue d'\u00e9voluer au fur et \u00e0 mesure que les agents deviennent plus performants et plus r\u00e9pandus.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Efforts de normalisation et r\u00e9f\u00e9rences industrielles<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">L'initiative de normalisation des agents d'IA du NIST, annonc\u00e9e en f\u00e9vrier 2026, vise \u00e0 garantir que l'IA de nouvelle g\u00e9n\u00e9ration soit largement adopt\u00e9e en toute confiance, qu'elle fonctionne en toute s\u00e9curit\u00e9 et qu'elle interop\u00e8re sans heurts dans l'\u00e9cosyst\u00e8me num\u00e9rique.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Cette initiative t\u00e9moigne de la reconnaissance croissante du fait que les cadres d'\u00e9valuation normalis\u00e9s profitent \u00e0 l'ensemble du secteur. Des crit\u00e8res de r\u00e9f\u00e9rence coh\u00e9rents permettent des comparaisons significatives et acc\u00e9l\u00e8rent l'am\u00e9lioration.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Tests contradictoires et Red Teaming<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">\u00c0 mesure que les agents g\u00e8rent des t\u00e2ches aux enjeux plus importants, les tests d'adversit\u00e9 deviennent essentiels. Le test de r\u00e9f\u00e9rence CAIA met en \u00e9vidence un point faible essentiel de l'\u00e9valuation de l'IA, \u00e0 savoir l'incapacit\u00e9 \u00e0 fonctionner dans des environnements contradictoires \u00e0 enjeux \u00e9lev\u00e9s, o\u00f9 la d\u00e9sinformation est utilis\u00e9e comme arme et o\u00f9 les erreurs sont co\u00fbteuses.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">La recherche montre des lacunes importantes en mati\u00e8re de robustesse \u00e0 l'adversit\u00e9. Les agents qui fonctionnent bien dans des conditions b\u00e9nignes \u00e9chouent souvent de mani\u00e8re spectaculaire lorsqu'ils sont confront\u00e9s \u00e0 une manipulation intentionnelle.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">\u00c9valuation des syst\u00e8mes multi-agents<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">De nombreux syst\u00e8mes de production font d\u00e9sormais appel \u00e0 la collaboration de plusieurs agents. Le cadre TradingAgents d\u00e9montre des syst\u00e8mes LLM multi-agents pour la n\u00e9gociation d'actions, en simulant des soci\u00e9t\u00e9s de n\u00e9gociation du monde r\u00e9el.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">L'\u00e9valuation multi-agents n\u00e9cessite de nouvelles mesures - efficacit\u00e9 de la coordination, surcharge de communication, comportements \u00e9mergents et r\u00e9sultats au niveau du syst\u00e8me au-del\u00e0 des performances individuelles des agents.<\/span><\/p>\n<h3><span style=\"font-weight: 400;\">Mesures d'apprentissage continu et d'adaptation<\/span><\/h3>\n<p><span style=\"font-weight: 400;\">Les agents statiques c\u00e9deront la place \u00e0 des syst\u00e8mes qui apprennent \u00e0 partir des interactions. L'\u00e9valuation doit porter sur l'efficacit\u00e9 de l'apprentissage - la rapidit\u00e9 avec laquelle les agents s'am\u00e9liorent, la g\u00e9n\u00e9ralisation des am\u00e9liorations et l'introduction de nouveaux modes de d\u00e9faillance par l'adaptation.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Questions fr\u00e9quemment pos\u00e9es<\/span><\/h2>\n<ol>\n<li><b> Quelle est la mesure la plus importante pour \u00e9valuer les performances des agents d'IA ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Il n'y en a pas un seul. La pr\u00e9cision des objectifs (85%+ pour les agents de production) constitue la meilleure mesure technique unique, mais une \u00e9valuation compl\u00e8te n\u00e9cessite de trouver un \u00e9quilibre entre la performance technique, l'impact sur l'entreprise, la s\u00e9curit\u00e9 et l'exp\u00e9rience de l'utilisateur. Selon la recherche, 83% d'\u00e9valuation se concentrent sur les mesures techniques alors que seulement 30% prennent en compte les facteurs centr\u00e9s sur l'utilisateur ou \u00e9conomiques - ce d\u00e9s\u00e9quilibre est source de probl\u00e8mes. La mesure la plus importante d\u00e9pend de l'objectif de votre agent et des parties prenantes.<\/span><\/p>\n<ol start=\"2\">\n<li><b> \u00c0 quelle fr\u00e9quence les agents d'IA doivent-ils \u00eatre \u00e9valu\u00e9s en production ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">En permanence. Les param\u00e8tres essentiels doivent \u00eatre surveill\u00e9s en temps r\u00e9el et les anomalies doivent faire l'objet d'alertes automatiques. Les examens hebdomadaires doivent permettre d'analyser les tendances et le retour d'information des utilisateurs. Les analyses approfondies mensuelles doivent porter sur les cas limites et les modes de d\u00e9faillance. Les \u00e9valuations trimestrielles doivent permettre de r\u00e9\u00e9valuer les objectifs et les crit\u00e8res de r\u00e9f\u00e9rence. Le cadre d'\u00e9valuation Langfuse recommande cette cadence pour les syst\u00e8mes de production traitant un volume important d'utilisateurs.<\/span><\/p>\n<ol start=\"3\">\n<li><b> Quel est un taux d'ach\u00e8vement des t\u00e2ches r\u00e9aliste pour un nouvel agent d'intelligence artificielle ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Les donn\u00e9es de l'industrie montrent que les agents bien impl\u00e9ment\u00e9s atteignent une autonomie de 85-95% pour les t\u00e2ches structur\u00e9es. Mais les nouveaux agents commencent g\u00e9n\u00e9ralement plus bas - 60-70% est courant lors du d\u00e9ploiement initial avec une supervision humaine. Au fur et \u00e0 mesure que les \u00e9quipes affinent les messages-guides, am\u00e9liorent la gestion des erreurs et augmentent les donn\u00e9es de formation, les taux d'ach\u00e8vement augmentent. Tout taux inf\u00e9rieur \u00e0 75% pour les agents de production matures indique des probl\u00e8mes importants n\u00e9cessitant une attention particuli\u00e8re.<\/span><\/p>\n<ol start=\"4\">\n<li><b> Comment mesurer le retour sur investissement des agents d'IA ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Suivez les co\u00fbts (infrastructure, appels d'API, temps de d\u00e9veloppement, frais g\u00e9n\u00e9raux de surveillance, maintenance) et les avantages (r\u00e9duction des co\u00fbts de main-d'\u0153uvre, traitement plus rapide, am\u00e9lioration de la pr\u00e9cision, impact sur les recettes). De nombreuses organisations d\u00e9clarent avoir atteint un retour sur investissement positif en l'espace de plusieurs mois, car les \u00e9conomies cumul\u00e9es d\u00e9passent les co\u00fbts de d\u00e9veloppement et d'exploitation. Calculer le co\u00fbt par t\u00e2che accomplie et le comparer \u00e0 la r\u00e9f\u00e9rence humaine. Inclure \u00e0 la fois l'impact financier direct et les avantages indirects tels que la satisfaction des employ\u00e9s r\u00e9sultant de l'\u00e9limination du travail fastidieux.<\/span><\/p>\n<ol start=\"5\">\n<li><b> Quelle est la diff\u00e9rence entre l'accomplissement d'une t\u00e2che et la pr\u00e9cision d'un objectif ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">L'ach\u00e8vement de la t\u00e2che permet de d\u00e9terminer si l'agent a termin\u00e9 toutes les \u00e9tapes. L'exactitude de l'objectif permet de d\u00e9terminer si l'agent atteint le r\u00e9sultat escompt\u00e9. Un agent peut achever une t\u00e2che (ex\u00e9cuter toutes les op\u00e9rations) sans atteindre l'objectif (produire le bon r\u00e9sultat). Par exemple, un agent peut interroger avec succ\u00e8s une base de donn\u00e9es, traiter les r\u00e9sultats et formater la sortie (100% pour l'ach\u00e8vement de la t\u00e2che), mais renvoyer des informations non pertinentes en raison d'erreurs dans la construction de la requ\u00eate (0% pour la pr\u00e9cision de l'objectif). La pr\u00e9cision des objectifs devrait \u00eatre de 85%+ pour les syst\u00e8mes de production.<\/span><\/p>\n<ol start=\"6\">\n<li><b> Comment \u00e9valuez-vous les qualit\u00e9s subjectives telles que la serviabilit\u00e9 ou le ton de l'agent ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Combiner l'\u00e9valuation LLM en tant que juge avec l'examen humain et le retour d'information de l'utilisateur. Les approches LLM-as-judge s'adaptent efficacement en utilisant un mod\u00e8le linguistique pour \u00e9valuer les r\u00e9sultats d'un autre mod\u00e8le sur la base de crit\u00e8res sp\u00e9cifiques. Mais elles ont besoin d'\u00eatre valid\u00e9es par des jugements humains. Les enqu\u00eates de satisfaction des utilisateurs, les Net Promoter Scores et le retour d'information qualitatif capturent l'exp\u00e9rience subjective. Pour les applications sensibles au ton, comme le service client\u00e8le, l'\u00e9valuation humaine experte d'un \u00e9chantillon repr\u00e9sentatif (100 \u00e0 500 interactions par mois) fournit une v\u00e9rit\u00e9 de base pour calibrer la notation automatis\u00e9e.<\/span><\/p>\n<ol start=\"7\">\n<li><b> Quels sont les outils permettant de contr\u00f4ler les performances des agents d'IA ?<\/b><\/li>\n<\/ol>\n<p><span style=\"font-weight: 400;\">Plusieurs plateformes fournissent une infrastructure d'\u00e9valuation des agents. Langfuse offre un tra\u00e7age et une \u00e9valuation complets avec un support pour le suivi en ligne et les tests hors ligne. Weights &amp; Biases assure le suivi et la visualisation des exp\u00e9riences dans toutes les configurations. Le cadre Evals d'OpenAI offre des mod\u00e8les et des ensembles de donn\u00e9es standardis\u00e9s. De nombreuses \u00e9quipes construisent \u00e9galement des pipelines personnalis\u00e9s lorsque les exigences du domaine ne correspondent pas aux outils existants ou lorsque l'int\u00e9gration avec des syst\u00e8mes propri\u00e9taires est essentielle. Le meilleur choix d\u00e9pend de la complexit\u00e9 de l'agent, de son \u00e9chelle et de l'expertise de l'\u00e9quipe.<\/span><\/p>\n<h2><span style=\"font-weight: 400;\">Conclusion<\/span><\/h2>\n<p><span style=\"font-weight: 400;\">L'analyse des performances des agents d'IA n'est plus facultative - elle fait la diff\u00e9rence entre un d\u00e9ploiement r\u00e9ussi et un \u00e9chec co\u00fbteux.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les indicateurs qui comptent couvrent quatre dimensions. Les performances techniques garantissent la fiabilit\u00e9 de l'ex\u00e9cution des agents. L'impact commercial justifie l'investissement. La s\u00e9curit\u00e9 et la conformit\u00e9 pr\u00e9viennent les d\u00e9faillances catastrophiques. L'exp\u00e9rience utilisateur favorise l'adoption.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Il n'existe pas de mesure unique qui permette de tout appr\u00e9hender. Les cadres d'\u00e9valuation \u00e9quilibr\u00e9s combinent le contr\u00f4le automatis\u00e9, les tests hors ligne, le retour d'information des utilisateurs et l'examen par des experts. Ils \u00e9tablissent des bases de r\u00e9f\u00e9rence, fixent des objectifs r\u00e9alistes, assurent un suivi continu et bouclent les boucles de r\u00e9troaction.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Selon une \u00e9tude du MIT, 95% des investissements dans l'IA ne produisent aucun rendement mesurable. Non pas parce que la technologie ne fonctionne pas, mais parce que les organisations ne peuvent pas prouver qu'elle fonctionne. Une analyse rigoureuse des performances change cette \u00e9quation.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Commencez par l'exactitude des objectifs et le taux d'ach\u00e8vement des t\u00e2ches, qui fournissent un signal imm\u00e9diat. \u00c9largissez votre champ d'action aux mesures commerciales qui int\u00e9ressent les parties prenantes. Ajoutez des garde-fous et un suivi de l'exp\u00e9rience utilisateur. Construire progressivement plut\u00f4t que d'essayer de tout mesurer en m\u00eame temps.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le paysage de l'\u00e9valuation des agents continue d'\u00e9voluer. Les efforts de normalisation du NIST, les r\u00e9f\u00e9rences \u00e9mergentes telles que FinGAIA et CAIA, et les nouveaux cadres tels que la liste de contr\u00f4le de l'\u00e9valuation comparative des agents indiquent une maturit\u00e9 croissante.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Les organisations qui ma\u00eetrisent la mesure de la performance des agents d\u00e9ploieront l'IA en toute confiance, l'optimiseront syst\u00e9matiquement et la feront \u00e9voluer avec succ\u00e8s. Celles qui ne le font pas auront du mal \u00e0 justifier leurs investissements, manqueront des \u00e9checs critiques et verront l'adoption stagner malgr\u00e9 les capacit\u00e9s techniques.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Le d\u00e9fi n'est plus de cr\u00e9er des agents. Il s'agit de prouver qu'ils fonctionnent, de les maintenir en activit\u00e9 et de les am\u00e9liorer. Pour ce faire, il est n\u00e9cessaire d'effectuer des mesures exhaustives, continues et li\u00e9es aux d\u00e9cisions.<\/span><\/p>\n<p><span style=\"font-weight: 400;\">Pr\u00eat \u00e0 \u00e9valuer correctement vos agents ? Commencez par identifier les trois indicateurs qui comptent le plus pour vos principaux interlocuteurs. Mettez en place un suivi de ces param\u00e8tres dans un premier temps. D\u00e9veloppez \u00e0 partir de l\u00e0. Il n'est pas n\u00e9cessaire que les mesures soient parfaites d\u00e8s le premier jour. Il suffit de commencer.<\/span><\/p>","protected":false},"excerpt":{"rendered":"<p>Quick Summary: AI agent performance analysis requires tracking metrics across four key dimensions: technical performance (task completion, latency, accuracy), business impact (ROI, operational cost reduction), safety and compliance (hallucination rates, security incidents), and user experience (satisfaction scores, adoption rates). According to research from Stanford and MIT, well-implemented agents achieve 85-95% task completion for structured tasks, [&hellip;]<\/p>\n","protected":false},"author":18,"featured_media":15418,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[17],"tags":[],"class_list":["post-15416","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-artificial-intelligence"],"acf":[],"_links":{"self":[{"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/posts\/15416","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/users\/18"}],"replies":[{"embeddable":true,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/comments?post=15416"}],"version-history":[{"count":1,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/posts\/15416\/revisions"}],"predecessor-version":[{"id":15419,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/posts\/15416\/revisions\/15419"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/media\/15418"}],"wp:attachment":[{"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/media?parent=15416"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/categories?post=15416"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/a-listware.com\/fr\/wp-json\/wp\/v2\/tags?post=15416"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}