Déficiences sérieuses dans la détection des hallucinations chez les LLMs
amsterdam, vrijdag, 5 september 2025.
Des recherches récentes mettent en lumière des déficiences graves dans les méthodes actuelles de détection des hallucinations chez les grands modèles linguistiques (LLMs). Malgré l’utilisation de méthodes d’évaluation reconnues comme ROUGE, cette métrique semble produire des évaluations de performance trompeuses. Les chercheurs proposent de développer des cadres d’évaluation plus robustes et sémantiquement conscients pour garantir la fiabilité des sorties LLM. Par exemple, de simples heuristiques basées sur la longueur de la réponse peuvent surpasser des techniques de détection complexes, ce qui révèle des déficiences fondamentales dans les pratiques d’évaluation actuelles.
Déficiences dans les pratiques d’évaluation actuelles
Malgré les nombreux efforts pour détecter les hallucinations chez les LLMs, il apparaît que les pratiques d’évaluation actuelles sont insuffisantes. Une recherche récente montre que des métriques connues comme ROUGE, basées sur le chevauchement lexical, produisent souvent des évaluations de performance trompeuses [1]. Bien que cette métrique ait une haute recall, elle présente une précision extrêmement faible, ce qui entraîne une perception erronée des performances des méthodes de détection des hallucinations. De plus, des heuristiques simples, telles que la longueur de la réponse, peuvent égaler des techniques plus complexes, révélant une déficience fondamentale dans les pratiques d’évaluation actuelles [1].
Développement de cadres d’évaluation plus robustes
Pour garantir la fiabilité des sorties LLM, les chercheurs proposent de développer des cadres d’évaluation plus robustes et sémantiquement conscients. Ces nouvelles méthodes devraient se concentrer sur la cohérence sémantique et l’évaluation contextuelle, plutôt que sur le seul chevauchement lexical [1]. Un exemple de cela est la méthode LLM-as-Judge, qui utilise des évaluations humaines pour évaluer les performances des méthodes de détection des hallucinations. Cette méthode a montré que les performances de certaines outils de détection établis peuvent diminuer jusqu’à 45,9% lorsqu’ils sont évalués selon des critères humains [1].
Surveillance en temps réel et graphes de connaissances
Un autre aspect important dans la détection des hallucinations est la mise en place d’une surveillance en temps réel. Les chercheurs ont proposé un système utilisant deux graphes de connaissances (KGs) parallèles : un graphe déterministe généré par des méthodes basées sur des règles, et un graphe généré par un LLM à partir de flux de données textuelles en temps réel [2]. En calculant les écarts entre ces deux graphes, un cadre de surveillance automatique peut détecter et signaler de manière significative des anomalies. Cette approche offre une manière dynamique et évolutivement scalable pour surveiller et évaluer continuellement la fiabilité des LLMs [2].
Évaluation des taux d’hallucinations dans différentes langues
Les recherches se concentrent également sur la quantification des taux d’hallucinations chez les LLMs dans différentes langues. Une étude examinant 30 langues et 6 familles de LLMs open-source a montré que les modèles plus petits présentent des taux d’hallucinations plus élevés que les modèles plus grands [3]. De plus, aucune corrélation n’a été trouvée entre les taux d’hallucinations normalisés par la longueur des langues et leur représentation numérique [3]. Cette recherche souligne la nécessité de ne pas limiter la détection des hallucinations au seul anglais, mais de l’étendre aux contextes multilingues.
Benchmarking et classement
Pour comparer les performances des différents LLMs en termes de détection des hallucinations, un classement public a été introduit. Ce classement, mis à jour le mercredi dernier, évalue les taux d’hallucinations, la cohérence factuelle, le taux de réponse et la longueur moyenne des résumés de différents LLMs [4]. Par exemple, AntGroup Finix-S1-32B présente le taux d’hallucinations le plus bas de 0,6%, avec un taux de cohérence factuelle de 99,4% et un taux de réponse de 99,8% [4]. OpenAI GPT-4.5-Preview a un taux d’hallucinations de 1,2%, un taux de cohérence factuelle de 98,8% et un taux de réponse de 100,0% [4].
Jeux de données d’hallucinations visuelles
En plus des hallucinations textuelles, les hallucinations visuelles jouent également un rôle important dans les LLMs multimodaux. Les chercheurs ont développé divers jeux de données pour détecter et évaluer ces hallucinations. HaloQuest, par exemple, est un jeu de données d’hallucinations visuelles comprenant plus de 7 700 exemples axés sur la raisonnement multimodal [5]. HalluVerse25 est un jeu de données d’hallucinations multilingues qui catégorise finement les hallucinations en anglais, arabe et turc [5]. Ces jeux de données aident à affiner les LLMs pour réduire et détecter les hallucinations.