Serieuze tekortkomingen in hallucinatie-detectie bij LLM's
amsterdam, vrijdag, 5 september 2025.
Recent onderzoek wijst op ernstige tekortkomingen in de huidige methoden voor het detecteren van hallucinaties bij large language models (LLMs). Ondanks het gebruik van bekende evaluatiemethoden zoals ROUGE, blijkt deze metriek te leiden tot misleidende prestatieschattingen. Het onderzoek stelt voor om robuustere en semantisch bewuste evaluatieframeworks te ontwikkelen om de betrouwbaarheid van LLM-uitvoer te waarborgen. Bijvoorbeeld, simpele heuristieken gebaseerd op responslengte kunnen complexe detectietechnieken de baas zijn, wat fundamentele tekortkomingen in huidige evaluatiepraktijken blootlegt.
Tekortkomingen in huidige evaluatiepraktijken
Ondanks de vele pogingen om hallucinaties bij LLMs te detecteren, blijkt dat huidige evaluatiepraktijken tekortschieten. Een recent onderzoek toont aan dat bekende metrieken zoals ROUGE, die gebaseerd zijn op lexicaal overlap, vaak misleidende prestatieschattingen opleveren [1]. Deze metriek heeft hoewel een hoge recall, een uiterst lage precisie, wat resulteert in een onjuiste perceptie van de prestaties van hallucinatiedetectiemethoden. Bovendien hebben eenvoudige heuristieken, zoals de responslengte, complexere technieken kunnen evenaren, wat een fundamentele tekortkoming in de huidige evaluatiepraktijken blootlegt [1].
Ontwikkeling van robuustere evaluatieframeworks
Om de betrouwbaarheid van LLM-uitvoer te waarborgen, stellen onderzoekers voor om robuustere en semantisch bewuste evaluatieframeworks te ontwikkelen. Deze nieuwe methoden zouden moeten focussen op semantische consistentie en contextuele accurate evaluatie, in plaats van alleen op lexicaal overlap [1]. Een voorbeeld hiervan is de LLM-as-Judge methode, die gebruik maakt van menselijke beoordelingen om de prestaties van hallucinatiedetectiemethoden te evalueren. Deze methode heeft aangetoond dat de prestaties van enkele gevestigde detectietools met tot 45.9% kunnen dalen wanneer ze worden beoordeeld met menselijke criteria [1].
Real-time monitoring en Knowledge Graphs
Een ander belangrijk aspect in de detectie van hallucinaties is de implementatie van real-time monitoring. Onderzoekers hebben een systeem voorgesteld dat gebruik maakt van twee parallelle Knowledge Graphs (KGs): een deterministische KG die wordt gegenereerd met regelgebaseerde methoden, en een LLM-gegenereerde KG die wordt opgebouwd uit real-time tekstuele datastromen [2]. Door de afwijkingen tussen deze twee KGs te berekenen, kan een automatische monitoringframework significant anomalieën detecteren en vlaggen. Deze aanpak biedt een dynamische en schaalbare manier om de betrouwbaarheid van LLMs continu te monitoren en te evalueren [2].
Evaluatie van hallucinatie-rates in verschillende talen
Onderzoek richt zich ook op het kwantificeren van hallucinatie-rates bij LLMs in verschillende talen. Een studie die 30 talen en 6 open-source LLM-families onderzocht, toonde aan dat kleinere LLMs hogere hallucinatie-rates hebben dan grotere modellen [3]. Bovendien werd er geen correlatie gevonden tussen lengtenormaliseringshallucinatierates van talen en hun digitale vertegenwoordiging [3]. Dit onderzoek benadrukt de noodzaak om hallucinatie-detectie niet alleen te beperken tot het Engels, maar uit te breiden naar meertalige contexten.
Benchmarking en leaderboard
Om de prestaties van verschillende LLMs in termen van hallucinatie-detectie te vergelijken, is een publieke leaderboard geïntroduceerd. Deze leaderboard, bijgewerkt op last Wednesday, evalueert hallucinatie-rates, feitelijke consistentie, antwoordrate en gemiddelde samenvattingslengte van verschillende LLMs [4]. AntGroup Finix-S1-32B heeft bijvoorbeeld de laagste hallucinatie-rate van 0.6%, met een feitelijke consistentie-rate van 99.4% en een antwoordrate van 99.8% [4]. OpenAI GPT-4.5-Preview heeft een hallucinatie-rate van 1.2%, een feitelijke consistentie-rate van 98.8%, en een antwoordrate van 100.0% [4].
Visuele hallucinatie-datasets
Naast tekstuele hallucinaties, spelen visuele hallucinaties ook een belangrijke rol in multimodale LLMs. Onderzoekers hebben diverse datasets ontwikkeld om deze hallucinaties te detecteren en te evalueren. HaloQuest, bijvoorbeeld, is een visuele hallucinatie-dataset met meer dan 7.7K voorbeelden die gericht is op multimodale redenering [5]. HalluVerse25 is een meertalige hallucinatie-dataset die fijn granulair hallucineren in Engels, Arabisch en Turks categoriseert [5]. Deze datasets helpen bij het fijnafstellen van LLMs om hallucinaties te verminderen en te detecteren.