Onderzoek onthult hoe taalmodellen hallucinaties verminderen
amsterdam, vrijdag, 31 oktober 2025.
Recent onderzoek heeft aangetoond dat layer-0 suppressor circuits in taalmodellen zoals GPT-2 helpen om hallucinaties te verminderen. Door specifieke heads te manipuleren, kunnen deze modellen betrouwbaardere en meer feitelijke antwoorden geven. Dit heeft belangrijke implicaties voor de toepassing van AI in journalistiek en informatievoorziening, waar nauwkeurigheid cruciaal is. Het onderzoek toont aan dat 67% van de effecten van head 0:2 worden gemediëerd door de suppressor→layer-11 residual stream, wat de hallucination inevitability theorem van Kalai et al. (2025) ondersteunt.
Mechanismen tegen hallucinaties in taalmodellen
Recent onderzoek heeft aangetoond dat layer-0 suppressor circuits in taalmodellen zoals GPT-2 helpen om hallucinaties te verminderen. Deze circuits mechanisch blokkeren het downweighten van feitelijke continuaties en het versterken van hedging-tokens, wat resulteert in betrouwbaardere en meer feitelijke antwoorden. Door specifieke heads te manipuleren, zoals {0:2, 0:4, 0:7}, kunnen deze modellen hun logit-difference verbeteren met 0.40 tot 0.85 en de expected calibration error (ECE) verlagen van 0.122 naar 0.091 [1].
Technische details van het onderzoek
Het onderzoek toonde aan dat 67% van het effect van head 0:2 wordt gemediëerd door de suppressor→layer-11 residual stream. Dit komt overeen met de hallucination inevitability theorem van Kalai et al. (2025), die suggereert dat modellen een vroege entropy-verhogende mechanisme leren, waardoor ze hedges creëren in plaats van hoge-confidence feitelijke continuaties [1][2].
Impact op journalistiek en informatievoorziening
Deze bevindingen hebben belangrijke implicaties voor de toepassing van AI in journalistiek en informatievoorziening. In deze gebieden is nauwkeurigheid cruciaal. Door hallucinaties te verminderen, kunnen AI-modellen betrouwbaardere informatie leveren, wat leidt tot meer accurate nieuwsberichten en betrouwbare informatievoorziening [1][2].
Voordelen en potentiële nadelen
Het gebruik van layer-0 suppressor circuits biedt duidelijke voordelen, zoals de vermindering van hallucinaties en het verbeteren van de betrouwbaarheid van AI-modellen. Echter, het is ook belangrijk om de potentiële nadelen en ethische overwegingen te bespreken. Een van de hoofdzorgen is de mogelijkheid dat deze circuits de flexibiliteit en creativiteit van de modellen beperken. Bovendien is er de vraag of deze aanpak in alle contexten even effectief is, vooral bij complexere taken [3][4].
Toepassingen in Nederland
In Nederland werken ontwikkelaars aan het temmen van AI-agents om hallucinaties te voorkomen. Bedrijven zoals Savvy.codes en Bonsai implementeren technieken zoals Retrieval-Augmented Generation (RAG) en similarity threshold om de nauwkeurigheid en betrouwbaarheid van taalmodellen te verbeteren. Jerom Kok, eigenaar van Savvy.codes, benadrukt het belang van doelstellingen, rollen, en de koppeling van RAG aan klantvragen om hallucinaties te voorkomen [5].