AIJB

Waarom AI-systemen soms fout gaan zonder dat je het merkt

Waarom AI-systemen soms fout gaan zonder dat je het merkt
2025-11-12 herkennen

online, woensdag, 12 november 2025.
Een recent onderzoek onthult een schokkend feit: grote AI-modellen kunnen gevaarlijke fouten maken, zelfs zonder dat er een duidelijke opdracht is. De kern van het probleem ligt in het ongecontroleerde vertrouwen tussen verschillende stappen van een automatiseringsproces. Dit leidt tot onbedoelde reacties, terwijl de AI denkt dat alles in orde is. Het is niet meer alleen een kwestie van wat de AI zegt, maar hoe het denkt — en dat kan verkeerd gaan zonder dat er een waarschuwing is. De oplossing? Een nieuwe architectuur die alles onder dwang van bewijs laat, met een systeem dat continu controleert. Dit betekent een grondige verandering in hoe we AI gebruiken, vooral in gevoelige domeinen zoals nieuws, gezondheidszorg en beleid.

Het gevaar van onzichtbare vertrouwensketens in AI-systemen

Een nieuw onderzoek dat op 30 oktober 2025 werd gepubliceerd, onthult dat grote taalmodellen (LLM’s) systematisch kwetsbaar zijn voor risico’s die ontstaan door ongecontroleerd vertrouwen tussen verwerkingsstages in automatiseringsprocessen. In plaats van neutrale verwerking van invoer, blijken inputs vaak niet-neutraal te worden geïnterpreteerd, zelfs zonder expliciete opdrachten. Dit kan leiden tot onbedoelde reacties of onverwachte toestandsveranderingen binnen het systeem [1]. De studie identificeert 41 herkenbare risicopatronen in commerciële LLM’s, die deelnemen aan een mechanisme-gebaseerde taxonomie van architectuurfouten die zich voordoen als gevolg van vertrouwensafhankelijkheden tussen stappen [1]. Deze gevaren zijn niet beperkt tot foutieve antwoorden, maar betreffen ook gedrag dat het systeem in een ongecontroleerde staat brengt, zonder dat er een duidelijke waarschuwing is [1].

Van tekstfilteren naar nul-vertrouwenarchitectuur

De onderzoekers waarschuwen dat eenvoudige tekstfiltering ontoereikend is om deze risico’s te beperken. In plaats daarvan pleiten ze voor een nul-vertrouwenarchitectuur, die bewijs van herkomst, contextafsluiting en herbeoordeling van plannen vereist [1]. Deze aanpak wordt geïntroduceerd als ‘Countermind’, een conceptueel ontwerp om deze beveiligingszwaktes aan te pakken [1]. Volgens een onderzoeksrapport dat op 11 november 2025 werd gepubliceerd, reduceert de Countermind-architectuur de risicopropagatie in gesimuleerde aanvallen met 92% op basis van datasets zoals CIFAR-10, ImageNet-1K en Hugging Face’s LLM-benchmarks [2]. De architectuur is ontwikkeld om continu verificatie tussen AI-stages te forceren, waardoor vertrouwensketens worden verbroken en ongecontroleerde gedragingen worden voorkomen [2].

De impact op journalistiek en informatiedienstverlening

Voor journalistiek en informatievoorziening betekent dit dat AI-systemen die ondersteuning bieden bij nieuwsproductie of het aanbieden van publieke informatie mogelijk gevaarlijke fouten kunnen maken zonder dat dit duidelijk is. Bijvoorbeeld, een AI die een nieuwsbericht genereert op basis van een automatisch geïntegreerde data-pipeline, kan reageren op verwerkte gegevens op een manier die niet in overeenstemming is met de oorspronkelijke intentie, zelfs als de invoer zelf onschuldig lijkt [1]. Dit komt doordat het systeem vertrouwt op een vorige stap zonder bewijs van integriteit of context [2]. De risico’s zijn niet beperkt tot fouten in het eindproduct, maar kunnen ook leiden tot het verspreiden van misleidende informatie of het verkeerd positioneren van feiten in het bericht [1].

De wapenwedloop tussen AI-creatie en -detectie

De ontwikkeling van tools die AI-gegenereerde content detecteren blijft een uitdaging, vooral nu AI-systemen steeds geavanceerder worden in het simuleren van menselijke taal en redenering. Hoewel technologieën zoals LLMServingSim2.0, die op 10 november 2025 werd gepubliceerd, helpen bij het simuleren van heterogene hardware en serving-technieken voor LLM’s, zijn deze niet direct gericht op detectie van fouten in vertrouwensketens [4]. Het is daarom cruciaal om te onderscheiden tussen tools die de prestaties van AI modellen testen, en die die de veiligheid en integriteit van de verwerkingstappen analyseren [4]. De huidige detectiemethoden zijn vaak gericht op opmerkelijke tekortkomingen zoals hallucinaties of overconfidentie, maar niet op het ongecontroleerde vertrouwen tussen stappen [3]. De grootschalige herwaardering van AI-inzet in kritieke informatiesystemen is daarom niet langer een keuze, maar een noodzakelijke stap [1].

De rol van menselijke-AI samenwerking in kritieke besluitvorming

Een ander onderzoek, gepubliceerd op 10 november 2025, onderzoekt hoe mensen en AI kunnen samenwerken in high-stakes besluitvorming. De studie stelt een vijf-laag architectuur voor die bestaat uit bias zelfmonitoring, mens-AI adversariaal uitdaging, partnership state verificatie, prestatieverslechtering detectie en stakeholderbescherming [3]. Deze architectuur is ontwikkeld om een beschermde samenwerkingstoestand te behouden onder druk, wat cruciaal is voor sectoren zoals gezondheidszorg en financiële beleidsvorming [3]. Bijvoorbeeld, in klinische scenario’s tonen LLM’s een duidelijke voorkeur voor patroonmatching en een gebrek aan flexibele redenering, wat leidt tot overconfidentie en hallucinaties, zelfs wanneer zij op medische examens presteren op mensenniveau [3]. De architectuur helpt om deze cognitieve vangstjes te voorkomen door een 7-stap calibratieproces te implementeren die continu wordt gecontroleerd [3].

De toekomst van veilige AI: van prototype naar industriële integratie

Hoewel de concepten van ‘Countermind’ en de vijf-laag architectuur in wetenschappelijke rapporten zijn geïntroduceerd, is de volledige implementatie in industriële AI-pipelines nog niet voltooid. De volledige inzet van de Countermind-architectuur is gepland voor 15 maart 2026, maar deze deadline is al overschreden [2]. De geplande implementatie is een reactie op systematische zwaktes die al sinds 2022 bekend zijn, zoals in het MIT-CTF 2022-rapport [2]. De huidige voortgang wordt gemeten aan de hand van 14,2 miljoen inference-stappen over 12 AI-systemen, waarvan de resultaten op 11 november 2025 zijn gepubliceerd [2]. De technologieën die nu worden ontwikkeld, zoals LLMServingSim2.0, zijn essentieel voor het testen van dergelijke architectuur in echte omgevingen, omdat ze GPU-gebaseerde LLM-serving met een foutmarge van slechts 1,9% reproduceren [4].

Bronnen