Red de Hoogwaardige Data: Vervuiling Door AI-Thesaurussen Bedreigt Toekomstige Modellen

amsterdam, dinsdag, 24 juni 2025.
Generatieve AI veroorzaakt een toenemende vervuiling van online data door hallucinaties, synthetische informatie en nepnieuws. Dit irreële materiaal voedt op zijn beurt nieuwe AI-modellen, wat de kwaliteit van data vermindert. Onderzoekers en technologen, waaronder de CTO van Cloudflare, dringen aan op het bewaren van onvervuilde data uit de periode voor 2022 om de toekomst van betrouwbare AI-modellen veilig te stellen.

De Dreiging van Vervuilde Data

Generatieve AI speelt een cruciale rol in de creatie van nieuwe informatie, maar deze technologie brengt ook significante risico’s met zich mee. Hallucinaties, synthetische data en nepnieuws worden steeds frequenter gegenereerd, waardoor de kwaliteit van online data snel achteruit gaat. Deze irreële informatie voedt op zijn beurt nieuwe AI-modellen, wat een negatieve spiraal creëert. Onderzoekers en technologen, waaronder John Graham-Cumming, de CTO van Cloudflare, benadrukken het belang van het bewaren van onvervuilde data uit de periode voor 2022 om de toekomst van betrouwbare AI-modellen veilig te stellen [1][2].

Historisch Vergelijkbaar: Vervuilde Metaal

Graham-Cumming maakt een vergelijkbaar met de explosie van de eerste atoombom tijdens de Trinity-test in New Mexico in 1945. Net zoals microscopisch kleine deeltjes van atoombommen de lucht vervuilden en de productie van metaal met verhoogde achtergrondstraling beïnvloedden, zo vervuilt irreële informatie de kwaliteit van data die AI-modellen gebruiken. Het opschonen van deze data is een zeer kostbare aangelegenheid, en verplicht labelen van AI-gegenereerde data is praktisch onmogelijk [1].

De Rol van Wetenschappers

Ook wetenschappers drukken hun zorgen uit over de vervuiling van data. Een groep onderzoekers schreef in december vorig jaar over hun vrees dat veel AI-modellen uiteindelijk ten onder zullen gaan aan dit probleem. Ze pleiten voor het bewaren van data van vóór 2022, voordat de generatieve AI-explosie plaatsvond, om te zorgen dat de data minimale vervuiling bevat [1].

Machtsfactoren en Toegang

Het opschonen van data is een uitdagende taak, en toegang tot schone data kan in de toekomst een machtsfactor worden. Volgens Maurice Chiodo, onderzoeker bij het Centre for the Study of Existential Risk in Cambridge, is het opschonen van data lastig en kostbaar. Alleen grote gevestigde organisaties en overheden beschikken mogelijk over de benodigde bronnen om grote hoeveelheden schone data uit de periode voor 2022 te verzamelen [1].

Praktische Tips voor Lezers

Om nepnieuws te herkennen, is het belangrijk om kritisch te zijn en diverse bronnen te raadplegen. Hier zijn enkele praktische tips voor lezers:

Controleer de Bronnen: Zorg ervoor dat de informatie afkomstig is van betrouwbare en verifieerbare bronnen.
Kijk naar de Datum: Controleer wanneer het artikel is gepubliceerd en of het recent is bijgewerkt.
Zoek naar Meerdere Bronnen: Vergelijk informatie uit verschillende bronnen om een evenwichtig beeld te krijgen.
Controleer de Schrijfstijl: Let op taalkundige fouten of een te emotionele toon, die vaak kenmerkend zijn voor nepnieuws.
Fact-Check: Gebruik fact-check-websites om de juistheid van informatie te controleren [1][2].

Implicaties voor Mediageletterdheid en Democratie

De verspreiding van nepnieuws heeft zowel directe als indirecte implicaties voor mediageletterdheid en democratie. Het vermindert het vertrouwen van het publiek in media en overheidsinstellingen, wat leidt tot polarisatie en verdeeldheid. Daarom is het cruciaal dat zowel individuen als organisaties actief zijn in het herkennen en bestrijden van nepnieuws. Onderwijs en training in mediageletterdheid kunnen hierbij een belangrijke rol spelen [1][2][3].