Hoe AI nu meerdere deskundigen in een latente ruimte laat samenwerken
amsterdam, vrijdag, 5 december 2025.
Stel je voor dat een AI-antwoord niet uit één model komt, maar uit een samenwerking van meerdere gespecialiseerde experts – elk op zijn vakgebied. Een nieuwe methode, Mixture of Thoughts (MoT), laat deze experts via een gedeelde latente ruimte samenwerken zonder hun kernmodellen aan te passen. Het resultaat? Aanvullende en nauwkeurigere antwoorden, zelfs op onbekende vragen. De meest opvallende prestatie: MoT overtreft de beste afzonderlijke modellen en bestaande systemen, met een verbetering van bijna 3 procent op onbekende taakgebieden. Deze techniek, open source en efficiënt, biedt een veelbelovende weg naar betrouwbare, gecombineerde intelligentie – zonder herhaalde interactie of complexe tussenstappen.
Een nieuwe generatie AI: van één model naar een team van deskundigen
In plaats van een enkel groot taalmodel (LLM) als een algehele expert te gebruiken, introduceert de nieuwe aanpak Mixture of Thoughts (MoT) een systeem waarin meerdere gespecialiseerde modellen – elk gespecialiseerd in een domein zoals wiskunde, coderen of algemeen redeneren – samenwerken via een gedeelde latente ruimte. Deze methode, ontwikkeld door onderzoekers van de Universiteit van Californië en andere instellingen, laat een lichtgewicht router een selectie maken van de meest geschikte experts per vraag, zonder de kernmodellen aan te passen. De experts communiceren via interactie-lagen die hun verborgen staat (hidden states) in een gemeenschappelijke ruimte projecteren, waar de hoofdexpert kruis-attention uitvoert op zijn geselecteerde collega’s. Dit gebeurt in één enkele inferentiestap, zonder de tijdintensieve iteratieve uitwisselingen die bij vroegere systemen nodig waren [1]. De prestaties zijn overtuigend: op vijf in-distribution (ID) benchmarks overschrijdt MoT de huidige standaard, Avengers, met +0.38%, en op drie out-of-distribution (OOD) benchmarks met +2.92% [1]. Dit betekent dat het systeem niet alleen beter presteert op bekende taken, maar ook veel beter overtuigt op onbekende, uitgebreide vragen, wat essentieel is voor betrouwbare informatieverstrekking in realistische contexten. De technologie is open source en de code is beschikbaar op GitHub [1].
Van theorie naar praktijk: toepassing in robotica en journalistiek
De kracht van MoT gaat verder dan alleen taalverwerking. In een recent onderzoek van Peking University, The Chinese University of Hong Kong en Simplexity Robotics wordt een toepassing getoond onder de naam ManualVLA, een Vision–Language–Action (VLA) model dat gebruikmaakt van een Mixture-of-Transformers (MoT) architectuur. Dit systeem combineert een planningsexpert die multimodale handboeken genereert – inclusief tekst, afbeeldingen en positiecoördinaten – met een actieexpert die deze instructies uitvoert voor robotische manipulatie. De planningsexpert, die is getraind op een digitale dubbel (digital-twin) gebaseerd op 3D Gaussian Splatting, genereert realistische tussenstappen zonder fysieke data-collectie [2]. In experimenten met een dual-arm Franka Research 3 robot bereikt ManualVLA een gemiddelde succesgraad van 95% bij 2D LEGO-assembly, 90% bij 3D LEGO-assembly en 90% bij objectherstelling – een verbetering van 32% ten opzichte van de vorige state-of-the-art (SOTA) hiërarchische baselines [2]. Deze prestatie is mogelijk door een Manual Chain-of-Thought (ManualCoT) strategie, waarbij elk subdoel wordt geïnterpreteerd via zowel expliciete instructies als impliciete informatie in de latente ruimte [2]. Voor journalisten betekent dit dat AI-systemen niet alleen beter kunnen samenvatten of analyseren, maar ook complexe procesverhalen kunnen genereren waarin elke stap logisch en visueel onderbouwd is – bijvoorbeeld bij een reportage over de productie van een robot of een technologische ontwikkeling in de industrie.
Een krachtig systeem, maar met grenzen en ethische risico’s
Hoewel MoT een belangrijke stap vooruit is binnen meerdere AI-systemen, zijn er belangrijke beperkingen en risico’s. De technologie is afhankelijk van de kwaliteit van de afgestemde experts en de router, die zelf moeten worden getraind. Zonder correcte training kan de router foutief experts selecteren of onverwachte combinaties laten ontstaan, wat leidt tot verkeerde of onlogische antwoorden. Bij het onderzoek naar ManualVLA werd gebleken dat de succesgraad daalde met 23% onder verandering van de achtergrond en 29% onder verandering van objectvorm – een indicatie van kwetsbaarheid bij onverwachte variaties [2]. Ook bij GR-RL, een gerelateerd systeem dat shoelaces autonom kent, leidde het gebruik van geïmporteerde menselijke demonstraties – die, zoals de onderzoekers beweren, ‘ruisachtig en suboptimaal’ zijn – tot een basissuccesgraad van slechts 45,7% bij behaviorkloning [3]. Pas na filteren van de data, toevoegen van symmetrie-augmentatie en online reinforcement learning stegen de resultaten naar 83,3% [3]. Dit laat zien dat zelfs geavanceerde systemen afhankelijk zijn van kritische inputkwaliteit en dat de uitvoer niet automatisch betrouwbaar is. Ethisch gezien creëert dit een verantwoordelijkheidsvraag: wie is verantwoordelijk voor foutieve of misleidende samenvattingen die voortkomen uit een onjuiste samenwerking van ‘deskundigen’? Bovendien is de open-source toegang tot de code [1] een dubbelzinnig voordeel: het bevordert transparantie, maar maakt ook het systeem kwetsbaar voor misbruik of het creëren van gevaarlijke varianten zonder voldoende controle.
Het geheim van de latente ruimte: hoe geheime communicatie werkt
De kern van Mixture of Thoughts ligt in de ‘latente ruimte’ – een virtuele ruimte waarin de verborgen representaties van verschillende LLM’s worden geïntegreerd zonder dat hun structuur of gewichten hoeven te veranderen. Elk model behoudt zijn oorspronkelijke pretraining, wat betekent dat het zijn eigen expertise behoudt [1]. De router kiest op basis van een vroeg trainingsdoel de meest relevante experts, en de interactie-lagen – lichtgewicht en eenvoudig – voeren een cross-attention-operatie uit, waarbij de hoofdexpert de activiteiten van de actieve experts opmerkt en gebruikt om zijn antwoord te verfijnen. Deze techniek is efficiënt: de inferentietijd is vergelijkbaar met die van eenvoudige routeringssystemen, zonder het tijdrovende herhaald aggregeren van antwoorden die bij andere systemen nodig is [1]. De prestatieverbetering van +2,92% op OOD-benchmarks [1] is vooral opvallend, omdat deze oplossing geen extra training vereist voor het nieuwe domein – een eigenschap die cruciaal is voor journalisten die moeten omgaan met onverwachte, complexe vraagstukken zoals een internationale crisis of een technologische doorbraak. Door de combinatie van expliciete en impliciete redenering – zoals in ManualVLA waar zowel tekst als latente representaties worden gebruikt – is de AI in staat om niet alleen antwoorden te geven, maar ook de ‘hoe’ van een proces te beschrijven, wat een grote stap is in het genereren van verhalen met diepgang en context [2].