AIJB

Comment l'IA fait maintenant collaborer plusieurs experts dans un espace latent

Comment l'IA fait maintenant collaborer plusieurs experts dans un espace latent
2025-12-05 journalistiek

amsterdam, vrijdag, 5 december 2025.
Imaginez qu’une réponse d’IA ne provienne pas d’un seul modèle, mais d’une collaboration entre plusieurs experts spécialisés – chacun dans son domaine d’expertise. Une nouvelle méthode, appelée Mixture of Thoughts (MoT), permet à ces experts de collaborer via un espace latent partagé sans modifier leurs modèles de base. Résultat ? Des réponses complémentaires et plus précises, même pour des questions inconnues. La performance la plus marquante : MoT dépasse les meilleurs modèles individuels et les systèmes existants, avec une amélioration de près de 3 % sur des domaines de tâches inconnus. Cette technique, open source et efficace, offre une voie prometteuse vers une intelligence combinée fiable – sans interaction répétée ni étapes intermédiaires complexes.

Une nouvelle génération d’IA : du modèle unique à une équipe d’experts

Plutôt que d’utiliser un seul grand modèle linguistique (LLM) comme expert universel, la nouvelle approche Mixture of Thoughts (MoT) introduit un système où plusieurs modèles spécialisés – chacun expert dans un domaine comme les mathématiques, le codage ou le raisonnement général – collaborent via un espace latent partagé. Cette méthode, développée par des chercheurs de l’Université de Californie et d’autres institutions, permet à un routeur léger de sélectionner les experts les plus adaptés à chaque question, sans modifier les modèles de base. Les experts communiquent via des couches d’interaction qui projettent leurs états cachés (hidden states) dans une même espace commun, où l’expert principal exécute une attention croisée sur ses collègues sélectionnés. Ce processus se déroule en une seule étape d’inférence, sans les échanges itératifs coûteux en temps nécessaires aux systèmes antérieurs [1]. Les performances sont convaincantes : sur cinq benchmarks in-distribution (ID), MoT dépasse la norme actuelle, Avengers, de +0,38 %, et sur trois benchmarks out-of-distribution (OOD) de +2,92 % [1]. Cela signifie que le système excelle non seulement sur des tâches connues, mais aussi sur des questions complexes et inédites, ce qui est essentiel pour une fourniture fiable d’informations dans des contextes réalistes. La technologie est open source, et le code est disponible sur GitHub [1].

De la théorie à la pratique : applications en robotique et journalisme

La puissance de MoT va au-delà du traitement du langage. Dans une étude récente menée par l’Université de Pékin, l’Université chinoise de Hong Kong et Simplexity Robotics, une application baptisée ManualVLA est présentée : un modèle Vision–Language–Action (VLA) qui utilise une architecture Mixture-of-Transformers (MoT). Ce système combine un expert en planification, capable de générer des manuels multimodaux – comprenant texte, images et coordonnées de position – avec un expert en action qui exécute ces instructions pour la manipulation robotique. L’expert en planification, entraîné sur un jumeau numérique (digital-twin) basé sur le Gaussian Splatting 3D, génère des étapes intermédiaires réalistes sans nécessiter de collecte de données physiques [2]. Dans des expériences menées avec un robot Franka Research 3 à deux bras, ManualVLA atteint une moyenne de succès de 95 % pour l’assemblage 2D de LEGO, 90 % pour l’assemblage 3D et 90 % pour la réparation d’objets – une amélioration de 32 % par rapport aux meilleures méthodes hiérarchiques précédentes (SOTA) [2]. Cette performance s’explique par une stratégie appelée Manual Chain-of-Thought (ManualCoT), où chaque sous-objectif est interprété à la fois à partir d’instructions explicites et d’informations implicites dans l’espace latent [2]. Pour les journalistes, cela signifie que les systèmes d’IA peuvent non seulement résumer ou analyser plus efficacement, mais aussi générer des récits complexes sur des processus, où chaque étape est logiquement et visuellement justifiée – par exemple dans un reportage sur la production d’un robot ou sur une innovation technologique industrielle.

Un système puissant, mais aux limites et risques éthiques

Bien que MoT constitue une avancée significative dans les systèmes d’IA multi-experts, des limites et des risques importants subsistent. La technologie dépend de la qualité des experts sélectionnés et du routeur, qui doivent eux-mêmes être entraînés. Sans une formation adéquate, le routeur peut sélectionner des experts inappropriés ou provoquer des combinaisons inattendues, entraînant des réponses erronées ou illogiques. L’étude sur ManualVLA a révélé que le taux de succès baisse de 23 % lorsqu’on change le fond et de 29 % lorsqu’on modifie la forme de l’objet – une indication de la vulnérabilité aux variations imprévues [2]. De même, dans GR-RL, un système associé capable de nouer des lacets de manière autonome, l’utilisation de démonstrations humaines importées – décrites par les chercheurs comme « bruitées et sous-optimales » – a conduit à un taux de succès initial de seulement 45,7 % en apprentissage par imitation [3]. Ce taux a augmenté à 83,3 % après filtrage des données, ajout de symétries par augmentation et apprentissage par renforcement en ligne [3]. Cela montre que même les systèmes avancés dépendent fortement de la qualité des entrées, et que les sorties ne sont pas automatiquement fiables. D’un point de vue éthique, cela soulève une question de responsabilité : qui est responsable des résumés erronés ou trompeurs issus d’une collaboration inappropriée entre « experts » ? De plus, l’accès open source au code [1] est un avantage ambigu : il favorise la transparence, mais expose aussi le système à un usage abusif ou à la création de variantes dangereuses sans contrôle adéquat.

Le secret de l’espace latent : comment la communication invisible fonctionne

Le cœur de Mixture of Thoughts réside dans l’« espace latent » – une zone virtuelle où les représentations cachées de différents LLM sont intégrées, sans modifier leur structure ou leurs poids. Chaque modèle conserve sa pré-formation initiale, ce qui lui permet de préserver son expertise propre [1]. Le routeur sélectionne, sur la base d’un objectif d’entraînement précoce, les experts les plus pertinents, et les couches d’interaction – légères et simples – exécutent une opération d’attention croisée, où l’expert principal observe et utilise les activités des experts actifs pour affiner sa réponse. Cette technique est efficace : le temps d’inférence est comparable à celui des systèmes de routage simples, sans la nécessité de réaggrégations itératives chronophages présentes dans d’autres systèmes [1]. L’amélioration de +2,92 % sur les benchmarks OOD [1] est particulièrement remarquable, car cette solution ne nécessite aucune formation supplémentaire pour un nouveau domaine – une fonctionnalité cruciale pour les journalistes confrontés à des questions complexes et imprévues, comme une crise internationale ou une percée technologique. Grâce à la combinaison de raisonnement explicite et implicite – comme dans ManualVLA où le texte et les représentations latentes sont utilisés ensemble – l’IA est désormais capable non seulement de répondre, mais aussi de décrire le « comment » d’un processus, marquant ainsi une avancée significative dans la génération de récits riches en profondeur et en contexte [2].

Sources