Manzano : Un nouveau modèle multimodal qui comprend et génère à la fois des images et du texte
amsterdam, donderdag, 25 september 2025.
Les chercheurs ont développé Manzano, un modèle multimodal simple et évolutif capable de comprendre et de générer du contenu visuel. Grâce à une tokenisation hybride des images et à une méthode d’entraînement bien curatée, Manzano obtient des résultats exceptionnels dans la compréhension image-texte et la génération texte-image. Des tests récents montrent une précision de 95 % dans les conversions image-texte, ce qui place le modèle en tête par rapport aux modèles spécialisés, en particulier lors d’évaluations impliquant beaucoup de texte.
La technologie derrière Manzano
Manzano est un modèle multimodal avancé qui utilise une tokenisation hybride des images et une méthode d’entraînement bien curatée. Cette combinaison permet au modèle de comprendre et de générer du contenu visuel. Le modèle utilise un encodeur visuel partagé unique qui alimente deux adaptateurs légers. Ces adaptateurs produisent des embeddings continus pour la compréhension image-texte et des tokens discrets pour la génération texte-image dans un espace sémantique commun. Un modèle de langage autoregressif unifié (LLM) prédit la sémantique de haut niveau sous forme de tokens texte et image, tandis qu’un décodeur de diffusion associé traduit ensuite les tokens d’image en pixels [1][2][3].
Développement et résultats des tests
Le développement de Manzano a commencé en janvier 2025, et le modèle a été présenté pour la première fois le 19 septembre 2025. Les résultats des tests récents montrent une précision de 95 % dans les conversions image-texte, ce qui place le modèle en tête par rapport aux modèles spécialisés, en particulier lors d’évaluations impliquant beaucoup de texte [1][2]. Dr. Lisa Van der Meer, Directrice de la Recherche, affirme que Manzano a le potentiel de révolutionner la communication entre l’homme et la machine [1].
Application dans le journalisme
Dans le domaine du journalisme, Manzano peut jouer un rôle important en améliorant à la fois la production et la consommation de l’actualité. Le modèle peut, par exemple, être utilisé pour générer automatiquement des images pour les articles de presse, ce qui peut augmenter l’attrait visuel et l’engagement des lecteurs. De plus, Manzano peut aider à comprendre et catégoriser rapidement le contenu visuel, ce qui peut augmenter l’efficacité des rédacteurs [2][3].
Avantages et inconvénients potentiels
L’un des principaux avantages de Manzano est la flexibilité et l’évolutivité du modèle. Il peut facilement être adapté à différentes applications et a le potentiel d’améliorer considérablement la qualité du contenu multimédia. Cependant, il existe également des inconvénients potentiels et des considérations éthiques. L’une des principales préoccupations est la possibilité de mauvais usage, comme la génération de fausses nouvelles ou d’images trompeuses. De plus, l’automatisation de certaines tâches journalistiques peut entraîner des pertes d’emplois et une diminution de l’influence humaine dans le processus de production de l’information [2][4].
Développements futurs
Selon les développeurs, Manzano sera disponible pour des applications commerciales trois mois après son lancement (décembre 2025). La prochaine phase du développement se concentrera sur l’amélioration de la capacité de conversion en temps réel, ce qui pourrait considérablement renforcer l’utilité du modèle dans les applications pratiques [1][2].