AIJB

ai-model

Manzano: A New Multimodal Model That Understands Both Image and Text

Manzano: A New Multimodal Model That Understands Both Image and Text

2025-09-25 journalistiek

amsterdam, donderdag, 25 september 2025.
Researchers have developed Manzano, a simple and scalable multimodal model capable of understanding and generating visual content. With a hybrid image tokenizer and a well-curated training method, Manzano achieves top results in both image-to-text comprehension and text-to-image generation. Recent test results show an accuracy of 95% in image-to-text conversions, making the model stand out compared to specialized models, especially in evaluations with extensive text.

Manzano : Un nouveau modèle multimodal qui comprend et génère à la fois des images et du texte

Manzano : Un nouveau modèle multimodal qui comprend et génère à la fois des images et du texte

2025-09-25 journalistiek

amsterdam, donderdag, 25 september 2025.
Les chercheurs ont développé Manzano, un modèle multimodal simple et évolutif capable de comprendre et de générer du contenu visuel. Grâce à une tokenisation hybride des images et à une méthode d’entraînement bien curatée, Manzano obtient des résultats exceptionnels dans la compréhension image-texte et la génération texte-image. Des tests récents montrent une précision de 95 % dans les conversions image-texte, ce qui place le modèle en tête par rapport aux modèles spécialisés, en particulier lors d’évaluations impliquant beaucoup de texte.

Manzano: Een nieuw multimedial model dat zowel beeld als tekst verstaat

Manzano: Een nieuw multimedial model dat zowel beeld als tekst verstaat

2025-09-25 journalistiek

amsterdam, donderdag, 25 september 2025.
Onderzoekers hebben Manzano ontwikkeld, een eenvoudig en schaalbaar multimedial model dat zowel visuele inhoud kan begrijpen als genereren. Met een hybride beeldtokeniser en een goed curateerde trainingsmethode, haalt Manzano topresultaten in zowel beeld-naar-tekst-begrip als tekst-naar-beeld-generatie. Recent testresultaten tonen een accuracy van 95% in beeld-naar-tekst conversies, wat het model uitsteekt in vergelijking met gespecialiseerde modellen, vooral bij evaluaties met veel tekst.