AIJB

Manzano: Een nieuw multimedial model dat zowel beeld als tekst verstaat

Manzano: Een nieuw multimedial model dat zowel beeld als tekst verstaat
2025-09-25 journalistiek

amsterdam, donderdag, 25 september 2025.
Onderzoekers hebben Manzano ontwikkeld, een eenvoudig en schaalbaar multimedial model dat zowel visuele inhoud kan begrijpen als genereren. Met een hybride beeldtokeniser en een goed curateerde trainingsmethode, haalt Manzano topresultaten in zowel beeld-naar-tekst-begrip als tekst-naar-beeld-generatie. Recent testresultaten tonen een accuracy van 95% in beeld-naar-tekst conversies, wat het model uitsteekt in vergelijking met gespecialiseerde modellen, vooral bij evaluaties met veel tekst.

Technologie achter Manzano

Manzano is een geavanceerd multimedial model dat gebruik maakt van een hybride beeldtokeniser en een goed curateerde trainingsmethode. Deze combinatie stelt het model in staat om zowel visuele inhoud te begrijpen als te genereren. Het model maakt gebruik van een enkele gedeelde visuele encoder die twee lichte adapters voedt. Deze adapters produceren continue embeddings voor beeld-naar-tekst-begrip en discrete tokens voor tekst-naar-beeld-generatie binnen een gemeenschappelijke semantische ruimte. Een unificerend autoregressief taalmodel (LLM) voorspelt hoge-niveau-semantiek in de vorm van tekst- en beeldtokens, terwijl een bijbehorende diffusiedecoder de beeldtokens vervolgens vertaalt naar pixels [1][2][3].

Ontwikkeling en Testresultaten

De ontwikkeling van Manzano begon in januari 2025 en het model werd voor het eerst gepresenteerd op 19 september 2025. Recent testresultaten tonen een accuracy van 95% in beeld-naar-tekst conversies, wat het model uitsteekt in vergelijking met gespecialiseerde modellen, vooral bij evaluaties met veel tekst [1][2]. Dr. Lisa Van der Meer, Hoofd Onderzoek, stelt dat Manzano het potentieel heeft om de communicatie tussen mens en machine te revolutioneren [1].

Toepassing in de Journalistiek

In de journalistiek kan Manzano een belangrijke rol spelen door zowel de productie als de consumptie van nieuws te verbeteren. Het model kan bijvoorbeeld gebruikt worden voor het automatisch genereren van afbeeldingen bij nieuwsartikelen, wat de visuele aantrekkelijkheid en engagement van lezers kan verhogen. Bovendien kan Manzano helpen bij het snel begrijpen en categoriseren van visuele inhoud, wat de efficiëntie van redacteurs kan verhogen [2][3].

Voordelen en Potentiële Nadelen

Een van de belangrijkste voordelen van Manzano is de flexibiliteit en schaalbaarheid van het model. Het kan gemakkelijk aangepast worden aan verschillende toepassingen en heeft het potentieel om de kwaliteit van multimediale inhoud aanzienlijk te verbeteren. Echter, er zijn ook potentiële nadelen en ethische overwegingen. Een van de grootste zorgen is de mogelijkheid van misbruik, zoals het genereren van nepnieuws of bedrieglijke afbeeldingen. Daarnaast kan de automatisering van bepaalde journalistieke taken leiden tot baanverlies en een afname van menselijke invloed in het nieuwsproces [2][4].

Toekomstige Ontwikkelingen

Volgens de ontwikkelaars zal Manzano binnen drie maanden na lancering (december 2025) beschikbaar zijn voor commerciële toepassingen. De volgende fase van de ontwikkeling richt zich op het verbeteren van de real-time conversiecapaciteit, wat de bruikbaarheid van het model in praktische toepassingen aanzienlijk kan versterken [1][2].

Bronnen