Ernie, een AI model dat beelden en woorden begrijpt
Het Chinese techbedrijf Baidu heeft een reeks multimodale modellen ontwikkeld die de kloof tussen visuele en tekstuele informatie overbruggen. Een nieuw model is de Ernie 4.5 VL 28B A3B Thinking, een model dat ondanks zijn compacte formaat verrassend krachtig presteert.
Multimodale AI is geen nieuw concept, maar wat Baidu hier heeft gebouwd is bijzonder. Het gaat niet alleen om een model dat een foto kan beschrijven of een vraag over een afbeelding kan beantwoorden. Het gaat om een systeem dat visuele informatie kan analyseren, redeneren over wat het ziet op een manier die dicht bij menselijk begrip komt.
Wat maakt Ernie 4.5 multimodal zo interessant
De Ernie 4.5 familie bestaat uit verschillende varianten, maar de multimodale versie springt eruit door zijn vermogen om met zowel beelden als tekst te werken. Het model is gebouwd op een Mixture of Experts architectuur, wat betekent dat het uit meerdere gespecialiseerde submodellen bestaat die elk hun eigen expertise hebben. Bij het verwerken van een vraag worden alleen de relevante experts geactiveerd, wat het model efficiënt maakt.
De VL 28B A3B Thinking variant activeert slechts 3 miljard parameters tijdens het gebruik, terwijl het totale model 28 miljard parameters bevat. Dit betekent dat het model relatief licht is en toch krachtig genoeg om complexe taken uit te voeren. Voor wie AI modellen wil inzetten zonder in enorme rekenkracht te moeten investeren, is dit een aantrekkelijk.
Training met visuele en tekstuele data
Wat Ernie 4.5 onderscheidt van andere modellen is de manier waarop het getraind is. Baidu heeft het model blootgesteld aan een enorme hoeveelheid visueel-tekstuele data tijdens een uitgebreide trainingsfase. Het gaat niet alleen om foto’s met bijschriften, maar om complexe datasets waarin beelden en tekst op verschillende manieren met elkaar verweven zijn. Denk aan diagrammen met uitleg, infographics, wetenschappelijke illustraties en meer.
Deze training heeft ervoor gezorgd dat het model niet alleen leert wat er op een afbeelding staat, maar ook hoe visuele elementen zich verhouden tot tekstuele beschrijvingen. Het begrijpt bijvoorbeeld dat een pijl in een diagram een richting of relatie aangeeft, of dat kleuren in een grafiek verschillende categorieën vertegenwoordigen. Deze semantische afstemming tussen beeld en tekst is cruciaal voor taken die dieper redeneren vereisen.
Waar Ernie 4.5 echt goed in is
De sterke punten van Ernie 4.5 liggen vooral in taken die visueel redeneren vereisen. Het model kan bijvoorbeeld complexe diagrammen analyseren en uitleggen wat de verschillende onderdelen betekenen. Bij wetenschappelijke illustraties kan het de relaties tussen elementen identificeren en beschrijven. Dit maakt het bijzonder geschikt voor educatieve toepassingen of voor het ondersteunen van onderzoek.
Visuele lokalisatie en grounding
Een van de opvallende capaciteiten is wat in de AI wereld grounding wordt genoemd. Dit betekent dat het model niet alleen kan zeggen wat er op een afbeelding staat, maar ook kan aangeven waar specifieke objecten zich bevinden. Als je vraagt waar de rode auto in een straatbeeld staat, kan het model niet alleen bevestigen dat er een rode auto is, maar ook de locatie ervan beschrijven of zelfs aanduiden.
Deze functionaliteit is verbeterd in de nieuwste versie, mede door feedback van de ontwikkelaarsgemeenschap. Het model kan nu beter omgaan met instructies die ruimtelijke informatie vereisen, wat het bruikbaar maakt voor toepassingen zoals beeldanalyse in de gezondheidszorg, kwaliteitscontrole in productie of het analyseren van satellietbeelden.
Denken met beelden
Een innovatieve functie is wat Baidu thinking with images noemt. Het model kan als het ware inzoomen op details in een afbeelding wanneer dat nodig is voor een grondige analyse. Dit lijkt op hoe mensen naar complexe beelden kijken: eerst een algemeen overzicht, dan focussen op specifieke details die relevant zijn voor de vraag.
Stel dat je een foto van een druk marktplein toont en vraagt naar een specifiek detail, zoals de tekst op een bord in de achtergrond. Het model kan dan zijn aandacht richten op dat deel van de afbeelding en de informatie extraheren, zelfs als die in eerste instantie moeilijk leesbaar is. Deze capaciteit wordt nog krachtiger wanneer het model toegang heeft tot tools zoals beeldzoekfuncties, waarmee het ontbrekende kennis kan aanvullen.
STEM redeneren en wetenschappelijke toepassingen
Ernie 4.5 presteert opvallend goed bij taken die wetenschappelijke kennis vereisen. Het kan wiskundige diagrammen interpreteren, chemische structuren analyseren of fysische processen uitleggen aan de hand van illustraties. Deze capaciteit maakt het interessant voor educatieve platforms of als ondersteuning voor onderzoekers die grote hoeveelheden visuele data moeten verwerken.
Het model kan bijvoorbeeld een grafiek met experimentele resultaten analyseren en trends identificeren, of een biologisch diagram uitleggen en de functie van verschillende onderdelen beschrijven. Deze combinatie van visueel begrip en domeinkennis is waar multimodale modellen hun waarde bewijzen.
De beperkingen van het model
Hoe indrukwekkend Ernie 4.5 ook is, het heeft zijn grenzen. Een van de belangrijkste beperkingen is dat het model, ondanks zijn compacte formaat, nog steeds aanzienlijke rekenkracht vereist. Voor deployment op een enkele GPU heb je minimaal 80GB aan geheugen nodig, wat betekent dat je high end hardware zoals een Nvidia A100 of H100 nodig hebt. Dit maakt het minder toegankelijk voor kleinere organisaties of individuele ontwikkelaars.
Lange video analyse
Hoewel het model goed overweg kan met korte videofragmenten, is realtime analyse van lange video’s nog een uitdaging. Het model werkt het beste met clips van enkele seconden tot maximaal tien seconden. Voor langere video’s moet je de content opdelen in kleinere segmenten, wat extra verwerkingstijd en complexiteit met zich meebrengt.
Dit is een algemene beperking van multimodale modellen: video verwerking vereist het analyseren van meerdere frames, wat de rekenlast exponentieel verhoogt. Hoewel Ernie 4.5 hier beter in is dan veel concurrenten, blijft het een gebied waar verbetering mogelijk is.
Kennis over nichethema’s
Net als andere AI modellen heeft Ernie 4.5 moeite met zeer specifieke of obscure onderwerpen. Het model is getraind op een breed scala aan data, maar bij vragen over zeer gespecialiseerde vakgebieden of recente ontwikkelingen kan het tekort schieten. Baidu heeft dit deels opgelost door het model de mogelijkheid te geven externe tools aan te roepen, zoals zoekfuncties, maar dit voegt wel een extra laag complexiteit toe.
Taalondersteuning
Hoewel Ernie 4.5 zowel Engels als Chinees goed ondersteunt, is de prestatie in andere talen wisselend. Voor Nederlandstalige toepassingen betekent dit dat je mogelijk te maken krijgt met minder nauwkeurige resultaten, vooral bij complexe taken die nuance vereisen. Dit is een algemeen probleem bij AI modellen die primair getraind zijn op Engels en Chinees.
Praktische inzet en deployment
Voor ontwikkelaars die met Ernie 4.5 aan de slag willen, biedt Baidu verschillende opties. Het model is beschikbaar via Hugging Face en kan geïntegreerd worden met populaire frameworks zoals transformers en vLLM. Voor productieomgevingen heeft Baidu FastDeploy ontwikkeld, een toolkit die deployment vereenvoudigt.
De mogelijkheid om het model te fine tunen met ERNIEKit is interessant voor organisaties die het model willen aanpassen aan specifieke use cases. Met relatief beperkte datasets van enkele duizenden voorbeelden kun je het model al trainen voor gespecialiseerde taken, zoals industriële kwaliteitscontrole of medische beeldanalyse.
Hoe verhoudt het zich tot de concurrentie
In vergelijking met andere multimodale modellen zoals GPT 4 Vision of Google Gemini, biedt Ernie 4.5 een interessante balans tussen prestatie en efficiëntie. Het activeert minder parameters dan veel concurrenten, wat het sneller en goedkoper maakt om te draaien, terwijl het toch vergelijkbare resultaten behaalt op veel benchmarks.
De focus op visueel redeneren en de mogelijkheid om tools aan te roepen zijn gebieden waar Ernie 4.5 zich onderscheidt. Het model is minder een generalist en meer gespecialiseerd in taken die diepgaande analyse van visuele informatie vereisen. Voor toepassingen in onderwijs, onderzoek of technische analyse kan dit een voordeel zijn.