Van instructievolger naar interactieve gamepartner

Google DeepMind heeft deze week SIMA 2 voorgesteld, de tweede generatie van hun Scalable Instructable Multiworld Agent. Waar de eerste versie nog vooral simpele opdrachten uitvoerde in virtuele omgevingen, is SIMA 2 uitgegroeid tot een AI-agent die kan nadenken, redeneren en zelfs zichzelf kan verbeteren. Het is een fascinerende evolutie die ons dichter brengt bij algemene kunstmatige intelligentie.

De grote doorbraak zit hem in de integratie met Gemini, Google’s krachtige taalmodel. Door Gemini als kern te gebruiken, kan SIMA 2 nu veel meer dan alleen instructies opvolgen. Het begrijpt de context, redeneert over problemen en legt uit wat het van plan is te doen. Dat maakt het verschil tussen een robot die blindelings commando’s uitvoert en een partner die meedenkt.

Wat maakt SIMA 2 zo bijzonder?

De eerste versie van SIMA, die vorig jaar werd gelanceerd, kon al indrukwekkende dingen. Het systeem leerde meer dan 600 basisvaardigheden door te kijken naar honderden uren gameplay van commerciële videogames zoals No Man’s Sky en Valheim. Het kon simpele opdrachten uitvoeren zoals “draai naar links”, “klim de ladder op” of “open de kaart”. Maar het slaagde slechts in 31% van de complexere taken, terwijl mensen op 71% scoorden.

SIMA 2 verandert dat spelletje compleet. Door de kracht van Gemini 2.5 flash-lite te combineren met de embodied vaardigheden die tijdens training werden ontwikkeld, presteert het nieuwe systeem twee keer beter dan zijn voorganger. Het kan nu complexe instructies begrijpen en uitvoeren in omgevingen die het nog nooit eerder heeft gezien.

Wat opvalt, is hoe natuurlijk de interactie aanvoelt. Je kunt SIMA 2 vragen stellen, en het antwoordt terwijl het bezig is met een taak. Het legt uit waarom het bepaalde keuzes maakt. Vraag je het bijvoorbeeld om naar “het huis te lopen dat de kleur heeft van een rijpe tomaat”, dan zie je het intern redeneren: rijpe tomaten zijn rood, dus ik moet naar het rode huis. Vervolgens zoekt het dat huis en loopt ernaartoe.

Multimodale communicatie

Een leuke toevoeging is dat SIMA 2 verschillende soorten input begrijpt. Je kunt het aansturen met tekst, spraak, emoji’s of zelfs door iets op het scherm te tekenen. Stuur je het een bijl-emoji gevolgd door een boom-emoji, dan begrijpt het dat je wilt dat het een boom omhakt. Die flexibiliteit maakt het systeem toegankelijker en intuïtiever in gebruik.

Het werkt ook in meerdere talen, wat logisch is gezien de meertalige capaciteiten van Gemini. Of je nu in het Nederlands, Engels of Frans communiceert, SIMA 2 snapt wat je bedoelt en voert de opdracht uit.

Leren in compleet nieuwe werelden

Een van de meest indrukwekkende demonstraties was de combinatie van SIMA 2 met Genie 3, een ander project van DeepMind dat nieuwe 3D-werelden kan genereren vanuit een enkele afbeelding of tekstprompt. Toen de onderzoekers SIMA 2 in deze volledig nieuwe, door AI gegenereerde omgevingen plaatsten, kon het zich oriënteren, instructies begrijpen en zinvolle acties ondernemen. Dat is opmerkelijk, want het betekent dat het systeem niet alleen leert van specifieke games, maar ook algemene concepten oppikt.

Die generalisatie zie je ook terug in hoe SIMA 2 concepten tussen games kan overdragen. Het begrijpt bijvoorbeeld dat “minen” in het ene spel vergelijkbaar is met “oogsten” in een ander spel. Die abstracte begripsvorming is precies wat je nodig hebt voor algemene intelligentie.

Testen in onbekende games

De onderzoekers testten SIMA 2 uitgebreid in games waar het nooit op getraind was, zoals ASKA (een Viking survival game) en MineDojo (een onderzoeksversie van Minecraft). In beide omgevingen presteerde het systeem verrassend goed. Het kon complexe opdrachten uitvoeren en situaties aanpakken die het nog nooit eerder had meegemaakt.

Dat is een stap vooruit. Waar veel AI-systemen vastlopen zodra ze iets tegenkomen dat niet in hun trainingsdata zat, blijkt SIMA 2 flexibel genoeg om zich aan te passen aan nieuwe uitdagingen.

Zelfverbetering zonder menselijke hulp

Misschien wel het meest fascinerende aspect van SIMA 2 is het vermogen om zichzelf te verbeteren. Na de initiële training op menselijke demonstraties kan het systeem overschakelen naar zelfgestuurd leren. Het gebruikt Gemini om nieuwe taken te bedenken en een apart beloningsmodel om zijn eigen pogingen te beoordelen.

SIMA 2 probeert een taak uit te voeren, krijgt feedback van het AI-systeem, en leert van zijn fouten. Die zelfgegenereerde ervaringen worden vervolgens gebruikt als trainingsdata voor de volgende versie van de agent. Het is een virtueuze cirkel van voortdurende verbetering, zonder dat er menselijke input nodig is.

De weg naar echte robots

Hoewel SIMA 2 nu vooral in virtuele werelden opereert, hebben de onderzoekers een duidelijk doel voor ogen. SIMA gebruiken voor robots in de echte wereld. De vaardigheden die SIMA 2 leert, navigeren, gereedschap gebruiken, samenwerken met mensen om problemen op te lossen, zijn de bouwstenen die je nodig hebt voor robotassistenten.

Joe Marino, senior onderzoeker bij DeepMind, legt uit dat een systeem twee componenten nodig heeft om taken in de echte wereld uit te voeren. Ten eerste een begrip op hoog niveau van de wereld en wat er gedaan moet worden, inclusief redeneren. Als je een humanoïde robot in je huis vraagt om te checken hoeveel blikken bonen je in de kast hebt, moet het systeem alle concepten begrijpen – wat bonen zijn, wat een kast is – en naar die locatie navigeren. SIMA 2 focust vooral op dat gedrag op hoog niveau.

Het team wilde geen specifieke tijdlijn geven voor wanneer SIMA 2 in fysieke robotsystemen geïmplementeerd zal worden, maar de richting is duidelijk. DeepMind werkt ook aan andere robotica-projecten die complementair zijn aan SIMA.

Beperkingen en uitdagingen

Ondanks alle vooruitgang blijft SIMA 2 een onderzoeksproject met duidelijke beperkingen. Het systeem worstelt nog met zeer complexe taken die veel stappen en tijd vereisen. Het heeft ook een relatief kort geheugen van zijn interacties, omdat het team koos voor een beperkte contextvenster om snelle reacties mogelijk te maken.

Daarnaast blijft het uitvoeren van precieze acties via het virtuele toetsenbord en muis een uitdaging. En hoewel SIMA 2 veel beter is geworden in het begrijpen van complexe 3D-scènes, is er nog ruimte voor verbetering op dat vlak.

Sommige experts zijn ook sceptisch over hoeveel van wat SIMA 2 leert echt overdraagbaar is naar robots. Matthew Guzdial van de University of Alberta merkt op dat de meeste games vergelijkbare toetsenbord- en muisbesturing hebben. “Als je er een game met vreemde input voor zet, denk ik niet dat het goed zou presteren,” zegt hij. Hij vraagt zich ook af of de visuele vaardigheden die SIMA 2 ontwikkelt in games wel vertaalbaar zijn naar de echte wereld, waar camera’s veel complexere beelden vastleggen.

Verantwoorde ontwikkeling

Google DeepMind benadrukt dat ze SIMA 2 verantwoord willen ontwikkelen. Het team werkt nauw samen met hun Responsible Development & Innovation Team. In plaats van het systeem breed uit te rollen, brengen ze het uit als een beperkte onderzoekspreview voor een kleine groep academici en game-ontwikkelaars.

Een blik op de toekomst

SIMA 2 is meer dan een verbeterde game-speler. Het is een fundamentele validatie van een nieuwe richting in actiegericht AI. Het bewijst dat een AI die getraind is op brede competentie, gebruikmakend van diverse multi-world data en de krachtige redeneervaardigheden van Gemini, de capaciteiten van veel gespecialiseerde systemen kan verenigen in één coherente, generalistische agent.

De onderzoekers zien SIMA 2 als een testomgeving voor algemene intelligentie. Games bieden een veilige ruimte waar agents vaardigheden kunnen beheersen, complex kunnen redeneren en continu kunnen leren door zelfgestuurd spel. Die ervaring is onbetaalbaar voor de ontwikkeling van systemen die uiteindelijk in de echte wereld moeten functioneren.

Marino en zijn collega’s willen hun werk met Genie 3 voortzetten om een soort eindeloze virtuele trainingsdojo te creëren. Genie genereert werelden waarin SIMA kan leren via trial-and-error, begeleid door feedback van Gemini.