DreamZero, een World Action Model (WAM) van Nvidia

Physical intelligence, robots die begrijpen hoe de wereld werkt, zijn een uitdaging. Nvidia’s GEAR Lab heeft met DreamZero een fundamenteel nieuwe aanpak geïntroduceerd die de manier waarop robots leren en generaliseren op z’n kop zet.

Wat is DreamZero precies?

DreamZero is geen traditioneel robotmodel. Nvidia noemt het een World Action Model (WAM). Een systeem dat niet alleen leert welke actie bij welke observatie hoort, maar dat begrijpt hoe de fysieke wereld evolueert. Het verschil tussen een hobbykok die een recept uit het hoofd leert versus een chefkok die begrijpt waarom ingrediënten op een bepaalde manier reageren. Die laatste kan improviseren in nieuwe situaties.

Technisch gezien is DreamZero gebouwd op een pretrained video diffusion backbone met 14 miljard parameters. Het model voorspelt tegelijkertijd toekomstige videoframes en de acties die daarbij horen. Door video en actie samen te modelleren, leert DreamZero de onderliggende physics van hoe objecten bewegen, hoe materialen reageren op kracht, en hoe taken stap voor stap worden uitgevoerd.

Traditionele Vision-Language-Action (VLA) modellen mappen observaties direct naar actie. DreamZero gebruikt video als een representatie van hoe de wereld evolueert. Het model kan leren van video’s zonder dat daar acties van robots bij nodig zijn. De kennis over physics en manipulatie van objecten is overdraagbaar tussen verschillende robots. Het model visualiseert toekomstige scenario’s voordat het handelt.

Waarom is DreamZero revolutionair?

De robotica-gemeenschap worstelt al decennia met een fundamenteel probleem: data. Terwijl taalmodellen getraind worden op de verzamelde geschreven output van de mensheid, en beeldmodellen op miljarden foto’s, zijn robotdatasets zeer klein. Een lab dat duizenden uren data verzamelt, is al straf. Dat is een druppel op een hete plaat vergeleken met wat nodig is voor algemene intelligentie.

DreamZero doorbreekt deze bottleneck op meerdere manieren:

Leren van heterogene data

Traditionele robotmodellen hebben moeite met diverse datasets. Ze willen repetitieve demonstraties van dezelfde taak in dezelfde omgeving. DreamZero daarentegen leert van heterogene robotdata. Verschillende robots, verschillende taken, verschillende omgevingen, zonder te vertrouwen op eindeloze herhalingen. Het model leert de onderliggende physics in plaats van bewegingspatronen te memoriseren.

Transfer van menselijke ervaring

DreamZero voorspelt hoe de wereld werkt op basis van video. Het leert van hoe mensen bewegen in video’s. Mensen kan je zien als robots die op schaal zijn uitgerold. Er zijn 8 miljard mensen die elk ongeveer 16 uur  sensomotorische ervaring opdoen per dag. Als we die ervaring kunnen capteerd hebben we veel data.

Uit experimenten met DreamZero blijkt dat 10 à 20 minuten video van mensen of andere robots genoeg is om nieuwe taken voor robots  met 42% te verbeteren. Je hebt geen actielabels nodig, gewoon video. Het model ziet hoe een mens veters strikt of een overhemd strijkt, het begrijpt de onderliggende physics en kan dat vervolgens vertalen naar robotacties.

Cross-embodiment transfer

DreamZero paste zich aan aan een compleet nieuwe robot (YAM) met slechts 30 minuten speeldata, terwijl het zijn zero-shot generalisatievermogen behield. Wat voorheen honderden uren demonstraties vereiste, wordt nu bereikt in een half uur. De kennis van physics transfereert, alleen de kinematica moet opnieuw aangeleerd worden.

Real-time inferentie

Een video diffusion model met 14 miljard parameters in real-time draaien klinkt onmogelijk. Toch heeft Nvidia door model-, systeem- en implementatie-optimalisaties DreamZero real-time inferentie mogelijk gemaakt.

Hoe succesvol is DreamZero in de praktijk?

Nvidia heeft DreamZero getest in zes verschillende settings, en de cijfers zijn indrukwekkend.

AgiBot Pretraining, onderscheid tussen geziene en ongeziene taken

Op taken uit de trainingsdistributie, maar in zero-shot omgevingen met ongeziene objecten, behaalde DreamZero een gemiddelde taakvoortgang van 62,2%, meer dan twee keer zo hoog als de beste voorgetrainde VLA baseline (27,4%).

Op taken die volledig afwezig waren in de training, zoals veters losmaken en handen schudden, bereikte DreamZero 39,5% taakvoortgang, terwijl VLA’s faalden.

DROID dataset: Ongeziene werkwoorden

Om te valideren op publiek beschikbare data, trainde Nvidia DreamZero op DROID, een van de meest heterogene open-source robotdatasets. Op 20 taken met acties die afwezig waren in DROID presteerde DreamZero significant beter dan state-of-the-art VLA’s: 49% taakvoortgang versus 25-32%.

Post-training generalisatie

Behoudt een model zijn generalisatievermogen na fine-tuning op taakspecifieke data? Nvidia testte dit door post-training op drie downstream taken: overhemden vouwen, fruit inpakken, en tafels afruimen. DreamZero behield zijn sterke omgevingsgeneralisatie na post-training.

Interactieve prompting in de echte wereld

Misschien wel het meest fascinerende aspect is interactieve prompting. Onderzoekers namen de robot mee naar verschillende locaties en vroegen willekeurige mensen om de robot nieuwe taken te geven. De robot kon liftknoppen indrukken, voorwerpen in tassen stoppen, en muziekinstrumenten bespelen, allemaal taken die nooit expliciet getraind waren. Het tijdperk van het prompten van robot foundation models is aangebroken.

Waar leidt DreamZero toe? De toekomst van Physical AGI

DreamZero opent de deur naar wat onderzoekers Physical AGI noemen, algemene kunstmatige intelligentie die niet alleen digitaal kan redeneren, maar ook fysiek kan handelen in de echte wereld.

De data is beschikbaar

DreamZero’s aanpak lost het fundamentele dataprobleem van robotica op door menselijk gedrag te benutten. Als je een video world model traint op 100 miljoen uur video van mensen,  betekent dit dat je maar via nodig hebt van 150 mensen die je levenslang volgt. Ter vergelijking, LLM-trainingsdata vertegenwoordigt de geschreven output van miljarden mensen. Er is dus nog data.

Van een menselijk world model naar een fysieke robot

De visie voor DreamZero is helder. Een video world model getraind op 100 miljoen uur menselijke ervaring. Het heeft mensen zien koken, schoonmaken, bouwen, repareren, voor elkaar zorgen, door steden wandelen en elke tool gebruiken die mensen hebben uitgevonden. Het begrijpt niet alleen wat er gebeurt, maar waarom en hoe.

Dit model wordt ingezet in een humanoïde robot die de menselijke kinematica weerspiegelt. Omdat de embodiment overeenkomt met de trainingsdistributie, kan het model onmiddellijk zijn enorme ervaring benutten. Met een paar uur speeldata om zijn proprioceptie (het vermogen van een organisme om de positie van het eigen lichaam en lichaamsdelen waar te nemen) te kalibreren, kan het beginnen te handelen.

Pleidooi voor humanoïde robots

Als menselijke data de enige schaalbare bron is, en world models de manier zijn om die data te benutten, dan is de optimale robot-embodiment er één die de gelijkenis met mensen maximaliseert. Humanoïde robots minimaliseren de resterende embodiment gap.

Natuurlijk blijven er uitdagingen. Het inverse dynamics probleem, het mappen van een voorspelde toekomst naar motorcommando’s, wordt moeilijker naarmate robots menselijke behendigheid benaderen. Multimodale sensing (druk, temperatuur, textuur) staat nog in zijn kinderschoenen. En hoe neem je mensen constant op, op een niet-intrusieve manier?

De langetermijnvisie

DreamZero demonstreert dat we world models getraind op menselijke ervaring kunnen transfereren naar robots van alle vormen. De onderzoekers blijven DreamZero stress-testen met taken die nog nooit getraind zijn, in nieuwe omgevingen.

Joel Jang, Senior Research Scientist bij Nvidia GEAR Lab, zegt “DreamZero is slechts het begin van de nieuwe golf van robot foundation models gebouwd op video world models. De vraag is niet of we Physical AGI zullen bereiken, maar hoe snel.”

Een nieuwe era in robotica

DreamZero vertegenwoordigt een fundamentele verschuiving in robot-learning. Door te focussen op het begrijpen van hoe de wereld werkt in plaats van het memoriseren van specifieke bewegingen. Door menselijke ervaring te benutten in plaats van robots te leiden via teleoperation. Door kennis overdraagbaar te maken tussen verschillende type robots.