De volgende stap in AI-simulatie

De race om world models te ontwikkelen is volop aan de gang, en Runway heeft nu zijn eerste systeem gelanceerd, GWM-1. Dit nieuwe model interpreteert en simuleert de fysieke wereld. Traditionele AI-systemen reageren vooral op basis van getrainde scenario’s. GWM-1 gaat een stap verder door een interne simulatie te creëren van hoe de wereld daadwerkelijk werkt.

In plaats van een AI-systeem te trainen op elke mogelijke situatie die het kan tegenkomen, leert het model zelf hoe de wereld functioneert. Het begrijpt fysica, beweging en hoe objecten met elkaar interageren. Hierdoor kan GWM-1 redeneren, plannen en handelen in situaties die het nog nooit eerder heeft gezien.

Runway, het Amerikaanse techbedrijf dat eerder deze maand nog furore maakte met zijn Gen 4.5 videomodel, positioneert GWM-1 als een meer algemeen systeem dan wat concurrenten zoals Google met Genie-3 hebben ontwikkeld. Het bedrijf ziet toepassingen in uiteenlopende domeinen, van robotica tot life sciences.

Hoe GWM-1 de wereld simuleert

De technische aanpak van Runway is gebaseerd op frame-by-frame voorspelling. Het model genereert simulaties door te voorspellen wat er in elk volgend frame gebeurt, rekening houdend met fysica, geometrie en hoe de wereld zich gedraagt over tijd. Deze methode geeft het systeem een diep begrip van continuïteit en beweging.

Volgens CTO Anastasis Germanidis van Runway was het bouwen van een uitstekend videomodel de eerste noodzakelijke stap. “Om een world model te bouwen, moesten we eerst een echt geweldig videomodel maken,” legde hij uit tijdens de livestream van de lancering. “We geloven dat het rechtstreeks leren voorspellen van pixels de beste manier is om algemene simulatie te bereiken. Op voldoende schaal en met de juiste data kun je een model bouwen dat voldoende begrip heeft van hoe de wereld werkt.”

Drie varianten voor verschillende toepassingen

Runway heeft GWM-1 uitgebracht in drie gespecialiseerde versies, elk gericht op specifieke gebruikssituaties. Hoewel deze momenteel als afzonderlijke modellen functioneren, plant het bedrijf ze uiteindelijk samen te voegen tot één uniform systeem.

Gebruik GWM-Worlds om interactieve omgevingen verkennen

De eerste variant, GWM-Worlds, is misschien wel de meest visueel indrukwekkende. Het stelt gebruikers in staat om interactieve projecten te creëren door simpelweg een scène te beschrijven via een prompt of een afbeeldingsreferentie. Terwijl je door de ruimte navigeert, genereert het model de wereld in real-time met een begrip van geometrie, fysica en belichting.

De simulaties draaien op 24 frames per seconde in 720p resolutie, wat voldoende is voor experimentele gaming-toepassingen en het trainen van digitale agenten. Runway benadrukt dat hoewel Worlds nuttig kan zijn voor gaming, het ook uitstekend gepositioneerd is om agenten te leren hoe ze moeten navigeren en zich gedragen in de fysieke wereld.

Stel je voor dat je een virtuele omgeving creëert waarin een robot leert om obstakels te vermijden. In plaats van deze robot in de echte wereld te moeten testen, wat duur en potentieel gevaarlijk is, kan je hem eerst trainen in een gesimuleerde omgeving die zich gedraagt zoals de echte wereld.

Gebruik GWM-Robotics om synthetische trainingsdata voor robots te genereren

De tweede variant richt zich specifiek op robotica. GWM-Robotics genereert synthetische trainingsdata verrijkt met nieuwe parameters zoals wisselende weersomstandigheden of obstakels. Dit is bijzonder waardevol omdat het ontwikkelaars helpt te ontdekken waar robots instructies verkeerd kunnen interpreteren of van veiligheidsnormen kunnen afwijken.

Het testen van robots in de echte wereld is niet alleen duur, maar ook tijdrovend. Je moet fysieke prototypes bouwen, testomgevingen opzetten en elke situatie handmatig creëren. Met GWM-Robotics kunnen bedrijven duizenden scenario’s simuleren in een fractie van de tijd en kosten.

Runway is al in gesprek met verschillende roboticabedrijven en ondernemingen over de inzet van GWM-Robotics. Het model zal beschikbaar worden gemaakt via een Python SDK, wat het toegankelijk maakt voor ontwikkelaars die het willen integreren in hun eigen systemen.

Gebruik GWM-Avatars om levensechte digitale mensen te genereren

De derde variant, GWM-Avatars, focust op het creëren van realistische conversationele karakters. Deze digitale mensen hebben natuurlijke gezichtsuitdrukkingen, gebaren en lipsynchronisatie, wat ze geschikt maakt voor toepassingen in educatie, klantenservice en gedragssimulatie.

Bedrijven zoals D-ID, Synthesia, Soul Machines en zelfs Google hebben gewerkt aan het creëren van menselijke avatars die er realistisch uitzien en natuurlijk communiceren. Runway’s aanpak onderscheidt zich door de integratie met hun world model technologie, wat mogelijk meer contextbewustzijn en natuurlijker gedrag oplevert.

Gen 4.5 krijgt native audio en meer

Naast de lancering van GWM-1 heeft Runway ook een belangrijke update uitgebracht voor zijn Gen 4.5 videomodel. Deze update voegt native audiogeneratie toe, samen met mogelijkheden voor het bewerken van audio en multi-shot video editing.

Met deze nieuwe functies kunnen gebruikers video’s van één minuut genereren met karakterconsistentie, native dialoog, achtergrondaudio en complexe shots vanuit verschillende hoeken. Je kunt ook bestaande audio bewerken en dialogen toevoegen. Bovendien is het mogelijk om multi-shot video’s van elke lengte te bewerken.

Deze toevoegingen brengen Runway dichter bij concurrenten zoals Kling AI’s all-in-one video suite, die eerder deze maand ook werd gelanceerd. Het signaleert dat videogeneratiemodellen evolueren van experimentele prototypes naar productie-klare tools die professionals daadwerkelijk kunnen gebruiken in hun workflow.

Wat maakt GWM-1 anders?

Het belangrijkste onderscheid van GWM-1 ligt in zijn generalistisch karakter. Waar sommige world models zich richten op specifieke domeinen of toepassingen, positioneert Runway zijn systeem als een fundamenteel platform dat breed inzetbaar is.

De focus op pixel-level voorspelling is ook opmerkelijk. Veel AI-systemen werken met abstractere representaties van de wereld, maar Runway gelooft dat het rechtstreeks voorspellen van pixels op voldoende schaal leidt tot een dieper begrip van hoe de wereld functioneert.

Een ander onderscheidend element is de interactiviteit. GWM-Worlds laat gebruikers niet alleen passief kijken naar gegenereerde content, maar actief navigeren door gesimuleerde omgevingen. Deze real-time interactie opent nieuwe mogelijkheden voor gaming, virtual reality en agent training.

Voordelen van GWM-1

De voordelen van GWM-1 zijn veelzijdig. Ten eerste biedt het een kosteneffectieve manier om AI-systemen en robots te trainen.

Ten tweede opent het nieuwe creatieve mogelijkheden. Voor game developers en VR-creators betekent GWM-Worlds dat ze snel exploratieve omgevingen kunnen genereren zonder elk detail handmatig te hoeven ontwerpen. De AI begrijpt hoe ruimtes werken en kan deze consistent uitbreiden terwijl gebruikers navigeren.

Ten derde biedt de integratie met Gen 4.5 een compleet pakket voor videocreatie. Van concept tot eindproduct, met native audio en multi-shot editing, kunnen creators nu complexere verhalen vertellen zonder tussen verschillende tools te hoeven schakelen.

Tot slot is er het potentieel voor wetenschappelijk onderzoek. In life sciences kunnen onderzoekers simulaties gebruiken om biologische processen te modelleren of medicijninteracties te voorspellen, wat experimentele kosten en tijd kan verminderen.

Nadelen en uitdagingen

Ondanks de indrukwekkende mogelijkheden zijn er ook uitdagingen en beperkingen. De huidige resolutie van 720p bij 24 fps is acceptabel voor testtoepassingen, maar voor professionele gaming of filmproductie is hogere kwaliteit nodig. Runway zal deze specificaties waarschijnlijk moeten verbeteren om echt competitief te blijven.

Een ander punt is dat de drie varianten momenteel als afzonderlijke modellen functioneren. Hoewel Runway plant ze samen te voegen, betekent dit dat gebruikers nu nog met meerdere systemen moeten werken afhankelijk van hun toepassing. Deze fragmentatie kan de gebruikservaring compliceren.

Er zijn ook vragen over de nauwkeurigheid van de simulaties. Hoe goed begrijpt GWM-1 echt de fysica van de echte wereld? Voor robotica-toepassingen is precisie cruciaal. Een robot die getraind is in een simulatie die niet perfect de realiteit weerspiegelt, kan onverwacht gedrag vertonen in echte situaties.

Daarnaast is toegang tot GWM-Robotics en GWM-Avatars niet laagdrempelig. Ze zijn momenteel alleen beschikbaar voor bedrijven die in gesprek zijn met Runway.

Concurrerende modellen in het veld

Runway is zeker niet de enige speler in de world model race. Google’s Genie-3 is een directe concurrent die ook werkt aan het simuleren van interactieve omgevingen. Hoewel Runway beweert dat GWM-1 “algemener” is, heeft Google aanzienlijke middelen en onderzoekscapaciteit.

OpenAI, dat recent nog op de Video Arena leaderboard werd overtroffen door Runway’s Gen 4.5, werkt ongetwijfeld ook aan vergelijkbare technologie. Het bedrijf heeft een geschiedenis van het snel opschalen van modellen en zou binnenkort met een eigen world model kunnen komen.

Op het gebied van video met native audio is Kling AI een sterke concurrent. Hun all-in-one video suite, die ook deze maand werd gelanceerd, biedt vergelijkbare functionaliteit voor het creëren van video’s met geïntegreerde audio en multi-shot storytelling.

Voor avatars zijn er gevestigde spelers zoals Synthesia, D-ID en Soul Machines die al commerciële producten hebben voor het creëren van realistische digitale mensen. Deze bedrijven hebben een voorsprong in termen van marktpenetratie en klantrelaties.

In de robotica-sector werken talloze bedrijven en onderzoeksinstellingen aan simulatietools. NVIDIA biedt met het Omniverse platform ook een krachtige simulatie-omgevingen voor het trainen van robots en autonome systemen.

De toekomst van world models

De lancering van GWM-1 komt op een moment dat steeds meer stemmen in de AI-industrie erkennen dat taalmodellen alleen waarschijnlijk onvoldoende zijn om echt complexe problemen aan te pakken. Voor gebieden zoals robotica of wetenschappelijke ontdekking is een dieper begrip van de fysieke wereld noodzakelijk.