De volgende stap in Generatieve AI, beweging uit tekst

Text-to-motion, Het genereren van realistische, menselijke bewegingen in een 3D-ruimte op basis van een simpele tekstprompt was lange tijd de heilige graal voor game-ontwikkelaars en animatoren. Met de lancering van Hunyuan Motion 1.0 (HY-Motion 1.0) door Tencent, lijkt die toekomst plotseling heel tastbaar geworden.

In deze diepgaande blogpost duiken we in de techniek achter dit model. We bekijken niet alleen wat het is en wie erachter zit, maar analyseren vooral waarom dit model technisch gezien een sprong voorwaarts is ten opzichte van eerdere pogingen. We gaan het hebben over Diffusion Transformers, Flow Matching en een uniek trainingsproces.

Wie en wat is Hunyuan Motion 1.0?

Hunyuan Motion 1.0 is ontwikkeld door het Tencent Hunyuan 3D Digital Human Team. Tencent is geen onbekende speler in het AI-veld; met hun eerdere release van HunyuanVideo lieten ze al zien dat ze serieus meespelen in de top van de generatieve modellen. Met HY-Motion 1.0 richten ze hun pijlen specifiek op de 3D-industrie.

In de kern is HY-Motion 1.0 een open-source model dat tekstuele beschrijvingen omzet in 3D-skeletanimaties. Het is belangrijk om het onderscheid te maken met video-generatoren. Dit model genereert geen pixels of MP4-bestanden van echte mensen, maar data voor een SMPL-H skelet. Dit zijn de digitale botten en gewrichten die gebruikt worden in game-engines zoals Unity of Unreal Engine, of in 3D-software zoals Blender. Het resultaat is dus direct bruikbaar voor animatoren die een 3D-karakter willen laten bewegen zonder dure motion capture-apparatuur of urenlang handwerk.

De kracht van schaalvergroting

Wat HY-Motion 1.0 echt onderscheidt van voorgangers zoals MoMask of DART, is de schaal. Het is de eerste keer dat een Diffusion Transformer (DiT) gebaseerd model voor bewegingsgeneratie is opgeschaald naar meer dan 1 miljard parameters. In de wereld van LLMs (Large Language Models) zijn we gewend geraakt aan honderden miljarden parameters, maar in de niche van 3D-beweging is 1 miljard gigantisch.

Waarom is die schaal belangrijk? Uit de experimenten van Tencent blijkt dat grotere modellen niet alleen mooiere bewegingen maken, maar vooral veel beter zijn in het opvolgen van complexe instructies (instruction following). Een klein model snapt misschien “lopen”, maar een groot model begrijpt de nuance van “lopen alsof je verdrietig bent terwijl je naar links kijkt”.

Wat maakt HY-Motion 1.0 technisch verschillend?

Om te begrijpen waarom dit model zo goed presteert, moeten we kijken naar de architectuur en de trainingsmethodologie. Het team heeft niet zomaar een bestaand model groter gemaakt; ze hebben een volledig nieuwe pipeline opgezet.

Flow Matching in plaats van standaard Diffusie

Traditionele diffusiemodellen werken door ruis (noise) langzaam te verwijderen om tot een resultaat te komen. HY-Motion 1.0 maakt echter gebruik van een techniek genaamd Flow Matching. Flow Matching probeert een optimaal pad (een rechte lijn) te vinden tussen de ruisdistributie en de datadistributie. Dit wordt gemodelleerd als een Ordinary Differential Equation (ODE). Het voordeel hiervan is dat het vaak stabieler traint en efficiรซnter is tijdens het genereren van de beweging dan standaard diffusieprocessen.

De Diffusion Transformer (DiT) Architectuur

In plaats van de klassieke U-Net architectuur die vaak in oudere image-generators werd gebruikt, gebruikt HY-Motion een Transformer-backbone. Dit stelt het model in staat om beter om te gaan met de temporele aspecten van beweging (tijd) en de semantische aspecten van tekst. De architectuur gebruikt een hybride aanpak:

  • Dual-stream blokken: Hier worden de bewegingsdata en de tekstdata apart verwerkt, maar ze praten met elkaar via aandachtmechanismen (attention). Dit zorgt ervoor dat de tekst de beweging stuurt, zonder dat de ruis van de beweging de tekstinformatie verstoort.
  • Single-stream blokken: Hier worden de data samengevoegd voor de diepe integratie, wat zorgt voor de uiteindelijke vloeiende output.

Een drietraps trainingsraket

Misschien wel het meest indrukwekkende aspect van HY-Motion 1.0 is de manier waarop het getraind is. Het team gebruikte een “coarse-to-fine” strategie die bestaat uit drie fasen.

Fase 1: Grootschalige Pre-training

Eerst moest het model leren wat bewegen is. Hiervoor werd een dataset van meer dan 3.000 uur aan bewegingsdata gebruikt. Dit omvatte data uit motion capture studio’s, maar ook data die met AI (GVHMR – ๐†๐ซ๐จ๐ฎ๐ง๐๐ž๐ ๐‡๐ฎ๐ฆ๐š๐ง ๐Œ๐จ๐ญ๐ข๐จ๐ง ๐‘๐ž๐œ๐จ๐ฏ๐ž๐ซ๐ฒ ๐ฏ๐ข๐š ๐†๐ซ๐š๐ฏ๐ข๐ญ๐ฒ-๐•๐ข๐ž๐ฐ ๐‚๐จ๐จ๐ซ๐๐ข๐ง๐š๐ญ๐ž๐ฌ) uit miljoenen YouTube-video’s (HunyuanVideo dataset) werd gehaald. In deze fase leert het model de basis: hoe buigt een knie? Hoe werkt zwaartekracht ongeveer? Het resultaat is een model dat veel snapt, maar nog wat ruw is.

Fase 2: High-Quality Fine-tuning

Kwantiteit is goed, maar kwaliteit is beter. In de tweede fase werd het model verfijnd op een gecureerde dataset van 400 uur. Deze data was extreem schoon, zonder fouten en met perfecte tekstbeschrijvingen. Hier leerde het model de finesse: het elimineren van trillingen (jitter) en het zorgen voor anatomische correctheid.

Fase 3: Reinforcement Learning (RL)

Dit is waar het echt interessant wordt. Net zoals ChatGPT beter werd door menselijke feedback (RLHF), heeft Tencent dit toegepast op beweging. Ze gebruikten twee methoden:

  • DPO (Direct Preference Optimization): Mensen kregen twee gegenereerde bewegingen te zien en moesten kiezen welke beter was. Het model leert zo wat mensen visueel aantrekkelijk vinden.
  • Flow-GRPO: Een techniek om strikte regels op te leggen. Er werd een beloningssysteem (reward model) gebouwd dat het model straft als het fysiek onmogelijke dingen doet of als de beweging niet matcht met de tekst.

Hoe kan je HY-Motion 1.0 gebruiken?

Voor de ontwikkelaars en techneuten onder ons is het goede nieuws dat dit model open-source is. Je kunt het vinden op Hugging Face en zelf draaien, mits je over de juiste hardware beschikt.

Systeemvereisten

Omdat het een zwaar model is (zeker de 1B variant), heb je een stevige GPU nodig. Het model ondersteunt Linux, Windows en macOS. Om het VRAM-gebruik binnen de perken te houden, raden de makers aan om de batch size laag te houden en de lengte van de gegenereerde animaties te beperken (bijvoorbeeld tot 5 seconden) als je geen professionele kaart hebt.

Installatie en Interface

De installatie verloopt via Python en PyTorch. Na het klonen van de repository en het installeren van de dependencies, kun je de model weights downloaden. Tencent heeft ook een handige Gradio web interface meegeleverd. Hiermee kun je lokaal in je browser een simpele UI openen, je prompt intypen en direct het resultaat zien in een 3D-viewer.

Tips voor prompting

Het model is getraind op een mix van data, maar presteert het best met Engelse prompts. Hier zijn enkele tips voor het beste resultaat:

  • Taal: Gebruik Engels. Hoewel het model misschien andere talen herkent door de LLM-backend, is Engels de voertaal van de training.
  • Lengte: Houd het beknopt. Prompts onder de 60 woorden werken het best.
  • Detail: Focus op de actie en de lichaamsdelen. Bijvoorbeeld, A person walking slowly while looking at their watch on the left wrist.
  • LLM Herschrijver: HY-Motion bevat een ingebouwde module die jouw simpele prompt kan herschrijven naar een meer gedetailleerde versie die het model beter begrijpt. Dit is een slimme tussenstap die de kwaliteit aanzienlijk verhoogt.

Prestaties in vergelijking met de concurrentie

In de benchmarks veegt HY-Motion 1.0 de vloer aan met de huidige open-source modellen. Als we kijken naar de Structured Semantic Alignment Evaluation (SSAE), een score die aangeeft hoe goed de beweging past bij de tekst, scoort HY-Motion 78.6%. Ter vergelijking: populaire modellen zoals MoMask en DART scoren respectievelijk 58.0% en 42.7%.

Vooral op het gebied van complexe instructies is het verschil dag en nacht. Waar oudere modellen vaak in de war raken als je vraagt om “tegelijkertijd te zwaaien en te hinkelen”, weet HY-Motion door zijn grote parameter-aantal en de dual-stream architectuur deze concepten te combineren tot รฉรฉn vloeiende beweging.

Beperkingen en de toekomst

Is het dan allemaal perfect? Nee, en het is belangrijk om realistisch te blijven. Ondanks de indrukwekkende prestaties zijn er nog steeds beperkingen waar je rekening mee moet houden.

Ten eerste is er het probleem van Human-Object Interaction (HOI). Het model genereert alleen de beweging van het menselijk lichaam. Als je vraagt, Iemand tilt een zware doos op, zal het model de houding van het tillen genereren, maar het weet niet hoe groot of zwaar de doos is. De handen zullen misschien door de virtuele doos heen gaan, of de afstand tussen de handen klopt niet exact met het object dat jij in je 3D-scene hebt. Dit vereist nog steeds handmatige correctie (inverse kinematics) door een animator.

Daarnaast blijft het lastig om extreem lange sequenties te genereren zonder dat de logica zoek raakt. Het model is geoptimaliseerd voor clips van enkele seconden. Voor een volledige choreografie van een minuut zul je meerdere clips moeten genereren en deze aan elkaar moeten blenden.

Ook complexe, zeer genuanceerde instructies kunnen soms nog een uitdaging zijn. Hoewel het beter is dan de concurrentie, is het nog geen menselijke animator die precies begrijpt wat een sarcastisch loopje is, tenzij dit specifiek in de trainingsdata zat.

Impact op de Belgische AI- en Game-industrie

Voor Belgische game-studio’s, van de grote spelers tot de vele indie-ontwikkelaars die ons land rijk is, is dit een tool om in de gaten te houden. Het democratiseert high-end animatie. Waar je vroeger een dure MoCap-sessie moest boeken in een studio, kun je nu snel prototypen met tekst. Dit versnelt de pre-productie fase.

Ook voor onderzoekers aan onze universiteiten biedt dit project kansen. De code is beschikbaar, de architectuur is transparant en de dataset-methodologie is goed gedocumenteerd. Het biedt een fantastische basis om verder op te bouwen.

Een nieuwe standaard voor 3D-generatie

Hunyuan Motion 1.0 is een bewijs dat de scaling laws (het idee dat groter en meer data altijd beter is) ook gelden voor bewegingsgeneratie. Door een slimme combinatie van een enorme dataset, een geavanceerde DiT-architectuur en een verfijnd trainingsproces met menselijke feedback, heeft Tencent de lat een stuk hoger gelegd.

Het model is krachtig, toegankelijk en open-source. Hoewel het de menselijke animator nog niet vervangt, geeft het hen wel een gereedschap in handen dat de workflow drastisch kan versnellen.