De vrouw achter de AI-revolutie

Als je vandaag ChatGPT gebruikt, door Instagram scrolt of een zelfrijdende auto ziet passeren, dan heb je indirect te maken met het werk van Fei Fei Li. Deze Chinese-Amerikaanse computerwetenschapper wordt niet voor niets de “godmother of AI” genoemd. Haar baanbrekende werk aan ImageNet legde mee de fundamenten voor de moderne AI-revolutie die we vandaag meemaken.

Maar wie is deze vrouw eigenlijk? Geboren in Beijing in 1976, verhuisde Li op haar zestiende naar de Verenigde Staten. Terwijl ze haar weekends doorbracht in de stomerij van haar ouders, studeerde ze aan Princeton University. Later behaalde ze haar doctoraat aan het California Institute of Technology. Vandaag is ze professor aan Stanford University en medeoprichter van World Labs, een startup die zich richt op wat zij beschouwt als de volgende grote stap in AI: spatial intelligence.

Van woorden naar werelden

Li’s visie op de toekomst van AI is simpel. Huidige taalmodellen zoals ChatGPT zijn briljant in het verwerken van tekst, maar ze begrijpen de fysieke wereld niet echt. Ze kunnen je uitleggen hoe je een auto moet parkeren, maar ze kunnen niet inschatten hoe groot de ruimte tussen je bumper en de stoeprand is. Ze kunnen een scenario schrijven voor een film, maar kunnen geen kubus roteren.

Spatial intelligence gaat over het vermogen om de driedimensionale wereld te begrijpen, erin te navigeren en ermee te interageren. Het is iets wat mensen en dieren van nature doen, maar waar AI mee worstelt. Denk aan een brandweerman die door een instortend gebouw navigeert, of aan jezelf wanneer je slaperig koffie inschenkt zonder te morsen. Dit soort ruimtelijk begrip is fundamenteel voor intelligentie, maar ontbreekt grotendeels in huidige AI-systemen.

Waarom spatial intelligence zo belangrijk is

Li legt uit dat spatial intelligence eigenlijk de basis vormt van menselijke cognitie. Lang voordat dieren voor hun jongen zorgden of mensen communiceerden met taal, ontstond het vermogen om de omgeving waar te nemen. Deze perceptie creëerde een brug tussen waarneming en overleving, en groeide uit tot de complexe zenuwstelsels die we vandaag kennen.

Voor AI betekent het ontbreken van spatial intelligence dat machines fundamenteel beperkt blijven. Ze kunnen geen auto’s besturen, robots aansturen in ziekenhuizen, volledig immersieve ervaringen creëren of wetenschappelijke doorbraken versnellen in materiaalkunde en geneeskunde. Het is alsof je een briljante professor hebt die nooit zijn studeerkamer heeft verlaten.

World models: de sleutel tot ruimtelijk begrip

Om spatial intelligence te bereiken, heeft Li een ambitieus plan: world models. Dit zijn een nieuw type generatieve modellen die veel verder gaan dan huidige taalmodellen. Ze moeten in staat zijn om complexe werelden te begrijpen, erover te redeneren, ze te genereren en ermee te interageren, zowel virtueel als in de echte wereld.

Li definieert drie essentiële capaciteiten die world models moeten hebben. Ten eerste moeten ze generatief zijn: ze moeten werelden kunnen creëren die fysisch en geometrisch consistent zijn. Ten tweede moeten ze multimodaal zijn: ze moeten verschillende soorten input kunnen verwerken, van afbeeldingen tot acties. En ten derde moeten ze interactief zijn: ze moeten kunnen voorspellen wat er gebeurt wanneer je een actie onderneemt.

Van ImageNet naar Marble

Li’s werk aan spatial intelligence bouwt voort op haar eerdere doorbraken. In 2007 begon ze aan Princeton met de ontwikkeling van ImageNet, een massale visuele database met meer dan 14 miljoen gelabelde afbeeldingen. Veel collega’s vonden het project te ambitieus, maar ImageNet werd uiteindelijk een van de drie hoekstenen van moderne AI, samen met neurale netwerken en krachtige GPU’s.

Bij World Labs werkt Li nu aan Marble, het eerste world model dat gebruikers in staat stelt om consistente 3D-omgevingen te genereren en te verkennen. Creators kunnen met multimodale input volledige werelden creëren zonder de complexiteit van traditionele 3D-software. Het is een eerste stap naar wat Li ziet als de toekomst: AI die niet alleen over de wereld kan praten, maar deze ook echt begrijpt.

Toepassingen die de wereld veranderen

De mogelijkheden van spatial intelligence zijn enorm en variëren van creatieve tools tot wetenschappelijke doorbraken. In de creatieve sector kunnen filmmakers en gameontwerpers volledige werelden creëren zonder de beperkingen van budget of geografie. Architecten kunnen door gebouwen wandelen die nog niet bestaan, en industriële ontwerpers kunnen direct hun ideeën visualiseren.

Voor robotica is spatial intelligence essentieel. Robots moeten hun omgeving kunnen waarnemen, begrijpen en ermee kunnen interageren. World models kunnen helpen door eindeloze simulaties te genereren waarin robots kunnen leren, waardoor de kloof tussen simulatie en realiteit kleiner wordt. Dit opent de deur naar robots die ons kunnen helpen in ziekenhuizen, laboratoria en thuis.

Wetenschap en gezondheidszorg

Op langere termijn ziet Li transformatieve toepassingen in wetenschap en gezondheidszorg. Spatial intelligence kan experimenten simuleren, hypotheses parallel testen en omgevingen verkennen die voor mensen ontoegankelijk zijn, van diepe oceanen tot verre planeten. In de geneeskunde kan het de ontdekking van medicijnen versnellen door moleculaire interacties in 3D te modelleren, diagnostiek verbeteren en patiënten ondersteunen zonder de menselijke connectie te vervangen.

In het onderwijs kan spatial intelligence abstract leren tastbaar maken. Studenten kunnen door cellulaire structuren wandelen of historische gebeurtenissen in 3D beleven. Chirurgen kunnen complexe vaardigheden oefenen in realistische simulaties.

De uitdagingen vooruit

Ondanks het enorme potentieel staan er nog technische barrières in de weg. Het trainen van world models vereist veel complexere data dan tekst. Hoewel er massale hoeveelheden beelden en video’s beschikbaar zijn op het internet, ligt de uitdaging in het ontwikkelen van algoritmes die diepere ruimtelijke informatie kunnen extraheren uit deze tweedimensionale signalen.

Ook de architectuur van deze modellen moet verder evolueren. Huidige multimodale taalmodellen en video-diffusiemodellen tokeniseren data in één- of tweedimensionale sequenties, wat eenvoudige ruimtelijke taken onnodig moeilijk maakt. Alternatieve architecturen die rekening houden met 3D of 4D zijn nodig voor betere tokenisatie, context en geheugen.

Een mensgerichte visie op AI

Wat Li’s werk onderscheidt, is haar onwrikbare focus op mensgerichte AI. Ze benadrukt dat AI menselijke capaciteiten moet versterken, niet vervangen. Deze filosofie leidde ook tot de oprichting van AI4ALL in 2017, een non-profitorganisatie die diversiteit en inclusie in AI bevordert.

Li’s boodschap is duidelijk: de grenzen van taal betekenen de grenzen van de wereld van AI. Om die grenzen te doorbreken, moet AI leren zien, aanraken en bewegen. Spatial intelligence vertegenwoordigt de frontier voorbij taal, het vermogen dat verbeelding, perceptie en actie integreert en oneindig veel mogelijkheden opent voor machines om het menselijk leven te verbeteren.

De toekomst is ruimtelijk

Bijna een half miljard jaar nadat de natuur de eerste spatial intelligence creëerde, staat de mensheid op het punt om machines met hetzelfde vermogen uit te rusten. Li’s werk bij World Labs en haar bredere visie op spatial intelligence zijn een keerpunt in de ontwikkeling van kunstmatige intelligentie.

De vraag is niet of machines kunnen denken, maar hoe we ervoor kunnen zorgen dat ze denken op een manier die de mens ten goede komt. Met spatial intelligence als volgende frontier staat AI op het punt om van een gesprekspartner te evolueren naar een partner voor creativiteit, discovery en vooruitgang. Een AI die niet alleen eloquent is, maar ook begrijpt hoe de wereld werkt.