De nieuwe grens in kunstmatige intelligentie

Terwijl de wereld van artificiële intelligentie zich razendsnel blijft ontwikkelen, duikt er een nieuwe speler op die de manier waarop we AI-systemen trainen fundamenteel verandert. Reinforcement learning, of versterkend leren, staat klaar om de volgende grote sprong te maken in de evolutie van taalmodellen en AI-systemen. Maar wat maakt deze technologie zo bijzonder, en belangrijker nog: kan ze de beloftes waarmaken die eraan worden toegeschreven?

De afgelopen jaren hebben we gezien hoe bedrijven als OpenAI, Google en Anthropic steeds grotere modellen hebben getraind door simpelweg meer rekenkracht in te zetten. Die aanpak leverde indrukwekkende resultaten op, maar begint nu tegen zijn limieten aan te lopen. Reinforcement learning biedt een alternatieve route, een manier om AI-systemen slimmer te maken zonder eindeloos meer data en rekenkracht te verbruiken.

Wat is reinforcement learning eigenlijk?

In tegenstelling tot traditionele machine learning, waarbij een model leert door voorbeelden na te bootsen, werkt reinforcement learning volgens een fundamenteel ander principe. Het systeem leert door trial and error, waarbij het beloningen krijgt voor goede beslissingen en gestraft wordt voor fouten. Denk aan hoe je een hond leert om kunstjes te doen: je geeft een snoepje wanneer hij iets goed doet, en negeert hem wanneer hij het fout doet.

Bij taalmodellen betekent dit dat het systeem niet alleen leert om tekst te voorspellen op basis van wat het heeft gezien, maar ook om te redeneren en problemen op te lossen. Het model genereert verschillende antwoorden, evalueert welke het beste werken, en past zijn strategie aan. Deze aanpak heeft geleid tot doorbraken zoals OpenAI’s o1 en o3 modellen, die complexe wiskundige problemen kunnen oplossen die ver buiten het bereik van traditionele taalmodellen liggen.

Het verschil met klassieke training

Waar traditionele pre-training draait om het voorspellen van het volgende woord in een zin, gaat reinforcement learning veel verder. Het systeem leert om langere redeneerkettingen op te bouwen, tussentijdse stappen te evalueren en zijn aanpak bij te sturen wanneer dat nodig is. Dit verklaart waarom modellen die met RL zijn getraind plotseling in staat blijken om problemen aan te pakken die voorheen onmogelijk leken.

De techniek maakt gebruik van wat onderzoekers “verifiable rewards” noemen: duidelijke signalen over of een antwoord correct is of niet. Bij wiskundige problemen is dat eenvoudig te controleren, maar bij open vragen wordt het al snel complexer. Toch blijkt deze aanpak krachtig genoeg om modellen naar een hoger niveau te tillen.

De kunst van het schalen

Nu we begrijpen wat reinforcement learning is, komt de cruciale vraag: hoe schaal je het? En belangrijker nog: loont het de moeite? Recent onderzoek toont aan dat er twee fundamenteel verschillende manieren zijn om RL te schalen, elk met hun eigen karakteristieken en beperkingen.

Training-scaling versus inference-scaling

De eerste manier is het opschalen van de trainingscompute: je investeert meer rekenkracht in het trainen van het model met reinforcement learning technieken. Dit leert het model betere redeneerstrategieën aan en verbetert zijn fundamentele capaciteiten. De tweede manier is inference-scaling: je geeft het model meer tijd om na te denken tijdens het gebruik, door langere redeneerkettingen toe te staan.

Hier wordt het interessant. Uit analyses van OpenAI’s o1 model blijkt dat beide vormen van schaling werken, maar niet even efficiënt. Om dezelfde prestatieverbetering te bereiken, heb je ongeveer 100 keer meer training-compute nodig dan inference-compute. Concreet betekent dit: waar je met 100 keer meer rekenkracht tijdens het gebruik een model van 20% naar 80% nauwkeurigheid kunt brengen, heb je maar liefst 10.000 keer meer trainingscompute nodig voor hetzelfde resultaat.

De realiteit van schalen

Deze getallen klinken ontmoedigend, en dat zijn ze ook. Toch hebben bedrijven als OpenAI, xAI en Anthropic de afgelopen jaren enorme vooruitgang geboekt met reinforcement learning. Hoe kan dat? Het antwoord ligt in het startpunt. Toen bedrijven begonnen met RL-training, gebruikten ze slechts een fractie van de compute die ze aan pre-training hadden besteed. Een model dat 1,01 keer zoveel trainingscompute kreeg als zijn voorganger, leverde al merkbare verbeteringen op.

Maar die situatie verandert snel. xAI’s Grok 4 model bereikte in juli 2025 het punt waarop de RL-training evenveel compute verbruikte als de oorspronkelijke pre-training. Vanaf dat moment wordt verder schalen exponentieel duurder. Een volgende vertienvoudiging van de RL-compute betekent dan ook een vertienvoudiging van de totale trainingskosten.

Kan het blijven werken?

De hamvraag is natuurlijk: heeft reinforcement learning een toekomst als schaaltechniek? Het antwoord is genuanceerd. Voor training-scaling lijkt het einde in zicht. Om een sprong te maken die vergelijkbaar is met de stap van GPT-3 naar GPT-4, zou je volgens schattingen een miljoen keer meer RL-compute nodig hebben dan wat momenteel wordt gebruikt. Dat zou betekenen dat je vijf jaar aan wereldwijde elektriciteitsproductie nodig hebt om één model te trainen. Niet bepaald realistisch.

Maar inference-scaling biedt meer perspectief. Door modellen meer tijd te geven om na te denken, kunnen ze complexere problemen oplossen zonder dat je de trainingskosten exponentieel laat stijgen. Het nadeel is dat dit de kosten per gebruik verhoogt. Waar een traditioneel model misschien 100 tokens genereert voor een antwoord, gebruikt een reasoning model er mogelijk 3.000. Dat maakt deployment 30 keer duurder.

De economische realiteit

Voor bedrijven die AI-diensten aanbieden, is dit een fundamentele afweging. Je kunt investeren in betere training, wat een eenmalige kost is, of je kunt gebruikers meer rekenkracht geven tijdens het gebruik, wat de operationele kosten verhoogt. Gezien de schaalnadelen van RL-training, lijkt de balans steeds meer door te slaan naar inference-scaling.

Dit heeft verstrekkende gevolgen. Het betekent dat toekomstige AI-systemen waarschijnlijk niet zozeer slimmer worden door betere training, maar door meer tijd te krijgen om problemen op te lossen. De intelligentie van het systeem blijft relatief stabiel, maar de kwaliteit van de output verbetert door langere redeneerprocessen.

Wat betekent dit voor de toekomst?

Reinforcement learning heeft de AI-wereld een nieuwe dimensie gegeven. Het heeft aangetoond dat modellen kunnen leren om te redeneren op manieren die hun trainingsdata overstijgen. Systemen kunnen nu wiskundige problemen oplossen, code schrijven en complexe vraagstukken aanpakken op een niveau dat een jaar geleden nog ondenkbaar leek.

Maar de grenzen worden zichtbaar. De tijd waarin je simpelweg meer compute kon inzetten voor exponentieel betere resultaten, loopt ten einde. Wat overblijft is een meer genuanceerde aanpak: slimmer trainen, efficiënter infereren, en accepteren dat vooruitgang niet altijd lineair verloopt.

Voor ontwikkelaars en bedrijven betekent dit dat ze strategischer moeten nadenken over waar ze hun resources inzetten. Wil je een model dat fundamenteel beter is, of een model dat meer tijd krijgt om na te denken? Beide hebben hun plaats, maar de economische realiteit dwingt tot keuzes.

De erfenis van reinforcement learning

Misschien is de grootste bijdrage van reinforcement learning niet zozeer de directe prestatieverbetering, maar wel het feit dat het inference-scaling mogelijk heeft gemaakt. Door modellen te leren hoe ze langere redeneerkettingen kunnen opbouwen, heeft RL een nieuwe manier van AI-gebruik ontsloten. En die manier van werken, waarbij systemen tijd krijgen om te “denken”, zal waarschijnlijk de toekomst bepalen.

De vraag is niet langer of reinforcement learning kan werken, maar hoe we het slim kunnen inzetten binnen de beperkingen die de fysieke werkelijkheid ons oplegt. De race om steeds grotere modellen te trainen maakt plaats voor een meer doordachte aanpak, waarbij efficiëntie en strategie centraal staan. En dat is misschien wel de belangrijkste les die reinforcement learning ons leert. Soms is slimmer werken belangrijker dan harder werken.