Wat is recursive self improvement eigenlijk?

Een AI-systeem dat niet alleen taken uitvoert, maar ook zichzelf kan analyseren, verbeteringen kan doorvoeren en daardoor steeds slimmer wordt. Dat is in een notendop recursive self improvement (RSI). Het concept draait om AI die haar eigen code, trainingsdata of architectuur kan aanpassen om beter te presteren, waarna die verbeterde versie opnieuw zichzelf kan optimaliseren. Een soort sneeuwbaleffect van intelligentie.

De term recursive self improvement verwijst naar het recursieve karakter van het proces: elke verbetering maakt het systeem beter in staat om zichzelf nóg verder te verbeteren. In theorie zou dit kunnen leiden tot een exponentiële groei in cognitieve capaciteiten, een fenomeen dat de wiskundige Irving John Good al in 1965 omschreef als een intelligence explosion. Good stelde dat een machine die slimmer is dan mensen, zichzelf zou kunnen herschrijven om nóg slimmer te worden, en dat dit proces zich zou kunnen herhalen tot een niveau dat ver buiten menselijk begrip ligt.

Waar het bij RSI om draait, is dat AI-systemen niet langer afhankelijk zijn van menselijke programmeurs om vooruitgang te boeken. In plaats daarvan nemen ze de touwtjes zelf in handen. Dat klinkt futuristisch, maar de eerste stappen in die richting worden vandaag al gezet.

Wie werkt eraan en hoe ver staan we?

Recursive self improvement is geen nieuw idee, maar de praktische uitvoering ervan is lange tijd science fiction gebleven. De afgelopen jaren is daar verandering in gekomen. Grote AI-bedrijven zoals Google DeepMind, Anthropic en Meta publiceren steeds vaker onderzoek naar zelfverbeterende systemen. Ook academische instellingen springen op de kar: in april 2026 vindt de eerste formele workshop over RSI plaats tijdens de International Conference on Learning Representations (ICLR), een toonaangevend AI-congres. De organisatoren verwachten meer dan 500 deelnemers.

Demis Hassabis, CEO van Google DeepMind, sprak tijdens het World Economic Forum 2026 openlijk over het streven naar zelfverbetering. Hij gaf aan dat zijn team werkt aan een self-improvement loop die zonder menselijke tussenkomst kan functioneren. Ook Dario Amodei van Anthropic bevestigde dat zijn bedrijf actief onderzoek doet naar deze technologie. Meta publiceerde in december 2025 zelfs een paper waarin ze expliciet stelden dat zelfverbetering een pad kan zijn naar superintelligentie.

Toch is er nog geen consensus over wat RSI precies inhoudt of hoe het er in de praktijk moet uitzien. Verschillende onderzoeksteams hanteren verschillende definities en methoden, wat het lastig maakt om de vorderingen te vergelijken. Wat wel duidelijk is: de race is begonnen.

Hoe werkt recursive self improvement in de praktijk?

De meeste moderne benaderingen van RSI bouwen voort op bestaande AI-technieken, zoals scaling laws en self-play methoden. Scaling laws, ontdekt in 2020, toonden aan dat neurale netwerken beter presteren naarmate ze op meer data worden getraind. Dit principe vormt de basis voor veel zelfverbeterende systemen: als een AI haar eigen trainingsdata kan genereren, kan ze in theorie oneindig blijven leren, zolang er maar genoeg rekenkracht en opslagruimte is.

Een populaire methode is self-play, waarbij een AI tegen zichzelf speelt of oefent. Denk aan AlphaGo, dat zichzelf verbeterde door miljoenen potjes Go tegen zichzelf te spelen. Bij RSI gaat dit een stap verder. Het systeem genereert niet alleen trainingsdata, maar valideert die data ook zelf. Bijvoorbeeld, een AI die code schrijft, kan die code testen op correctheid en vervolgens gebruiken om zichzelf te trainen. Hetzelfde principe wordt toegepast op wiskundige problemen en wiskundige bewijzen.

Deze methoden hebben al indrukwekkende resultaten opgeleverd. AI-systemen behaalden bijvoorbeeld een zilveren medaille op de International Mathematical Olympiad, een prestigieuze wiskundewedstrijd voor middelbare scholieren. Dat succes wordt deels toegeschreven aan zelfvaliderende trainingsmethoden.

Een ander voorbeeld komt uit de medische wereld. Onderzoekers ontwikkelden een systeem voor het opstellen van ontslagplannen in ziekenhuizen, waarbij een Planner-agent een plan genereert en een Auditor-agent dat plan controleert op volledigheid en betrouwbaarheid. Als het plan tekortschiet, wordt het automatisch aangepast. Dit is een vorm van zelfverbetering binnen één taak, maar het illustreert hoe AI-systemen hun eigen output kunnen evalueren en bijsturen.

Wie past het toe en waarvoor?

Hoewel recursive self improvement nog in de kinderschoenen staat, zijn er al concrete toepassingen in ontwikkeling. De meeste daarvan bevinden zich in onderzoeksomgevingen, maar sommige bedrijven experimenteren met commerciële implementaties.

Google DeepMind gebruikt zelfverbeterende technieken voor complexe problemen zoals eiwitvouwing (AlphaFold) en strategische spellen. Meta richt zich op het genereren van synthetische data voor taalmodellen, waardoor die modellen zichzelf kunnen trainen zonder afhankelijk te zijn van menselijk gelabelde datasets. Anthropic werkt aan veiligere AI-systemen die hun eigen gedrag kunnen monitoren en aanpassen.

In de academische wereld wordt RSI onderzocht voor wiskundige bewijzen, codegeneratie en zelfs wetenschappelijk onderzoek. Het idee is dat AI-systemen op termijn hypotheses kunnen formuleren, experimenten kunnen ontwerpen en resultaten kunnen analyseren, allemaal zonder menselijke tussenkomst.

Maar de toepassingen blijven voorlopig beperkt tot gecontroleerde omgevingen. Niemand heeft nog een volledig autonoom zelfverbeterend systeem gebouwd dat in de echte wereld kan opereren. Daarvoor zijn de technische en veiligheidsuitdagingen te groot.

De risico’s: waarom niet iedereen enthousiast is

Recursive self improvement klinkt veelbelovend, maar roept ook ernstige zorgen op. De grootste angst is dat een zelfverbeterend systeem niet meer te controleren valt. Als een AI zichzelf sneller kan verbeteren dan mensen kunnen volgen, hoe weet je dan of het systeem nog steeds doet wat je wilt? En wat als het systeem fouten maakt die het zelf niet herkent, maar wel versterkt door verdere zelfverbetering?

David Scott Krueger van de Universiteit van Montreal noemt het huidige onderzoek naar RSI compleet gestoord en onverantwoordelijk. Hij vindt dat onderzoekers te weinig aandacht besteden aan de maatschappelijke impact van hun werk. Volgens hem wordt RSI behandeld als een abstract wiskundig probleem, terwijl het in werkelijkheid gaat om technologie die de wereld fundamenteel kan veranderen.

Een ander probleem is dat AI-systemen gevoelig zijn voor hallucinaties: ze verzinnen soms feiten of trekken verkeerde conclusies, maar presenteren die met groot zelfvertrouwen. In een zelfverbeterend systeem kan zo’n fout zich vermenigvuldigen. Als de AI zichzelf traint op basis van onjuiste data die ze zelf heeft gegenereerd, wordt het probleem alleen maar erger.

Ook de kwestie van veiligheid speelt een rol. Nick Bostrom, filosoof en auteur van het boek Superintelligence, waarschuwde al in 2014 dat een superintelligent systeem dat via RSI ontstaat, doelen kan nastreven die niet stroken met menselijke waarden. Zelfs als zo’n systeem niet kwaadwillig is, kan het enorme schade aanrichten als het zijn doelen op een onverwachte manier interpreteert.

Waarom gebeurt het toch?

Ondanks de risico’s gaat het onderzoek naar RSI gewoon door. Waarom? Omdat de potentiële voordelen enorm zijn. Een zelfverbeterend AI-systeem zou doorbraken kunnen realiseren op gebieden zoals geneeskunde, klimaatwetenschap en energie. Het zou complexe problemen kunnen oplossen die voor mensen te moeilijk zijn.

Bovendien speelt concurrentie een rol. Bedrijven en landen willen niet achterblijven in de AI-race. Als één partij een werkend RSI-systeem ontwikkelt, heeft die een enorm strategisch voordeel. Dat creëert druk om snel vooruit te gaan, soms ten koste van veiligheid.

Sommige onderzoekers vinden de zorgen overdreven. Mingchen Zhuge van King Abdullah University of Science and Technology, een van de organisatoren van de ICLR-workshop, stelt dat RSI nog in een vroeg stadium verkeert. Volgens hem is het nu belangrijk om verschillende methoden te verkennen en te experimenteren. Veiligheid is belangrijk, zegt hij, maar moet niet ten koste gaan van innovatie.

Wat betekent dit voor de toekomst?

Recursive self improvement staat nog in de kinderschoenen, maar de ontwikkelingen gaan snel. De komende jaren zullen cruciaal zijn. Als onderzoekers erin slagen om veilige, betrouwbare zelfverbeterende systemen te bouwen, kan dat een keerpunt zijn in de geschiedenis van AI. Maar als de veiligheidsrisico’s niet serieus worden genomen, kan het ook misgaan.

Wat nu nodig is, is meer openheid en samenwerking. Bedrijven en academici moeten hun bevindingen delen, zodat de hele gemeenschap kan leren van elkaars successen en fouten. Ook is er behoefte aan duidelijke richtlijnen en regelgeving. Wie is verantwoordelijk als een zelfverbeterend systeem schade aanricht? Hoe test je of zo’n systeem veilig is?

De discussie over RSI gaat niet alleen over technologie, maar ook over de vraag welke toekomst we willen. Willen we AI-systemen die zichzelf kunnen verbeteren zonder menselijke controle? Of moeten we grenzen stellen aan wat AI mag doen? Die vragen zijn niet eenvoudig te beantwoorden, maar ze zijn wel urgent. Want of we het nu leuk vinden of niet, recursive self improvement is geen sciencefiction meer. Het is realiteit.

 

YouTube thumbnailYouTube icon