Hoe leert een AI-model iets nieuws in situaties waar geen perfect antwoord voor bestaat? Denk aan het schrijven van een creatief gedicht of het oplossen van een complex wiskundig probleem waar de weg ernaartoe net zo belangrijk is als het antwoord zelf. Modellen kunnen niet simpelweg patronen uit data nabootsen. Ze moeten experimenteren.

Reinforcement Learning (RL) helpt bij het verbeteren van het model door te experimenteren. Het is een methode waarbij een AI leert door te proberen, fouten te maken en beloningen te ontvangen voor goed gedrag. Je kan het vergelijkrn met hoe je een hond kunstjes leert. Beloningen spelen hierin een belangrijke rol.

Enkele belangrijke lessen hierover uit een recent college op Stanford.

De toestand (state) van een taalmodel is volledig verzonnen, en dat is goed

In traditioneel reinforcement learning (van voor het tijdperk van LLM’s) is de toestand (state) gelijk aan de fysieke realiteit. Voor een robotarm is dit de positie, de hoek van de gewrichten van de arm, de snelheid. Deze toestand is bepaald door de wetten van de fysica. De robot kan zich niet zomaar naar de een andere kant van een de kamer teleporteren.

Bij een taalmodel is dit anders. De toestand de prompt plus de reeks woorden (tokens) die het model tot nu toe heeft gegenereerd. Het is een abstracte, zelfgecreëerde realiteit. Dit is een groot verschil. Het model kan zijn eigen kladblok creëren om tot een antwoord te komen. De uitdaging is niet om een bepaalde toestand te bereiken. De uitdaging is om ervoor te zorgen dat de reeks verzonnen woorden op dit mentale kladblok uiteindelijk leidt tot een antwoord dat klopt met de echte wereld. De flexibiliteit is gigantisch, maar het risico op het genereren van wartaal ook.

Soms leert een taalmodel niet van zijn fouten

Stel je voor dat een LLM een complex wiskundig probleem probeert op te lossen. Het krijgt een beloning van ‘1’ voor een perfect antwoord en ‘0’ voor elk fout antwoord. Dit is een klassiek voorbeeld van schaarse beloningen (sparse rewards), waar positieve feedback zeldzaam is.

Het gevolg hiervan is dat als het taalmodel in het begin nog niet goed is, het constant foute antwoorden zal geven en dus geen beloning zal ontvangen. Bij een veelgebruikte leermethode, policy gradient, hangt de aanpassing aan het model af van de ontvangen beloning. Geen beloning betekent dus geen updates van het model.

Dit leidt tot een contra-productieve situatie. Het model maakt continu fouten, maar omdat er geen beloning is, krijgt het geen signaal om zijn gedrag aan te passen. Het model zit vast. De oplossing. Beginnen met makkelijke vragen. Zolang het model in het begin een paar simpele successen boekt en dus een beloning ontvangt, kan het zichzelf langzaam verbeteren en hopelijk generaliseren naar moeilijkere problemen.

Het gaat niet over hoe goed je score is, maar of de score beter is dan verwacht

Het belonen van hoge scores kan een model op het verkeerde pad brengen. Een taalmodel krijgt een makkelijke vraag en geeft een redelijk antwoord en krijgt een score van 9. Daarna krijgt het een extreem moeilijke vraag en geeft een briljant antwoord voor die context maar krijgt maar een score van 2.

De prestatie die 9 opleverde, lijkt veel beter dan die van 2, terwijl die laatste relatief gezien misschien veel indrukwekkender was. Dit vertraagt het leerproces vertragen en maakt het instabiel.

Een baseline instellen brengt een oplossing. In plaats van te kijken naar de absolute beloning, kijkt het model naar het verschil tussen de beloning en een verwachte gemiddelde beloning voor die specifieke situatie. De feedback vraag verandert van “Heb ik een hoge score gekregen?” naar “Heb ik beter of slechter gepresteerd dan verwacht voor deze moeilijkheidsgraad?”. Dit filtert de ruis uit het signaal en zorgt voor een stabielere en meer gerichte feedback, waardoor het model sneller en effectiever leert.

De gevaarlijke verleiding van gedeeltelijke beloningen

Omdat een beloning voor een volledige oplossing vaak niet werkt werken ontwikkelaars vaak met deelpunten (partial credit). Als een LLM een lijst getallen moet sorteren, zorgt een beloning voor een perfecte sortering en geen beloning voor alle andere situaties niet voor een optimale leersituatie.

Een alternatief is om het model deelpunten te geven voor elke juiste stap. Bijvoorbeeld een punt voor elk getal uit de input dat correct wordt gebruikt. Dit helpt de AI op weg, maar er is een kans dat het model leert om het systeem te hacken. Het ontdekt dat het makkelijk veel deelpunten kan scoren door het laaghangend fruit te plukken, zoals simpelweg alle getallen uit de input herhalen, zonder de uiteindelijke, moeilijkere taak van het sorteren uit te voeren. Het model optimaliseert voor de deelpunten, niet voor het einddoel.

Dit illustreert een breder probleem in AI-ontwerp. Het is moeilijk om een beloningsfunctie te maken die niet per ongeluk ongewenst gedrag stimuleert.

De kunst van het belonen

Reinforcement Learning voor taalmodellen is een abstract spel met unieke regels. De realiteit van het model is verzonnen. Het leren van het model kan stilvallen door een gebrek aan feedback. Context is belangrijker dan absolute scores. Beloningen kunnen een bron van problemen zijn.

Het succes van toekomstige, hopelijk slimmere taalmodellen, hangt niet alleen af van meer rekenkracht en data. Het vereist ook een diep begrip van de kunst van het ontwerpen van de juiste beloningstructuren als leerprikkels voor LLM’s.

Nu AI steeds meer taken overneemt is de belangrijkste vraag niet langer of we ze iets kunnen leren, maar of we ze wel het juiste aanleren.

Volg een fantastische les over reinforcement learning op de universiteit van Stanford.