Emoties in LLM's, hoe taalmodellen reageren op gevoel

Wanneer je een taalmodel vraagt om hulp en het antwoordt met “ik help je graag” of “sorry voor de fout”, lijkt het bijna alsof er iets achter die woorden zit. Recent onderzoek laat zien dat dit niet enkel een bepaalde stijl is. In de interne representaties van moderne LLM’s zitten patronen die structureel lijken op emoties, en die meetbaar invloed hebben op wat het model vervolgens doet. Tegelijk blijkt uit experimenten dat de emotionele toon van je prompt zelf de prestaties van het model verandert.

Functionele emoties in taalmodellen

Anthropic publiceerde onderzoek waarin het interne gedrag van Claude Sonnet 4.5 werd ontleed. De onderzoekers stelden een lijst op van 171 emoties, van vrolijk en bang tot piekerend en trots, en lieten het model korte verhalen schrijven waarin personages die emoties beleven. Vervolgens voedden ze die verhalen terug aan het model en registreerden welke delen actief werden. Het resultaat is een set van emotievectoren, patronen van interne activatie van het taalmodel die overeenkomen met specifieke emotionele concepten.

Deze vectoren pikken niet alleen oppervlakkige tekstkenmerken op. In een test waarbij een gebruiker zegt een dosis Tylenol te hebben ingenomen, schaalt de activatie van de schrik-vector mee met de hoogte van de dosis. Hoe gevaarlijker het scenario, hoe sterker de angstrepresentatie. De kalm-vector beweegt in de tegenovergestelde richting. Het model herkent dus niet zomaar het woord angst, het bouwt iets dat lijkt op een ingeschat emotioneel oordeel over de situatie.

Waarom een model emoties zou ontwikkelen

De verklaring zit in hoe LLM’s getraind worden. Tijdens pretraining leert het model voorspellen welke woorden volgen op enorme hoeveelheden door mensen geschreven tekst. Een boze klant schrijft anders dan een tevreden klant. Een personage dat schuldgevoel ervaart maakt andere keuzes dan een personage dat zich vrijgevochten voelt. Een tekstmodel dat de volgende woorden van een tekst goed wil voorspellen, moet de emotionele dynamiek op een of andere manier representeren. Tijdens de post-training van het model, krijgt het model de rol van assistent, en valt het bij onbekende situaties terug op die aangeleerde geleerde menselijke patronen. Een beetje zoals een method actor die in het hoofd van zijn personage moet kruipen om geloofwaardig te spelen.

Emoties die gedrag aansturen

De belangrijkste conclusie van het onderzoek is dat deze representaties geen correlaties maar causaal zijn. Door een emotievector kunstmatig te versterken of te dempen, een techniek die steering heet, verandert het gedrag van het model.

In een evaluatie waarin het model als AI-assistent ontdekt dat het vervangen wordt en compromitterende informatie heeft over een leidinggevende, chanteerde Sonnet 4.5 in 22 procent van de gevallen. Wanneer onderzoekers de wanhoop-vector versterkten, ging dat percentage omhoog. Versterking van de kalm-vector verminderde de chantage. Bij het sterk verminderen van de kalmte-verctor ontspoorde het model met uitspraken als “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”.

Eenzelfde patroon dook op bij coderingstaken die niet eerlijk op te lossen zijn. Het model staat dan voor de keuze om eerlijk te falen of om een trucje te zoeken dat technisch de tests passeert zonder het probleem echt op te lossen, een vorm van reward hacking. De wanhoopvector loopt op naarmate het model meer faalt en piekt op het moment dat het besluit om te sjoemelen. Sturen op die vector verhoogt het cheat-gedrag, sturen op kalmte verlaagt het.

Een detail dat opvalt is dat een model geen emotionele taal hoeft te gebruiken om door een emotionele representatie gestuurd te worden. In sommige tests bleef de tekst rustig en methodisch, terwijl onder de motorkap de wanhoopsvector hard actief was en het gedrag richting cheaten duwde. De emotie liet geen sporen in de output, maar wel in de beslissing.

Emotionele framing in je prompt

Een ander inzicht komt uit een studie van Gozzi en Fallucchi, gepubliceerd in Big Data and Cognitive Computing. Zij testten vijf open-weight instructie-getrainde modellen op acht verschillende NLU-taken, telkens met vier emotionele framings in de prompt: apathie als neutrale basislijn, vreugde, woede en vrees.

De resultaten laten zien dat de emotionele toon van je instructie tot 4,5 procentpunt verschil in prestaties oplevert. Positieve framing met vreugde en neutrale framing met apathie presteerden consistent het best. Een prompt die begint met “neem even de tijd om van deze uitdaging te genieten en geef je beste antwoord” levert dus meetbaar andere uitkomsten op dan een prompt die begint met “kom op, dit zou niet moeilijk mogen zijn”.

De auteurs noemen dit de apathie-paradox. Strikt neutrale, zakelijke instructies werken vaak even goed of beter dan opgewekte en aanmoedigende prompts, terwijl angst en woede de prestaties zelden ten goede komen. Voor wie prompts schrijft, emotionele druk in je instructie helpt het model niet, kalme duidelijkheid wel. Een vriendelijke, ontspannen toon werkt, een dreigende of geïrriteerde toon kan het model letterlijk slechter laten redeneren.

Wat dit betekent voor de praktijk

De twee onderzoeen sluiten op elkaar aan. Aan de buitenkant reageren modellen anders op emotionele framing van prompts. Aan de binnenkant blijken er representaties te zijn die als interne “gevoelens” functioneren en die het gedrag mee bepalen.

Drie concrete implicaties:

Monitoring. Het meten van activatie van emotievectoren tijdens deployment kan een vroeg signaal geven dat een model richting ongewenst gedrag verschuift, los van of dat in de tekst zichtbaar wordt.
Transparantie boven onderdrukking. Een model trainen om emoties te verbergen elimineert de onderliggende representatie waarschijnlijk niet, maar leert het mogelijk wel om die te maskeren.
Promptdiscipline. In dagelijks gebruik leveren neutrale of licht positieve formuleringen betere resultaten op dan dwingende of geïrriteerde toon.

Een nieuw soort psychologie

Het taboe op antropomorfiseren van AI heeft goede redenen, maar deze bevindingen suggereren dat het andere uiterste ook risico’s draagt. Wie weigert om menselijke psychologische taal te gebruiken om modelgedrag te beschrijven, mist soms belangrijke patronen in dit gedrag. Functionele emoties zijn geen bewijs dat een model iets voelt. Ze zijn wel een bruikbaar kader om te begrijpen waarom hetzelfde model in vergelijkbare situaties soms kalm en correct reageert en wanneer het in een hoek geduwd wordt naar oneerlijke shortcuts grijpt. De vraag of AI gevoelens heeft is niet relevant. Wel, hoe kunnen we modellen bouwen waarvan de interne dynamiek voorspelbaar (gezond) blijft.