De fouten die LLM’s maken bij het “denken”

Large Language Models (LLM’s) lijken soms verbazingwekkend slim. Ze kunnen gedichten schrijven, code genereren en complexe vragen beantwoorden. Maar deze systemen maken systematische fouten bij wat wij “denken” noemen. De wetenschappelijke paper Large Language Model Reasoning Failures brengt deze tekortkomingen in kaart en toont aan dat we nog een lange weg te gaan hebben vooraleer we van echte intelligentie kunnen spreken.

Wat is redeneren eigenlijk?

Vooraleer we kunnen begrijpen waar het misloopt, moeten we eerst duidelijk maken wat redeneren eigenlijk is. Redeneren is het vermogen om logische conclusies te trekken uit beschikbare informatie, abstracte concepten te begrijpen en problemen op te lossen die je nog nooit eerder hebt gezien. Het is wat ons in staat stelt om van alle mensen zijn sterfelijk en Socrates is een mens te concluderen dat Socrates sterfelijk is.

Voor mensen ontwikkelt deze vaardigheid zich geleidelijk. Kinderen leren eerst concreet denken, daarna abstract redeneren en uiteindelijk complexe logische operaties uitvoeren. Bij LLM’s werkt het fundamenteel anders. LLM’s leren patronen herkennen in enorme hoeveelheden tekst, maar dat betekent niet dat ze  begrijpen wat ze doen.

De grote categorieën van denkfouten

Het onderzoek identificeert verschillende hoofdcategorieën waarin LLM’s systematisch falen. Deze fouten zijn niet toevallig of incidenteel. Ze zijn inherent aan de manier waarop deze systemen werken.

Logische redeneerproblemen

Een van de meest fundamentele problemen is dat LLM’s moeite hebben met basis logica. Ze kunnen bijvoorbeeld worstelen met eenvoudige syllogismen of deductieve redenering. Waar een mens moeiteloos kan afleiden dat als A groter is dan B, en B groter is dan C, dan is A groter is dan C, maken LLM’s hier regelmatig fouten in.

Nog problematischer is de reversal curse. Als je een LLM leert dat Tom Cruise getrouwd is met Katie Holmes, betekent dat niet automatisch dat het model ook weet dat Katie Holmes getrouwd is met Tom Cruis”. Voor mensen is dit vanzelfsprekend, maar LLM’s begrijpen de symmetrische relatie niet.

Wiskundige en rekenfouten

Je zou denken dat computers uitblinken in wiskunde, maar LLM’s zijn verrassend slecht in rekenen. Ze kunnen moeite hebben met simpele optellingen, vooral wanneer de getallen groot worden of wanneer er meerdere stappen nodig zijn. Dit komt omdat ze niet  rekenen. Ze voorspellen welke cijfers waarschijnlijk volgen op basis van patronen die ze hebben gezien.

Bij complexere wiskundige problemen wordt het nog erger. LLM’s kunnen de structuur van een wiskundig probleem verkeerd interpreteren, essentiële stappen overslaan, of logische sprongen maken die nergens op slaan. Ze missen het diepe begrip van wiskundige concepten dat nodig is voor betrouwbaar redeneren.

Geheugenbeperkingen

Mensen hebben een werkgeheugen, een mentale kladblok waar we tijdelijk informatie opslaan terwijl we aan een probleem werken. LLM’s hebben iets vergelijkbaars, maar met ernstige beperkingen. Ze kunnen informatie vergeten die eerder in een gesprek werd genoemd, vooral als de conversatie lang wordt.

Dit leidt tot bizarre situaties waarin een LLM zichzelf tegenspreekt, of waarbij het model niet meer weet wat het een paar zinnen eerder heeft gezegd. Het is alsof je een gesprek voert met iemand die constant vergeet wat er net is besproken.

Ruimtelijk en temporeel redeneren

LLM’s hebben grote moeite met het begrijpen van ruimte en tijd. Ze kunnen niet goed inschatten hoe objecten zich in de fysieke wereld tot elkaar verhouden, of hoe gebeurtenissen zich in de tijd ontvouwen. Vraag een LLM om te beschrijven hoe je een kamer moet inrichten, en de kans is groot dat meubels door elkaar heen staan of dat de regels van de fysica wordt geschonden.

Hetzelfde geldt voor tijd. LLM’s begrijpen niet echt wat voor, na of tijdens betekent in een causale zin. Ze kunnen gebeurtenissen in de verkeerde volgorde plaatsen of de tijdsduur van processen volledig verkeerd inschatten.

Causaal redeneren

Misschien wel het meest fundamentele probleem is dat LLM’s geen echt begrip hebben van oorzaak en gevolg. Ze herkennen correlaties, dingen die vaak samen voorkomen, maar dat is iets anders dan begrijpen dat het ene het andere veroorzaakt.

Dit leidt tot absurde conclusies. Een LLM kan bijvoorbeeld suggereren dat ijsverkoop brandwonden veroorzaakt, omdat beide in de zomer toenemen. Het mist het inzicht dat er een onderliggende oorzaak is (warm weer) die beide fenomenen verklaart.

Cognitieve biases

Ironisch genoeg vertonen LLM’s veel van dezelfde denkfouten als mensen zonder het zelfcorrigerend vermogen dat mensen hebben. Ze zijn gevoelig voor framing-effecten (hoe een vraag wordt gesteld beïnvloedt het antwoord), ankerbiases (te veel gewicht toekennen aan de eerste informatie die ze krijgen) en confirmatiebiases (zoeken naar informatie die hun eerste indruk bevestigt).

Het verschil is dat mensen zich bewust kunnen worden van deze biases en erop kunnen letten. LLM’s hebben die metacognitieve vaardigheid niet. Ze kunnen niet nadenken over hun denken.

Waarom maken LLM’s deze fouten?

De onderliggende oorzaak van al deze problemen is dat LLM’s fundamenteel anders werken dan menselijke intelligentie. Ze zijn getraind om patronen te herkennen in tekst en om te voorspellen welk woord waarschijnlijk volgt. Dat is iets heel anders dan begrijpen.

Een LLM heeft geen model van de wereld in zijn hoofd. Het begrijpt niet wat objecten zijn, hoe fysica werkt, of wat causale relaties betekenen. Het heeft alleen statistische associaties tussen woorden geleerd. Dat werkt goed voor veel taken, maar het is geen intelligentie.

Bovendien missen LLM’s grounding, een verankering in de fysieke wereld. Mensen leren concepten door interactie met hun omgeving. We begrijpen wat zwaar betekent omdat we dingen hebben opgetild. We begrijpen warm omdat we het hebben gevoeld. LLM’s hebben alleen tekst. Ze hebben nooit iets ervaren.

Mogelijke oplossingen

De onderzoekers suggereren verschillende benaderingen om deze problemen aan te pakken, hoewel geen enkele een wondermiddel is.

Neurosymbolic AI

Een veelbelovende richting is het combineren van neurale netwerken (zoals LLM’s) met symbolische AI, systemen die werken met expliciete regels en logica. Het idee is dat je het beste van beide werelden combineert. De flexibiliteit en patroonherkenning van neurale netwerken, met de betrouwbare logica van symbolische systemen. Lees meer over neurosymbolic AI.

LLM’s roepen voor logische redeneertaken een apart logisch systeem aan, in plaats van te proberen logica te faken door patroonherkenning.

Betere trainingsdata en -methoden

Een andere benadering is het verbeteren van hoe LLM’s worden getraind. Dit kan inhouden dat je ze expliciet traint op redeneertaken, dat je ze leert hun werk te tonen (chain-of-thought prompting), of dat je ze traint met data die meer nadruk legt op causale relaties en logische structuren.

Sommige onderzoekers experimenteren ook met het geven van LLM’s toegang tot externe tools, zoals rekenmachines voor wiskundige problemen, of databases voor feitelijke informatie. Dit helpt om specifieke zwakheden te compenseren.

Architectuurverbeteringen

Er wordt ook gewerkt aan fundamentele verbeteringen in de architectuur van LLM’s zelf. Dit omvat dingen zoals betere geheugenmodules, mechanismen voor het bijhouden van langetermijncontext, en manieren om meer kennis over de wereld in de modellen in te bouwen.

Sommige onderzoekers kijken naar hoe onze hersenen biologisch werken. Ze proberen aspecten van hoe het menselijk brein werkt na te bootsen in kunstmatige systemen.

De realiteit onder ogen zien

Het is belangrijk om realistisch te blijven over wat LLM’s wel en niet kunnen. Het zijn indrukwekkende tools die nuttig zijn voor veel taken. Maar ze zijn geen algemene intelligentie. Ze denken niet zoals mensen dat doen.

De fouten die ze maken zijn niet toevallig of makkelijk op te lossen. Ze zijn inherent aan hoe deze systemen werken. Dat betekent niet dat we geen vooruitgang kunnen boeken, maar het betekent wel dat we voorzichtig moeten zijn met claims over wat AI kan bereiken.

Voor gebruikers betekent dit dat je kritisch moet blijven. Vertrouw niet blindelings op wat een LLM zegt, vooral niet voor taken die logisch redeneren, wiskundige precisie, of causaal begrip vereisen. Controleer belangrijke informatie altijd, en wees je bewust van de beperkingen.

De weg vooruit

We staan voor een keuze. Blijven we investeren in steeds grotere LLM’s in de hoop dat scale alle problemen oplost? Of erkennen we dat we fundamenteel andere benaderingen nodig hebben voor echte intelligentie?

Het onderzoek suggereert dat het tweede nodig is. Meer van hetzelfde zal sommige problemen verbeteren, maar de fundamentele beperkingen niet oplossen. We hebben nieuwe ideeën nodig, nieuwe architecturen, en misschien wel een fundamenteel andere benadering van kunstmatige intelligentie.