Je bent aan chatten met een AI-assistent. Je legt jouw context en specifieke noden uit. 5 minuten is de bot compleet vergeten waarover het ging. Frustrerend? Het is alsof je praat met iemand die regelmatig een reset krijgt, zoals in Groundhog Day, Edge of Tomorrow en The 50 First Dates. De consequentie van stateless modellen. Er is hoop. LLM’s krijgen een olifantengeheugen.
Waarom is geheugen belangrijk voor AI?
Een AI zonder geheugen is eigenlijk een geavanceerde zoekmachine die goed kan babbelen. Zonder de capaciteit om informatie vast te houden, blijft elke interactie een blank slate. Voor simpele vraag-antwoord spelletjes is dat prima. Maar als we willen evolueren naar Cognitieve Agenten, systemen die kunnen redeneren, plannen en ons kunnen assisteren, dan is geheugen onmisbaar.
Het belang van geheugen voor LLM’s kan worden samengevat in drie punten:
- Context en continuïteit: in een menselijk gesprek verwijzen we constant terug naar wat er eerder is gezegd. Zonder geheugen moet je jezelf constant herhalen. Geheugen zorgt voor een natuurlijke flow.
- Personalisatie: een AI die onthoudt dat je liever Python-code hebt, dan JavaScript wordt plots een waardevollere partner.
- Complex redeneren: voor ingewikkelde taken moet een AI stappenplannen kunnen onthouden, tussenresultaten opslaan en leren uit fouten uit het verleden.
Geheugen transformeert een chatbot van een reactieve tool naar een proactieve assistent.
De anatomie van AI-geheugen, welke soorten zijn er?
Net zoals ons eigen brein niet één grote vergaarbak is, bestaat het geheugen van een geavanceerde AI-agent ook uit verschillende componenten. Geïnspireerd door de cognitieve psychologie en recente frameworks zoals LangChain en MMAG (Mixed Memory-Augmented Generation), kunnen we het geheugen opdelen in specifieke lagen. Elk type geheugen heeft een ander doel.
Korte termijn geheugen (Working Memory)
Dit is wat we kennen als de context window van een LLM. Vergelijk het met jouw eigen werkgeheugen wanneer je een telefoonnummer probeert te onthouden, net lang genoeg om het in te tikken. In AI-termen slaat dit geheugen de huidige conversatie op.
Het probleem met traditionele LLM’s is dat dit context venster beperkt is, hoewel recente frontier modellen dit enorm aan het uitbreiden zijn. Zodra de sessie stopt, of de context vol zit, is de informatie weg. In frameworks zoals LangChain wordt dit vaak impliciet afgehandeld door de executie-loop, die relevante context doorgeeft tussen stappen en tools.
Lange termijn geheugen (Long-term Memory)
Lange termijn geheugen stelt een AI in staat om informatie op te slaan en terug te halen over verschillende sessies heen. Dit wordt vaak technisch opgelost met vector databases zoals MongoDB of Pinecone.
Het idee is simpel: de AI zet tekst om in vectoren. Dit is een reeksen getallen die de betekenis representeren (embeddings). Wanneer je een vraag stelt, zoekt de AI in zijn database naar vectoren die qua betekenis, semantisch lijken op jouw vraag. Zo kan een AI-agent putten uit een gigantische bibliotheek van kennis zonder dat die allemaal in het korte termijn geheugen moeten zitten en zonder dat dezelfde woorden gebruikt worden.
Episodisch Geheugen
Dit is het geheugen voor ervaringen. Voor een mens is dit, weet je nog dat we vorige week op café zaten en over de match Antwerp-Beerschot spraken?. Voor een AI betekent dit het onthouden van specifieke interacties uit het verleden.
Episodisch geheugen stelt de agent in staat om continuïteit te bewaren. Als je vorige week vroeg om een samenvatting van een paper over Prompt Compression, en je vraagt vandaag heb je nog meer info over dat onderwerp, dan weet de AI dankzij episodisch geheugen precies waarover je het hebt. Dit wordt vaak geïmplementeerd met RAG (Retrieval-Augmented Generation) systemen die oude chatlogs doorzoeken.
Semantisch Geheugen
Dit gaat over feiten en algemene kennis. Een driehoek heeft drie zijden of Brussel is de hoofdstad van België. In AI-systemen is dit vaak een combinatie van de kennis die in het model is ingebakken tijdens de training en externe kennisbanken (Knowledge Graphs) die gestructureerde relaties tussen data bevatten.
Procedureel Geheugen
Dit is misschien wel het meest onderschatte geheugentype. Procedureel geheugen gaat niet over wat de AI weet, maar over hoe hij iets moet doen. In AI-agenten wordt dit vaak vertaald naar de instructies en tools die ze kunnen gebruiken.
Je leert bijvoorbeeld aan jouw AI-agent dat hij bij het samenvatten van een tekst altijd eerst de bron moet checken. Als de agent dit opslaat en in de toekomst automatisch toepast, spreken we van procedureel geheugen. Het is de evolutie van gedrag op basis van feedback.
Sensorisch en contextueel geheugen
Volgens recente inzichten uit de MMAG-paper is er nog een laag nodig, context. Mensen passen hun taalgebruik aan op basis van waar ze zijn, het weer, of het tijdstip. Een AI die weet dat het maandagochtend is en dat je in de file staat (via locatie-data), kan zijn toon iets vriendelijker aanpassen. Dit type geheugen integreert signalen uit de omgeving om de interactie te aarden.
Titans en MIRAS
Nu we weten welke soorten geheugen er zijn, moeten we kijken naar hoe de technologie evolueert. De huidige methode van alles in de context window proppen of zoeken in een database heeft zijn limieten. Het wordt traag en duur.
Onderzoekers bij Google zijn op de proppen gekomen met de Titans-architectuur en het MIRAS-framework.
Het probleem met Transformers
De huidige generatie modellen transformers gebruikt een attention mechanisme. Ze kijken terug naar eerdere woorden om de context te begrijpen. De rekenkracht die nodig is, stijgt logaritmisch met de lengte van de tekst. Een boek van 500 pagina’s in één keer verwerken kost veel rekenkracht.
Andere modellen zoals Recurrent Neural Networks (RNN’s) zijn sneller omdat ze context comprimeren tot een vaste grootte. Probeer maar eens de inhoud van een hele encyclopedie in één klein doosje te proppen. Je verliest gegarandeerd details.
Titans, het beste van twee werelden
Titans combineert de snelheid van RNN’s met de nauwkeurigheid van Transformers door een neuraal lange termijn geheugen te introduceren. In plaats van data passief op te slaan in een database, leert het model tijdens de werking.
Het kernconcept hier is de Surprise Metric. Denk eens na over jouw eigen geheugen. Je herinnert je waarschijnlijk niet elke seconde van jouw rit naar het werk vanmorgen. Dat is routine. Maar als er plots een olifant de weg overstak, dan weet je dat nog haarscherp. Waarom? Omdat het onverwacht was.
Titans doet hetzelfde. Het meet het verschil tussen wat het verwachtte en wat de nieuwe data vertelt. Is het verschil groot? Dan zegt het model, momentje, dit is belangrijk en onverwacht. Dit moet ik opslaan in mijn diepe geheugen. Hierdoor leert het model actief en onthoudt het de cruciale zaken, zonder dat het offline moet gaan om opnieuw getraind te worden. Dit noemen we test-time memorization.
MIRAS
MIRAS is het theoretische kader achter Titans. Alle grote doorbraken in sequentie-modellering draaien om hetzelfde, een complex associatief geheugen. MIRAS stapt af van de klassieke wiskundige benaderingen (zoals Mean Squared Error) die gevoelig zijn voor uitschieters. Het kiest voor een meer robuuste aanpak. Het resultaat? Modellen die contexten van meer dan 2 miljoen tokens aankunnen en beter presteren op taken die extreem lang geheugen vereisen.
De cognitive loop, hoe een AI denkt en onthoudt
Om dit alles in de praktijk te brengen, moeten we begrijpen wat er onder de motorkap gebeurt bij een moderne AI-agent. Het is niet zomaar input en output. Het is een cyclus, vergelijkbaar met hoe wij mensen handelen.
- Perceptie: De AI ontvangt uw input. Dit kan tekst zijn, maar ook een PDF of een afbeelding zijn die wordt omgezet in bruikbare data.
- Geheugen ophalen: Voordat de AI antwoordt, raadpleegt hij zijn geheugen. Hebben we hier al eerder over gesproken? (Episodisch). Wat weet ik over dit onderwerp? (Semantisch/Long-term).
- Redeneren (reasoning loop): De AI denkt na. Hij voert de actie uit, bekijkt het resultaat en denkt dan verder.
- Actie (motor functions): De AI gebruikt externe tools (API’s) om iets te doen, zoals een e-mail sturen of een bestand updaten.
- Geheugen Update: Na de interactie wordt de nieuwe informatie opgeslagen. De cirkel is rond.
In de praktijk, zoals bij het bouwen van een onderzoeksassistent met LangChain, betekent dit dat we expliciet moeten programmeren hoe de AI zijn brein gebruikt. We koppelen een LLM aan een vector store en geven de agent instructies (system prompts) over hoe hij die kennis moet gebruiken.
Van chatbot naar partner
We stappen af van de goudvis-AI. De modellen van 2026 en daarna zullen ons kennen. Ze zullen weten dat we in Vlaanderen wonen en dus frietkot zeggen in plaats van patatzaak. Ze zullen onthouden dat we vorige maand bezig waren met een project over duurzame energie en zullen proactief nieuwe artikels suggereren die daarbij aansluiten.
Met architecturen zoals Titans die in staat zijn om miljoenen tokens aan context te verwerken en actief te leren terwijl ze draaien, komen we dichter bij Artificial General Intelligence (AGI) dan ooit tevoren. Maar dit brengt ook uitdagingen met zich mee.
Privacy en ethiek
Als een AI alles onthoudt, waar blijft onze privacy dan? In de MMAG-paper wordt terecht gewezen op het belang van versleutelde gebruikersprofielen en selectief vergeten. Gebruikers moeten de controle hebben. Je moet kunnen zeggen, vergeet dat ik dat gezegd heb. Zeker in Europa, met onze strikte GDPR-regels, zal de implementatie van dit soort diepgaand geheugen een uitdaging zijn.
Daarnaast is er het risico op hallucinaties die blijven hangen. Als een AI iets fouts leert en dat opslaat in zijn lange termijn geheugen, kan die fout zich blijven herhalen. Systemen voor conflictresolutie en prioritisering. Moet de AI de recente conversatie voorrang geven, of zijn opgeslagen kennis over uw voorkeuren?
Conclusie
Het geheugen is de sleutel tot de volgende generatie AI. Of het nu gaat om de slimme architectuur van Titans die leert van verrassingen, of de gestructureerde lagen van MMAG die menselijke cognitie nabootsen. We gaan naar een wereld waarin AI niet alleen verwerkt, maar ook begrijpt en onthoudt.
Stop met het bouwen van stateless chatbots. Begin met het integreren van vector databases, experimenteer met frameworks zoals LangChain en hou de ontwikkelingen rond neurale geheugenmodules in de gaten.