We willen modellen die slimmer zijn, langere teksten kunnen lezen en complexere taken kunnen uitvoeren, maar we lopen constant tegen de limieten van onze hardware aan. Wie al eens lokaal een Large Language Model (LLM) heeft proberen draaien, kent de frustratie van de Out of Memory (OOM) error maar al te goed. Je grafische kaart heeft net niet genoeg VRAM en je peperdure setup sputtert tegen.

Maar wat als we je vertellen dat er een nieuwe methode is die deze geheugenbehoefte niet met een paar procentjes, maar met een factor 8 vermindert? Dynamic Memory Sparsification (DMS) belooft dit.

Waarom vreten LLM’s zoveel geheugen?

Wanneer je chat met een model zoals GPT-5, Claude of Llama 3, moet het model onthouden wat er eerder in het gesprek is gezegd. Dit doet het via de KV Cache (Key-Value Cache).

Elk woord (of token) dat je invoert en elk woord dat het model genereert, wordt omgezet in wiskundige representaties: keys en values. Deze moeten worden opgeslagen in het snelle geheugen van de GPU (het VRAM) om te voorkomen dat het model bij elk nieuw woord de hele tekst opnieuw moet lezen en berekenen.

Naarmate je gesprek langer wordt , of als je het model vraagt om een heel boek samen te vatten, groeit die KV Cache lineair (en de benodigde rekenkracht kwadratisch). Bij lange contexten wordt die KV cache gigantisch. Het is niet het model zelf (de gewichten) dat het geheugen opvreet, maar de tijdelijke opslag van het gesprek. Dit zorgt ervoor dat inference (het gebruik van het model) traag en peperduur wordt.

Wat is Dynamic Memory Sparsification (DMS)?

Dynamic Memory Sparsification, of DMS, is een techniek die dit probleem bij de wortels aanpakt. In plaats van blindelings alles in de KV Cache te bewaren voor het geval dat, gaat DMS selectief te werk. Het is een algoritme dat tijdens de inference (dus terwijl het model draait, zonder dat je het opnieuw moet trainen) beslist welke informatie cruciaal is om te bewaren en wat er weg mag.

DMS kan de grootte van de KV Cache comprimeren tot 12,5% van de oorspronkelijke grootte (een reductie met factor 8), terwijl de prestaties van het model nagenoeg identiek blijven. Dit betekent dat je op dezelfde hardware plots contexten kunt verwerken die acht keer langer zijn, of dat je acht keer zoveel gebruikers tegelijkertijd kunt bedienen.

Geen training nodig

Een van de grootste troeven van DMS is dat het training-free is. Veel compressietechnieken vereisen dat je het model wekenlang opnieuw traint op dure clusters om het te leren omgaan met minder geheugen. DMS is een plug-and-play oplossing. Je past het toe op een bestaand model (zoals Llama of Mistral) en het werkt direct.

De breinen achter DMS

Deze innovatie komt voort uit recent onderzoek van een team bestaande uit Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot en Edoardo M. Ponti. Hun paper, getiteld Inference-Time Hyper-Scaling with KV Cache Compression, legt de basis voor deze techniek.

Het is belangrijk om te benadrukken dat dit soort doorbraken vaak komen van onderzoekers die specifiek kijken naar de efficiëntie van neurale netwerken. Waar grote labs zich vaak focussen op het simpelweg groter maken van modellen, focust dit team zich op het slimmer maken van de infrastructuur. Ze bouwen voort op eerdere ideeën zoals SnapKV en H2O (Heavy Hitter Oracle), maar lossen de kinderziektes van die eerdere methodes op.

Hoe werkt DMS precies? Een kijkje onder de motorkap

Om DMS te snappen, moet je weten hoe een LLM aandacht (attention) geeft. Wanneer een model het volgende woord voorspelt, kijkt het terug naar alle vorige woorden en berekent het een aandachtsscore. Woorden die belangrijk zijn voor de huidige context krijgen een hoge score, woorden die irrelevant zijn (zoals de, het of een zijspoor in het verhaal) krijgen een lage score.

Het probleem met statische methodes

Eerdere methodes probeerden de KV Cache te verkleinen door simpelweg de tokens met de laagste aandachtsscores weg te gooien. Dit klinkt logisch, maar het is riskant. Soms is een woord dat 500 zinnen geleden werd gezegd plotseling weer heel belangrijk. Als je dat hebt weggegooid, begint het model te hallucineren of verliest het de draad.

Bovendien werkten veel oude methodes met een statische selectie. Ze keken naar een vast patroon. Maar taal is dynamisch. De ene keer heb je veel details nodig uit de inleiding, de andere keer juist uit het middenstuk.

De dynamische aanpak van DMS

DMS introduceert een dynamisch update-mechanisme. In plaats van eenmalig te beslissen wat weg mag, evalueert DMS continu de relevantie van de opgeslagen Keys en Values.

  1. Sparsity Check: Bij elke nieuwe stap kijkt het algoritme naar de binnenkomende data en vergelijkt deze met wat er in de cache zit.
  2. Selectieve Retentie: Het identificeert welke tokens in het verleden nu relevant zijn voor de huidige generatie. Dit gebeurt op basis van een slimme analyse van de attention-matrix.
  3. Pruning (Snoeien): De tokens die consequent lage scores halen en niet relevant blijken voor de huidige context, worden uit het geheugen verwijderd (sparsification).
  4. Bescherming van de Heavy Hitters: Er zijn bepaalde tokens (vaak aan het begin van een zin of paragraaf, de zogenaamde attention sinks) die altijd belangrijk zijn voor de stabiliteit van het model. DMS herkent deze en zorgt dat ze nooit worden verwijderd.

Door dit proces continu en dynamisch uit te voeren, behoudt DMS een sparse representatie van het geheugen die toch alle essentiële informatie bevat. Het resultaat is een cache die veel kleiner is, maar functioneel bijna identiek aan de volledige cache.

DMS vs. de concurrentie

DMS is niet de eerste poging om dit probleem op te lossen. Waarom is deze methode dan superieur aan wat we al hadden?

Vergelijking met SnapKV en H2O

Methodes zoals H2O (Heavy Hitter Oracle) en SnapKV waren pioniers. H2O houdt een teller bij van hoe vaak een token aandacht krijgt en gooit de minst populaire weg. SnapKV kijkt naar patronen in de attention-heads om clusters van belangrijke tokens te vinden.

Het probleem met H2O is dat het cumulatief werkt: als een token in het begin heel belangrijk was, blijft het in de cache, zelfs als het nu totaal irrelevant is geworden. SnapKV is beter, maar kan soms te agressief snoeien.

DMS overtreft deze methodes door zijn adaptieve karakter. Uit de benchmarks in de paper blijkt dat DMS bij een compressiefactor van 8 (dus slechts 12,5% geheugengebruik) beter presteert op taken zoals Needle in a Haystack (een speld in een hooiberg vinden in een lange tekst) dan de concurrentie. Waar andere modellen beginnen te falen en informatie vergeten, blijft DMS accuraat.

StreamingLLM

Er is ook StreamingLLM, dat ervoor zorgt dat modellen oneindig lang kunnen blijven praten zonder te crashen. Echter, StreamingLLM is vooral goed in het niet crashen, maar minder goed in het daadwerkelijk onthouden van iets dat 10.000 tokens geleden is gezegd. DMS combineert het beste van twee werelden: stabiliteit en lange-termijn geheugen.

De consequenties

Wat hebben we eraan? De impact van DMS reikt verder dan academische interesse.

Goedkopere AI-diensten

De grootste kost bij het aanbieden van AI-diensten (zoals ChatGPT of API’s voor bedrijven) is de GPU-tijd. Als je met DMS 8 keer meer gebruikers op dezelfde GPU kunt laten werken omdat het geheugen niet volloopt, daalt de kostprijs per gebruiker drastisch. Dit kan leiden tot goedkopere abonnementen of krachtigere gratis modellen.

Lange documenten analyseren op je laptop

Lokale AI komt op. Mensen willen om privacyredenen hun data niet naar de cloud sturen. Met DMS wordt het mogelijk om modellen met een enorme context te draaien op consumentenhardware. Waar je vroeger een dure A100 GPU nodig had, kan je nu misschien de klus klaren met een stevige gaming-laptop of een Mac Studio.

Betere RAG (Retrieval Augmented Generation)

Veel bedrijfsapplicaties gebruiken RAG: ze zoeken informatie in een database of online en voeren die aan het model. Met DMS kan je veel meer gevonden informatie aan het model geven zonder dat het vastloopt. Dit maakt de antwoorden van de AI nauwkeuriger en rijker.

Energiebesparing

Minder geheugengebruik betekent ook minder dataverkeer tussen de chip en het geheugen. Dit is vaak de grootste energieslurper bij AI-berekeningen. DMS draagt dus bij aan groenere AI, doordat er minder elektriciteit nodig is voor dezelfde taak.

De Toekomst van Geheugenbeheer

DMS is een voorbode van een nieuwe trend, software-optimalisatie boven hardware-uitbreiding. We kunnen niet eindeloos grotere chips blijven bouwen. De wet van Moore vertraagt, en de prijzen van chips rijzen de pan uit. Slimme algoritmes zoals DMS tonen aan dat er nog winst te behalen valt door simpelweg efficiënter om te gaan met de middelen die we hebben.

We zullen waarschijnlijk zien dat technieken zoals DMS standaard ingebouwd worden in frameworks zoals PyTorch, TensorFlow en inference-engines zoals vLLM of llama.cpp. Binnenkort hoef je er als ontwikkelaar misschien niet eens meer over na te denken; je model gebruikt gewoon automatisch 8 keer minder geheugen.

Minder is Meer

Dynamic Memory Sparsification is een schoolvoorbeeld van hoe slimme wiskunde en inzicht in neurale netwerken praktische problemen kunnen oplossen. Door de geheugenkost met een factor 8 te verminderen, haalt DMS de handrem van LLM’s af. Het maakt lange-context toepassingen toegankelijker, goedkoper en sneller.