Gated attention voor LLM’s: de volgende stap in artificiële intelligentie?
Enkele jaren geleden werden de basisprincipes van de Transformer-architectuur uitgedachtL Nu duiken onderzoekers dieper in de mechaniek om deze modellen efficiënter, slimmer en stabieler te maken. Een van de meest recente en veelbelovende doorbraken op dit gebied is Gated Attention. Het team van Alibaba Qwen heeft met deze techniek de prestigieuze Best Paper Award gewonnen op NeurIPS 2025.
Wat is Gated Attention precies?
Om Gated Attention te begrijpen, moeten we eerst kijken naar de basis van moderne LLM’s, het attention mechanism (aandachtsmechanisme). In de klassieke “Attention Is All You Need” architectuur berekent het model relaties tussen woorden (tokens) door middel van een mechanisme dat Scaled Dot-Product Attention (SDPA) heet. Simpel gezegd: elk woord kijkt naar elk ander woord in de zin om context te bepalen. Dit werkt fantastisch, maar heeft nadelen, vooral op het gebied van rekenkracht en stabiliteit bij lange teksten.
De “Noise-Canceling” hoofdtelefoon voor AI
Het onderzoeksteam van Alibaba Qwen stelde een elegante maar krachtige wijziging voor. Ze voegden een zogenaamde gating mechanism toe aan de standaard aandachtslagen. Je kunt dit vergelijken met een intelligente noise-canceling hoofdtelefoon voor het model.
In plaats van alle informatie uit de aandachtslaag zomaar door te laten, introduceert Gated Attention een extra stap: een sigmoid gate. Deze poort (gate) bepaalt hoeveel van de berekende aandacht daadwerkelijk wordt doorgegeven aan de volgende laag. Het filtert als het ware irrelevante informatie weg en versterkt de signalen die er echt toe doen. Technisch gezien introduceert dit twee belangrijke factoren:
- Non-lineariteit: Het maakt de verwerking van informatie complexer en rijker dan simpele lineaire verbanden.
- Sparsity (Schaarste): Het zorgt ervoor dat het model selectiever is in wat het onthoudt en gebruikt, wat cruciaal is voor efficiëntie.
Gated DeltaNet: De lineaire revolutie
Het verhaal stopt niet bij het verbeteren van de standaard Transformer. Een belangrijk onderdeel van de recente ontwikkelingen, zoals te zien in het Qwen3-Next model, is de combinatie van Gated Attention met Gated DeltaNet. Dit is een variant van lineaire aandacht.
Standaard aandacht schaalt kwadratisch. Als je de lengte van de tekst verdubbelt, wordt het rekenwerk vier keer zo zwaar. Gated DeltaNet schaalt lineair. Het werkt meer als een Recurrent Neural Network (RNN). Het houdt een geheugenstatus bij die wordt bijgewerkt met elk nieuw woord, in plaats van steeds terug te kijken naar alle vorige woorden. Dit maakt het model extreem efficiënt in geheugengebruik, vooral bij zeer lange teksten.
Hoe is het getest?
De paper “Gated Attention for Large Language Models“, is niet gebaseerd op kleinschalige experimenten. Het team van Alibaba heeft een indrukwekkende reeks tests uitgevoerd om de effectiviteit van hun vinding te bewijzen.
De schaal van het experiment
De onderzoekers hebben niet minder dan 30 verschillende varianten van modellen getraind en vergeleken. Dit omvatte:
- 15B Mixture-of-Experts (MoE) modellen: Dit zijn geavanceerde architecturen die verschillende “experts” binnen het model activeren afhankelijk van de taak.
- 1.7B dense modellen: Kleinere, compacte modellen om de basiseffectiviteit te meten.
Het meest indrukwekkende is de dataset waarop deze modellen zijn getraind: maar liefst 3,5 biljoen (trillion) tokens. Dit is een hoeveelheid data die representatief is voor de training van de huidige state-of-the-art modellen zoals GPT-4 of Claude 3. Door op deze schaal te testen, konden de onderzoekers met zekerheid zeggen dat hun bevindingen niet toevallig waren, maar fundamentele verbeteringen in de architectuur vertegenwoordigen.
Vergelijking met de standaard
De focus van de tests lag op het vergelijken van de nieuwe Gated Attention varianten met de standaard Multi-Head Attention (MHA) en andere efficiënte varianten zoals Grouped-Query Attention (GQA). Er werd gekeken naar metrieken zoals perplexity (hoe goed voorspelt het model het volgende woord?), trainingsstabiliteit en de mogelijkheid om te leren met hogere learning rates.
Wat zijn de conclusies?
De resultaten van dit uitgebreide onderzoek zijn veelbelovend en hebben directe gevolgen voor hoe toekomstige AI-modellen gebouwd zullen worden. Hier zijn de belangrijkste conclusies die we kunnen trekken uit het onderzoek en de implementatie in modellen zoals Qwen3-Next en Kimi Linear.
Oplossing voor het Attention Sink probleem
Een bekend fenomeen bij standaard Transformers is de attention sink. Modellen hebben de neiging om onevenredig veel aandacht te besteden aan de allereerste tokens van een zin, zelfs als die weinig betekenis hebben (zoals een start-token). Ze gebruiken dit als safe haven voor hun aandacht.
Gated Attention lost dit op. Door de output gating kan het model de aandacht voor irrelevante tokens effectief naar nul reduceren. Dit zorgt voor een veel natuurlijkere verdeling van aandacht en voorkomt dat het model lui wordt door zich vast te klampen aan de start van de zin. Dit verbetert direct de prestaties bij taken die logisch redeneren vereisen.
Superieure trainingsstabiliteit
Het trainen van gigantische modellen is vaak een evenwichtsoefening. Als de parameters te wild fluctueren, stort het leerproces in (divergentie). Uit de tests bleek dat modellen met Gated Attention veel stabieler zijn. Ze tolereren grotere learning rates, wat betekent dat ze potentieel sneller kunnen leren zonder instabiel te worden. Dit is cruciaal voor bedrijven die miljoenen euro’s uitgeven aan compute-tijd.
Hybride architecturen zijn de toekomst
Misschien wel de meest interessante conclusie voor de industrie is de validatie van hybride architecturen. Het model Qwen3-Next gebruikt een combinatie van Gated Attention (voor de kwaliteit) en Gated DeltaNet (voor de efficiëntie) in een verhouding van ongeveer 1 op 3.
Dit betekent dat voor elke laag die volledige aandacht gebruikt, er drie lagen zijn die de efficiëntere lineaire aandacht gebruiken. Het resultaat? Een model dat de context van duizenden pagina’s tekst kan onthouden zonder dat het geheugen van de grafische kaart (GPU) volloopt, terwijl de kwaliteit van de antwoorden op het niveau blijft van de beste modellen op de markt.
Betere prestaties op lange context
Dankzij de data-dependent decay (het selectief vergeten van oude informatie) in de Gated DeltaNet modules, kunnen deze modellen veel beter omgaan met lange contexten. Waar een standaard model misschien de draad kwijtraakt na 10.000 woorden, blijven modellen met deze nieuwe architectuur gefocust. Dit is essentieel voor toepassingen in de juridische sector, medische analyse of het programmeren met grote codebases.
Het tijdperk van brute force AI maakt langzaam plaats voor slimmere, selectievere en efficiëntere architecturen zoals Gated Attention. En dat is precies wat we nodig hebben om artificiële intelligentie duurzaam en schaalbaar te maken.