Z.ai lanceert GLM-5, een taalmodel dat zich richt op complexe systeemtaken en langetermijnplanning voor AI-agenten. Het model markeert een flinke stap vooruit in de ontwikkeling van kunstmatige intelligentie en brengt verschillende technische vernieuwingen met zich mee die het onderscheiden van zijn voorganger.

Wat is GLM-5

GLM-5 is een grootschalig taalmodel ontwikkeld door Z.ai, een Chinees bedrijf dat zich toelegt op het bouwen van geavanceerde AI-systemen. Het model is ontworpen om complexe taken aan te kunnen die meerdere stappen vereisen en waarbij lange contexten een rol spelen. Systeemengineering, uitgebreide codeergerelateerde opdrachten en taken waarbij een AI-agent over langere tijd beslissingen moet nemen.

Het model maakt gebruik van een Mixture of Experts (MoE) architectuur. Dit betekent dat het model uit een groot aantal parameters bestaat, maar dat er per taak slechts een deel actief is. GLM-5 telt in totaal 744 miljard parameters, waarvan er 40 miljard actief zijn tijdens het uitvoeren van een specifieke taak. Deze aanpak zorgt ervoor dat het model krachtig is zonder dat de nodige rekenkracht proportioneel stijgt met het totale aantal parameters.

Z.ai heeft het model getraind op 28,5 biljoen tokens aan data. Dat is een enorme hoeveelheid tekstuele informatie die het model heeft verwerkt om patronen te leren herkennen en te begrijpen hoe taal werkt. Het resultaat is een model dat in staat is om genuanceerde antwoorden te geven, code te schrijven en complexe redeneertaken uit te voeren.

Wie zit er achter Z.ai

Z.ai is het Chinese bedrijf dat verantwoordelijk is voor de ontwikkeling van GLM-5. Het bedrijf heeft eerder al GLM-4 en GLM-4.5 uitgebracht, modellen die binnen de AI-gemeenschap positief werden ontvangen vanwege hun prestaties en toegankelijkheid.

Het bedrijf hanteert een open-source filosofie, wat betekent dat ontwikkelaars en onderzoekers wereldwijd toegang hebben tot het model en het kunnen gebruiken voor hun eigen projecten. Deze aanpak stimuleert innovatie en zorgt ervoor dat de technologie breed beschikbaar is, niet alleen voor grote techbedrijven maar ook voor kleinere organisaties en individuele ontwikkelaars.

Wat maakt GLM-5 beter dan GLM-4.5

De sprong van GLM-4.5 naar GLM-5 is aanzienlijk. Het nieuwe model is op meerdere vlakken verbeterd, zowel qua schaal als qua architectuur en trainingsmethoden.

Schaalvergroting

GLM-5 is flink gegroeid ten opzichte van zijn voorganger. Waar GLM-4.5 355 miljard parameters had met 32 miljard actieve parameters, telt GLM-5 nu 744 miljard parameters met 40 miljard actieve parameters. Deze vergroting zorgt voor een hogere capaciteit om complexe patronen te leren en beter te presteren op uitdagende taken.

Ook de hoeveelheid trainingsdata is toegenomen. GLM-4.5 werd getraind op 23 biljoen tokens, terwijl GLM-5 gebruik maakt van 28,5 biljoen tokens. Meer data betekent dat het model een breder begrip heeft van taal, context en verschillende domeinen waarin het kan opereren.

DeepSeek Sparse Attention

Een van de belangrijkste technische vernieuwingen in GLM-5 is de integratie van DeepSeek Sparse Attention (DSA). Deze techniek zorgt ervoor dat het model efficiënter omgaat met lange contexten. Traditionele attention-mechanismen in taalmodellen worden exponentieel duurder naarmate de context langer wordt. DSA lost dit probleem op door selectief aandacht te geven aan meer relevante delen van de context. Hierdoor heb je minder rekenkracht om lange teksten te verwerken.

Dit heeft twee grote voordelen. Ten eerste kunnen gebruikers langere teksten invoeren zonder dat de kosten of de verwerkingstijd onhoudbaar worden. Ten tweede maakt het lokale deployment van het model toegankelijker, omdat er minder krachtige hardware nodig is om het model te draaien.

Verbeterde prestaties op benchmarks

GLM-5 scoort aanzienlijk beter dan GLM-4.5 op een breed scala aan academische benchmarks. Het model presteert uitstekend op redeneertaken, codering en agentic tasks. Agentic tasks zijn taken waarbij een AI-systeem zelfstandig beslissingen moet nemen over meerdere stappen heen, zoals het uitvoeren van complexe opdrachten in een terminal of het plannen van een reeks acties om een doel te bereiken.

Volgens Z.ai behoort GLM-5 tot de best presterende open-source modellen ter wereld op deze gebieden. Het model sluit de kloof met gesloten, commerciële modellen die tot nu toe als de absolute top golden. Dit is een belangrijke mijlpaal, omdat het laat zien dat open-source AI-ontwikkeling kan concurreren met de grootste frontier modellen.

Nieuwe concepten in de werking van GLM-5

Naast de schaalvergroting en de integratie van DeepSeek Sparse Attention introduceert GLM-5 ook nieuwe methoden op het gebied van post-training en reinforcement learning.

Slime: asynchrone reinforcement learning infrastructuur

Een van de grootste uitdagingen bij het trainen van grote taalmodellen is het efficiënt toepassen van reinforcement learning (RL). RL is een techniek waarbij een model leert door feedback te krijgen op zijn acties. Het is een krachtige manier om een model te verfijnen, maar het is ook rekenintensief en traag.

Z.ai heeft een nieuwe infrastructuur ontwikkeld genaamd slime, die specifiek is ontworpen om RL-training voor grote taalmodellen te versnellen. Slime werkt asynchroon, wat betekent dat verschillende onderdelen van het trainingsproces parallel kunnen draaien zonder op elkaar te hoeven wachten. Dit verhoogt de doorvoer en efficiëntie van het trainingsproces aanzienlijk.

Dankzij slime kan Z.ai meer iteraties uitvoeren tijdens de post-training fase. Dit resulteert in een model dat niet alleen competent is, maar ook excelleert in specifieke taken. Het verschil tussen competentie en excellentie is cruciaal. Een competent model kan een taak uitvoeren, maar een excellent model doet dit op een manier die vergelijkbaar is met of zelfs beter dan menselijke experts.

Focus op complexe systeemtaken

GLM-5 is specifiek ontworpen met complexe systeemengineering en langetermijnplanning in gedachten. Dit betekent dat het model niet alleen goede antwoorden kan geven op losse vragen, maar ook in staat is om over meerdere stappen heen te redeneren en plannen op te stellen.

Een voorbeeld hiervan is het werken met terminals en commandoregelinterfaces. GLM-5 presteert uitstekend op Terminal-Bench 2.0, een benchmark die meet hoe goed een model opdrachten kan uitvoeren in een terminal-omgeving. Dit vereist niet alleen kennis van commando’s, maar ook het vermogen om te begrijpen wat de gebruiker wil bereiken en welke stappen daarvoor nodig zijn.

Verbeterde context-handling

Door de integratie van DeepSeek Sparse Attention kan GLM-5 beter omgaan met lange contexten. Dit is essentieel voor taken waarbij veel informatie moet worden verwerkt, zoals het analyseren van lange documenten, het begrijpen van uitgebreide codebases of het voeren van gesprekken die zich over meerdere onderwerpen uitstrekken.

Traditionele modellen hebben moeite met lange contexten omdat de aandachtsmechanismen die ze gebruiken kwadratisch schalen met de lengte van de input. Dit betekent dat het verwerken van een tekst die twee keer zo lang is, vier keer zoveel rekenkracht kost. DSA doorbreekt dit patroon door selectief te zijn in waar het model aandacht aan besteedt, waardoor lange contexten veel efficiënter verwerkt kunnen worden.

Hoe kan je GLM-5 gebruiken

Z.ai maakt het relatief eenvoudig om met GLM-5 aan de slag te gaan. Er zijn verschillende manieren om het model te gebruiken, afhankelijk van je behoeften en technische mogelijkheden.

Via de API

De snelste manier om GLM-5 te gebruiken is via de API die Z.ai aanbiedt. Je hoeft dan geen eigen infrastructuur op te zetten en kunt direct beginnen met het sturen van verzoeken naar het model. Dit is ideaal voor ontwikkelaars die snel willen experimenteren of die geen toegang hebben tot krachtige hardware.

Lokale deployment

Voor wie meer controle wil of het model in een eigen omgeving wil draaien, ondersteunt Z.ai verschillende deployment-tools. vLLM, SGLang en xLLM zijn allemaal compatibel met GLM-5. Deze tools maken het mogelijk om het model lokaal te draaien, waarbij je volledige controle hebt over de configuratie en de data die je gebruikt.

Z.ai biedt uitgebreide documentatie en Docker-images aan om het deployment-proces te vereenvoudigen. Voor wie met Ascend NPU’s werkt, is er ook specifieke ondersteuning beschikbaar via xLLM.

Open-source toegang

Het model is beschikbaar op Hugging Face, een populair platform voor het delen van AI-modellen. Dit betekent dat onderzoekers en ontwikkelaars het model kunnen downloaden, aanpassen en gebruiken voor hun eigen projecten. De open-source aard van GLM-5 stimuleert innovatie en zorgt ervoor dat de technologie breed toegankelijk is.