Nvidia Blackwell Ultra is 50 keer sneller voor inference
De GB300 NVL72, het vlaggenschip van Nvidia’s Blackwell Ultra-platform, levert tot 50 keer meer throughput per megawatt dan de vorige Hopper-generatie. Dat is geen marketingclaim: onafhankelijke benchmarks van SemiAnalysis bevestigen de cijfers, en in sommige configuraties liggen de resultaten zelfs nog hoger. Maar wat is Blackwell Ultra precies, hoe haalt het die snelheid en wat betekent dit voor de praktijk?
Wat is Nvidia Blackwell Ultra?
Blackwell Ultra is Nvidia’s opvolger van de Blackwell-architectuur, die zelf al een grote stap voorwaarts was ten opzichte van Hopper. De Blackwell Ultra GPU zit in het GB300 NVL72-systeem: een rack-scale platform dat 72 Blackwell Ultra GPU’s en 36 Arm-gebaseerde Grace CPU’s combineert in één volledig vloeistofgekoeld systeem.
Ten opzichte van de vorige Blackwell-generatie biedt Blackwell Ultra twee concrete verbeteringen op hardwareniveau. Ten eerste heeft het 1,5 keer meer rekenkracht voor FP4-bewerkingen via de Tensor Cores. Ten tweede verwerkt het de attention-laag, een van de zwaarste onderdelen van moderne taalmodellen, twee keer zo snel. Daarnaast beschikt het over 1,5 keer meer HBM3E-geheugen dan zijn voorganger, wat grotere batches en langere contexten mogelijk maakt zonder dat de prestaties inzakken.
Het systeem is specifiek ontworpen voor inference en AI-redenering, ook wel “AI reasoning” genoemd. Dat is het proces waarbij een model niet alleen een antwoord genereert, maar stap voor stap redeneert voor het tot een conclusie komt. Modellen zoals DeepSeek-R1 werken op deze manier en vereisen aanzienlijk meer rekenkracht dan eenvoudige vraag-antwoordsystemen.
Hoe werkt het en hoe haalt het die snelheid?
De 50 keer hogere prestatie is geen gevolg van één enkele verbetering. Het is het resultaat van een combinatie van hardwarevernieuwingen, een slimme systeemarchitectuur en geavanceerde softwareoptimalisaties die samen worden ingezet.
NVFP4: minder bits, meer snelheid
Een van de belangrijkste drijfveren achter de prestatieverbetering is het gebruik van NVFP4, een 4-bit precisieformaat dat Nvidia specifiek voor Blackwell heeft ontwikkeld. Traditioneel werken AI-modellen met FP16 of FP8, waarbij elk getal respectievelijk 16 of 8 bits gebruikt. NVFP4 halveert dat opnieuw naar 4 bits per waarde.
Minder bits betekent dat er meer berekeningen per seconde kunnen worden uitgevoerd en dat er minder geheugenbandbreedte nodig is om modelgewichten te laden. Dat laatste is cruciaal, want bij inference is het laden van gewichten uit het geheugen vaak het grootste knelpunt, niet de rekenkracht zelf.
NVFP4 werkt met een tweeniveauschaling: een lokale schaalfactor per blok van 16 waarden en een globale schaalfactor per tensor. Dit zorgt voor nauwkeurigere codering dan eerdere 4-bit formaten, waardoor het nauwelijkheidsverlies ten opzichte van FP8 minimaal blijft. Benchmarks tonen aan dat de prestaties op evaluaties zoals MMLU nauwelijks afwijken tussen FP8 en NVFP4.
NVLink op rack-schaal: 72 GPU’s als één geheel
Een tweede sleutelfactor is de NVLink-architectuur van de vijfde generatie. In het GB300 NVL72-systeem zijn alle 72 GPU’s verbonden via NVLink met een bandbreedte van 900 gigabyte per seconde per GPU in één richting. Dat is ruwweg 7 tot 10 keer meer bandbreedte dan wat InfiniBand of Ethernet biedt.
Waarom maakt dat zo’n groot verschil? Bij het uitvoeren van grote mixture-of-experts modellen zoals DeepSeek-R1, met 671 miljard parameters, moeten GPU’s voortdurend data uitwisselen. Met expert parallelism worden de 256 experts van het model verdeeld over de GPU’s, zodat elke GPU slechts een fractie van de gewichten hoeft te laden. Hoe meer GPU’s je via een snelle verbinding kunt koppelen, hoe efficiënter die verdeling werkt.
Bij eerdere systemen was de NVLink-domeinen beperkt tot 8 GPU’s. Alles daarboven vereiste communicatie via het tragere InfiniBand-netwerk. Het GB300 NVL72 verbindt 72 GPU’s binnen één NVLink-domein, waardoor wide expert parallelism op een schaal mogelijk wordt die eerder niet haalbaar was. Dit levert een directe verbetering op in throughput per GPU.
Disaggregated prefill: twee fases, twee pools
Inference bij grote taalmodellen bestaat uit twee fases. De prefill-fase verwerkt alle invoertokens tegelijk en is rekenintensief. De decode-fase genereert tokens één voor één en is geheugenbandbreedte-intensief. Wanneer beide fases op dezelfde GPU’s draaien, verstoren ze elkaar voortdurend.
Disaggregated prefill lost dit op door de twee fases te scheiden over aparte GPU-pools. Elke pool kan onafhankelijk worden afgestemd op zijn specifieke taak. Prefill-nodes verwerken lange invoersequenties parallel, decode-nodes genereren tokens zo snel mogelijk. De KV-cache, de tussenliggende geheugenrepresentatie die tijdens prefill wordt opgebouwd, wordt via RDMA overgedragen van de prefill-node naar de decode-node.
In combinatie met wide expert parallelism levert dit een systeem op dat bij lage latentie en hoge throughput tegelijk kan presteren, iets wat met traditionele single-node inference niet mogelijk is.
Software als multiplier
Hardware alleen verklaart de 50 keer hogere prestatie niet volledig. Nvidia’s TensorRT-LLM-bibliotheek heeft de afgelopen maanden op zichzelf al tot 5 keer betere prestaties opgeleverd op GB200-systemen voor workloads met lage latentie. Het Dynamo-framework beheert de disaggregated inference-setup en zorgt voor efficiënte taakverdeling tussen prefill- en decode-nodes.
Multi-token prediction, ook wel MTP genoemd, is een andere softwaretechniek die een grote rol speelt. In plaats van één token per stap te genereren, voorspelt het model meerdere tokens tegelijk. De verificatie van die extra tokens kost relatief weinig extra rekenkracht, maar levert een aanzienlijke verhoging van de throughput op. In sommige configuraties daalt de kostprijs per miljoen tokens hierdoor met een factor 20 of meer.
Wat zeggen de benchmarks?
SemiAnalysis heeft het GB300 NVL72-systeem onafhankelijk getest via het InferenceX-benchmarkprogramma, waarbij bijna 1000 GPU’s werden ingezet voor een volledige vergelijking. De resultaten zijn opvallend.
Ten opzichte van een sterk geconfigureerd H100-systeem met disaggregated prefill, wide expert parallelism en FP8-precisie haalt het GB300 NVL72 met FP4 tot 100 keer meer throughput bij een interactiviteitsniveau van 116 tokens per seconde per gebruiker. Zelfs bij een eerlijke FP8-vergelijking bedraagt de verbetering nog tot 65 keer.
De 50 keer hogere prestatie die Nvidia communiceert, is gebaseerd op de totale output van een AI-fabriek: een combinatie van 10 keer hogere responsiviteit per gebruiker en 5 keer hogere throughput per megawatt. Dat zijn twee afzonderlijke verbeteringen die samen optellen tot de gecommuniceerde factor 50.
Ter vergelijking: Jensen Huang beloofde op GTC 2024 een verbetering van 30 keer ten opzichte van H100. De werkelijke resultaten liggen daar ruim boven. SemiAnalysis concludeert dat Huang zijn beloftes heeft onderschat.
Wat is de impact?
De prestatieverbetering heeft directe gevolgen voor de kosten van AI-inference. Het GB300 NVL72-systeem levert tot 35 keer lagere kosten per miljoen tokens voor workloads met lage latentie, vergeleken met Hopper-systemen. Voor langere contexten, zoals AI-codeerassistenten die volledige codebases analyseren, is de kostenbesparing ten opzichte van het GB200 NVL72-systeem nog eens 1,5 keer groter.
Dat heeft concrete gevolgen voor bedrijven die AI op schaal inzetten. Inference-providers zoals Together AI, Baseten, DeepInfra en Fireworks AI hebben al aangetoond dat Blackwell-systemen de kosten per token met een factor 4 tot 10 kunnen verlagen ten opzichte van Hopper. Met Blackwell Ultra gaat dat nog verder.
In de gezondheidszorg verlaagde Sully.ai zijn inference-kosten met 90 procent door over te stappen op open source modellen op Blackwell-hardware. In gaming verlaagde DeepInfra de kosten per miljoen tokens van 20 cent naar 5 cent door Blackwell met NVFP4 te combineren. In klantenservice zag Decagon de kosten per gesprek met een factor 6 dalen.
Voor agentic AI, waarbij modellen zelfstandig meerdere stappen uitvoeren en daarbij grote hoeveelheden context verwerken, is lage latentie essentieel. Elke vertraging in een stap van de keten vertraagt het hele proces. Het GB300 NVL72-systeem is specifiek ontworpen voor dit soort workloads, met 2 keer snellere attention-verwerking en 1,5 keer meer geheugen voor langere contexten.
Microsoft, CoreWeave en Oracle Cloud Infrastructure zetten het systeem al in voor productie-workloads gericht op agentic coding en AI-codeerassistenten.
Blackwell Ultra versus gewone Blackwell
Het is de moeite waard om het onderscheid te maken tussen Blackwell en Blackwell Ultra. Op papier heeft Blackwell Ultra dezelfde geheugenbandbreedte als Blackwell en dezelfde FP8-rekenkracht, maar 1,5 keer meer FP4-rekenkracht. In de praktijk meten benchmarks echter tot 1,5 keer betere FP8-prestaties op Blackwell Ultra, wat erop wijst dat de software voor dit platform nog niet volledig geoptimaliseerd is. Naarmate de softwarestack rijper wordt, zullen de prestaties verder toenemen.
Dat is een patroon dat Nvidia vaker laat zien: nieuwe hardware presteert bij lancering al sterk, maar verbetert de komende maanden verder naarmate frameworks zoals TensorRT-LLM, SGLang en vLLM hun ondersteuning verfijnen.
Wat komt er na Blackwell Ultra?
Nvidia heeft al aangekondigd dat het Rubin-platform de volgende stap is. Rubin combineert zes nieuwe chips tot één AI-supercomputer en belooft voor MoE-inference 10 keer meer throughput per megawatt dan Blackwell, wat neerkomt op een tiende van de kosten per miljoen tokens. Voor het trainen van grote MoE-modellen zou Rubin slechts een kwart van het aantal GPU’s nodig hebben dat Blackwell vereist.
De snelheid waarmee de prestaties per watt verbeteren, maakt duidelijk dat de economie van AI-inference fundamenteel aan het veranderen is. Wat vandaag een dure workload is, wordt morgen betaalbaar op schaal. Blackwell Ultra is daarin niet het eindpunt, maar wel een duidelijk ijkpunt dat laat zien hoe ver hardware en software samen kunnen gaan als ze van de grond af samen worden ontworpen.