Nvidia heeft een  nieuwe familie van modellen gedropt in het AI-landschap: de Nvidia Nemotron 3 familie.

Nvidia lanceerde een drieluik: Nano, Super en Ultra. Terwijl we nog even geduld moeten hebben voor de Super en Ultra varianten (verwacht in de eerste helft van 2026), geeft de nu al beschikbare Nano-versie ons een kristalhelder beeld van de die onder de motorkap zit.

In dit artikel duiken we diep in wat deze modellen zo speciaal maakt, waarom de architectuur anders is dan wat we gewend zijn, en hoe Nvidia de concurrentie het vuur aan de schenen legt.

Wat is de Nemotron 3 familie precies?

Nvidia Nemotron 3 is niet zomaar een update van een bestaand taalmodel; het is een volledig nieuwe benadering van hoe open modellen gebouwd worden voor complexe workflows. Het doel? Transparante, efficiënte en gespecialiseerde AI-ontwikkeling mogelijk maken voor industrieën die meer nodig hebben dan een simpele chatbox.

De familie bestaat uit drie formaten, elk met een eigen doel:

  • Nemotron 3 Nano: Het instapmodel dat nu al beschikbaar is. Klein, razendsnel en geoptimaliseerd voor taken die efficiëntie vereisen.
  • Nemotron 3 Super: De middenmoter, ontworpen voor systemen waar veel agents tegelijkertijd moeten samenwerken.
  • Nemotron 3 Ultra: De krachtpatser. Dit model is bedoeld als de ultieme ‘reasoning engine’ voor diepgaand onderzoek en strategische planning.

Wat deze reeks uniek maakt, is dat Nvidia afstapt van de klassieke paden. Ze introduceren een hybride architectuur die het beste van twee werelden combineert om de beperkingen van huidige modellen te omzeilen.

De technologie onder de motorkap: een hybride revolutie

Om te begrijpen waarom de aankomende Nvidia Nemotron 3 Ultra en de huidige Nano zo baanbrekend zijn, moeten we technisch worden. De meeste moderne taalmodellen (zoals GPT of Llama) zijn gebaseerd op de Transformer-architectuur. Dat werkt prima, maar het vreet geheugen als je de context (de hoeveelheid tekst die het model in één keer kan onthouden) vergroot.

Nvidia pakt het anders aan met een Hybride Mamba-Transformer Mixture-of-Experts (MoE) architectuur. Dat is een hele mond vol, maar laten we het even ontleden.

Mamba ontmoet Transformer

De Nemotron 3 modellen gebruiken een ruggengraat die de klassieke Transformer-lagen combineert met Mamba-lagen (State Space Models). Transformers zijn geniaal in logisch redeneren en patronen zien (aandacht), maar ze worden traag en duur als de teksten lang worden. Mamba daarentegen is een ster in het onthouden van lange reeksen informatie met minimaal geheugenverbruik.

Door deze twee te mixen, krijg je een model dat logisch kan nadenken als een Transformer, maar de enorme geheugencapaciteit en snelheid heeft van een Mamba-model. Het resultaat is een contextvenster van maar liefst 1 miljoen tokens.

Mixture-of-Experts (MoE)

Daarnaast gebruiken ze een ‘Mixture-of-Experts’ design. In plaats van dat het hele brein van de AI oplicht voor elke vraag, wordt slechts een klein deel van de ‘experts’ geactiveerd dat relevant is voor die specifieke taak. Bij de Nano-versie bijvoorbeeld, spreken we over een model met in totaal 31,6 miljard parameters, maar per woord dat hij genereert, zijn er slechts 3,2 miljard actief.

Dit zorgt voor een efficiëntiewinst. Je krijgt de intelligentie van een groot model, maar de snelheid en de kosten van een klein model. Voor de aankomende Ultra-versie spreekt Nvidia zelfs over een Latent MoE, waarbij experts samenwerken op een nog dieper, abstracter niveau voor nog betere prestaties.

Wat maakt Nemotron 3 anders dan de rest?

Er zijn tegenwoordig modellen in overvloed. Waarom zou je dan kiezen voor Nemotron? Het antwoord ligt in de specifieke focus op agents. Waar andere modellen vaak generalisten zijn, is Nemotron getraind als een specialist in samenwerking.

Gemaakt voor Multi-Agent Systemen

De toekomst van AI ligt niet in één super-AI die alles doet, maar in teams van gespecialiseerde AI’s. Stel je een softwarebedrijf voor: je hebt een AI die code schrijft, een AI die de code test, en een AI die de documentatie maakt. Deze agents moeten constant met elkaar communiceren.

Huidige modellen lopen hier vaak vast. Ze vergeten de context, worden traag of de kosten swingen de pan uit. Nemotron 3 lost dit op door die enorme context van 1 miljoen tokens en de hoge doorvoersnelheid. Agents kunnen hele dossiers, handleidingen en geschiedenis met elkaar delen zonder dat het systeem vastloopt.

NVFP4 Training: De geheime saus van Ultra

Een interessant detail dat Nvidia al heeft gelost over de toekomstige Super en Ultra modellen, is het gebruik van het NVFP4 trainingsformaat. Dit is een ultra-efficiënte 4-bit manier van rekenen op de nieuwe Blackwell-chips van Nvidia. In mensentaal: dit laat toe om gigantische modellen te trainen en te draaien op bestaande hardware zonder dat je inboet aan nauwkeurigheid. Dit is cruciaal om zware modellen zoals de Ultra betaalbaar en bruikbaar te houden voor bedrijven.

De voordelen en nadelen op een rijtje

Zoals bij elke technologie zijn er plus- en minpunten. Laten we eens kijken hoe de balans uitslaat voor de Nemotron 3 reeks.

Voordelen

  • Ongeziene efficiëntie: Dankzij de MoE-architectuur is de doorvoersnelheid (throughput) fenomenaal. De Nano-versie haalt tot 4x hogere snelheden dan zijn voorganger en verslaat concurrenten van vergelijkbare grootte.
  • Gigantische context: Met 1 miljoen tokens kan je complexe problemen aanpakken die voorheen onmogelijk waren. Denk aan het analyseren van volledige wetboeken of enorme codebases in één prompt.
  • Openheid: Nvidia speelt open kaart. Ze geven niet alleen de modelgewichten vrij, maar ook de datasets en de tools (zoals NeMo Gym) waarmee ze het model getraind hebben. Dit is een zegen voor de open-source gemeenschap.
  • Agent-ready: Het model is specifiek getraind met RLVR (Reinforcement Learning from Verifiable Rewards) om goed te zijn in coderen, wiskunde en het gebruik van tools. Het weet wanneer het moet nadenken en wanneer het gewoon moet antwoorden.

Nadelen

  • Complexiteit van de architectuur: Omdat het een hybride Mamba-Transformer model is, is het technisch complexer dan een standaard Llama-model. Niet elke softwarebibliotheek ondersteunt dit direct out-of-the-box, al wordt dit snel beter (ondersteuning in llama.cpp en vLLM is er al).
  • Wachten op Ultra: Wie de absolute topkracht wil, moet nog even geduld hebben tot 2026. De Nano is straf, maar voor het zwaarste redeneerwerk kijken we toch naar de Ultra.
  • Hardware-eisen: Hoewel efficiënt, blijven dit geavanceerde modellen. Om de volledige 1M context te benutten, heb je nog steeds stevige hardware nodig, zeker voor de grotere varianten.

Wie zijn de concurrenten?

Nvidia opereert natuurlijk niet in een vacuüm. De Nemotron 3 Nano (en straks de Ultra) moet opboksen tegen enkele kleppers in de open-source wereld.

De belangrijkste rivalen op dit moment zijn:

  • Qwen3-30B: Een zeer sterk model uit China dat vaak hoog scoort in benchmarks. Volgens Nvidia’s eigen tests biedt Nemotron 3 Nano echter tot 3,3 keer hogere doorvoersnelheid op een H200 GPU in vergelijking met Qwen.
  • GPT-OSS-20B: Een andere populaire open optie. Ook hier claimt Nvidia een aanzienlijke voorsprong in efficiëntie en snelheid.
  • Llama modellen (Meta): De standaard in open source. Hoewel Llama geweldig is, positioneert Nemotron zich specifiek sterker op het vlak van lange context en agent-workflows dankzij die hybride architectuur.

Het grote verschil zit hem in de specialisatie. Waar Llama een fantastische allrounder is, is Nemotron 3 de specialist die je inhuurt als je complexe, meertraps processen wilt automatiseren.

NeMo Gym: De sportschool voor AI

Een aspect dat we zeker niet mogen vergeten, is hoe deze modellen slim zijn geworden. Nvidia lanceert samen met de modellen ook NeMo Gym. Dit is een open-source bibliotheek voor ‘Reinforcement Learning’.

Vroeger was het trainen van modellen met geavanceerde beloningssystemen (RLHF) iets dat enkel weggelegd was voor de tech-reuzen met enorme budgetten. Met NeMo Gym democratiseert Nvidia dit proces. Ontwikkelaars kunnen nu hun eigen omgevingen bouwen om agents te trainen.

Dit is cruciaal voor de ‘Sovereign AI’ beweging, waarbij organisaties in Europa hun eigen modellen willen bouwen die voldoen aan lokale waarden en regels, zonder afhankelijk te zijn van een black box uit Silicon Valley.

Is het wachten op Ultra de moeite waard?

Met de lancering van de Nemotron 3 familie zet Nvidia een nieuwe standaard. De Nano-versie die nu beschikbaar is, is meer dan een zoethoudertje; het is een krachtig instrument dat laat zien wat er mogelijk is met hybride architecturen. Voor ontwikkelaars die nu al aan de slag willen met snelle, slimme agents die enorme hoeveelheden data kunnen verwerken, is er op dit moment weinig beters op de markt.

Maar de echte revolutie komt er wellicht aan met de Nvidia Nemotron 3 Ultra in 2026. Als Nvidia erin slaagt om de efficiëntie van de Nano op te schalen naar het denkniveau van de Ultra, dan krijgen we een model dat niet alleen slim is, maar ook praktisch inzetbaar voor complexe bedrijfsprocessen.