Google heeft op Google Cloud Next zijn achtste generatie Tensor Processing Units onthuld, en dit keer komt de chip niet alleen. Voor het eerst splitst Google zijn TPU-lijn in twee afzonderlijke, gespecialiseerde ontwerpen: de TPU 8t voor grootschalige training en de TPU 8i voor inference en agent-workloads. Die beslissing werd al in 2024 genomen, een jaar voordat de rest van de industrie volledig kantelde richting reasoning-modellen en agentische AI. Het is een strategische gok die nu vruchten lijkt af te werpen, vooral omdat Google hiermee de zogenaamde Nvidia-tax grotendeels omzeilt.

Waarom twee chips in plaats van één

De logica achter de splitsing is eenvoudig maar fundamenteel. Pre-training, post-training en real-time serving stellen elk totaal andere eisen aan hardware. Een chip die uitblinkt in het verwerken van enorme matrixvermenigvuldigingen voor training, is zelden de beste keuze voor het met lage latency bedienen van miljoenen gelijktijdige agents. Door beide werkladen op dezelfde silicon te draaien, zoals tot nu toe gebruikelijk was, ontstaat inefficiëntie aan beide kanten.

Amin Vahdat, Google’s SVP voor AI en infrastructuur, verwoordde het zo: één chip per jaar volstaat niet meer. De 8t en 8i delen weliswaar dezelfde software-stack en DNA, maar hun architectuur, netwerktopologie en geheugenhiërarchie zijn elk toegesneden op een ander knelpunt.

TPU 8t de trainingsreus

De TPU 8t is gebouwd voor één doel: de ontwikkelingscyclus van frontier-modellen terugbrengen van maanden naar weken. Een enkele superpod bevat 9.600 chips en twee petabyte gedeeld high-bandwidth memory, goed voor 121 ExaFlops aan rekenkracht. Dat is ongeveer 2,8 keer meer FP4-prestaties per pod dan bij de vorige generatie, Ironwood.

SparseCore en native FP4

Centraal in het ontwerp staat de SparseCore, een gespecialiseerde accelerator die de grillige geheugentoegangspatronen van embedding lookups afhandelt. Terwijl de Matrix Multiply Unit zich op pure matrix-wiskunde concentreert, neemt de SparseCore data-afhankelijke all-gather operaties voor zijn rekening. Dat voorkomt de zero-op bottlenecks die general-purpose chips vaak verlammen.

Daarnaast introduceert de 8t native 4-bit floating point. Door minder bits per parameter te gebruiken, verdubbelt de MXU-doorvoer terwijl de nauwkeurigheid overeind blijft. Minder energie-intensieve dataverplaatsing, grotere modellagen die in lokale hardware-buffers passen, en daardoor een hogere effectieve benutting van de rekenkern.

Virgo Network en schaalbaarheid tot een miljoen chips

De echte doorbraak zit in het netwerk. Het nieuwe Virgo Network biedt tot vier keer meer datacenternetwerk-bandbreedte dan de vorige generatie. Het is gebouwd op high-radix switches en hanteert een platte, tweelaagse non-blocking topologie. Meer dan 134.000 TPU 8t chips kunnen samen tot 47 petabit per seconde aan bi-sectionele bandbreedte leveren, wat neerkomt op meer dan 1,6 miljoen ExaFlops met bijna lineaire schaling.

In combinatie met JAX en Pathways kan Google zo trainingen verdelen over meer dan een miljoen chips in één logische cluster. Voor frontier-labs die modellen met biljoenen parameters bouwen, is dat een niveau van parallelisme dat elders simpelweg niet bestaat.

Storage die bijblijft

Rekenkracht is niets waard als de data niet op tijd arriveert. TPU 8t introduceert TPUDirect RDMA en TPUDirect Storage. Data verhuist daarbij rechtstreeks tussen het HBM-geheugen van de TPU en de opslag, zonder omweg langs de host-CPU of DRAM. Gecombineerd met Managed Lustre 10T levert dit een tien keer snellere opslagtoegang dan bij Ironwood. Geen checkpoint-restarts die het cluster lam leggen, geen MXU’s die staan te wachten op multimodale datasets.

TPU 8i de reasoning-engine

Waar de 8t draait om ruwe doorvoer, draait de 8i om latency. In het agentische tijdperk wisselen miljoenen agents voortdurend tokens uit, chainen ze gedachten en zoeken ze elk moment contact met andere chips in het cluster. Kleine inefficiënties stapelen zich daar exponentieel op.

De geheugenmuur doorbroken

De TPU 8i combineert 288 GB aan high-bandwidth memory met 384 MB on-chip SRAM, drie keer zoveel als de vorige generatie. Dat klinkt als een detail, maar het is cruciaal: de volledige KV Cache van lange context-decoding past nu op silicon. De cores hoeven niet meer te wachten op data uit het externe geheugen, wat bij auto-regressieve decoding per definitie een latency-killer is.

Collectives Acceleration Engine

De nieuwe Collectives Acceleration Engine is een aparte chiplet die reductie- en synchronisatiestappen tijdens auto-regressieve decoding en chain-of-thought processing versnelt. Resultaat: tot vijf keer lagere on-chip latency voor collectieve operaties. Minder wachttijd per stap betekent dat je miljoenen agents gelijktijdig kunt draaien zonder dat de doorvoer instort.

Boardfly versus 3D torus

Interessant is dat Google voor de 8i afstapt van de vertrouwde 3D torus-topologie. In een torus van 1.024 chips moet een pakket in het slechtste geval zestien hops afleggen om de verst gelegen chip te bereiken. Voor buurt-tot-buurt communicatie tijdens dense training is dat prima. Voor de all-to-all patronen van Mixture-of-Experts en reasoning-modellen is het rampzalig.

Boardfly, geïnspireerd op Dragonfly-principes, gebruikt een hiërarchische opzet: vier volledig verbonden chips vormen een building block, acht boards vormen een groep, en 36 groepen worden via Optical Circuit Switches aan elkaar geknoopt tot een pod van 1.152 chips. Het maximale aantal hops daalt van zestien naar zeven. Die reductie van 56 procent vertaalt zich rechtstreeks naar lagere tail latency, precies wat je nodig hebt als duizenden agents op elkaars antwoorden zitten te wachten.

Het kostenvoordeel dat Google niet hoeft te delen

Elke frontier AI-lab rantsoeneert op dit moment twee dingen: elektriciteit en compute. En vrijwel iedereen koopt die compute bij dezelfde leverancier, tegen de stevige marges die Nvidia tot een van ’s werelds waardevolste bedrijven hebben gemaakt. Google niet.

Dat is geen toevallig bijeffect. Google ontwerpt elke laag van zijn AI-stack zelf: van de energievoorziening en datacenter-enclosures, via de hardware en de software, tot de modellen zoals Gemini en de diensten erbovenop. OpenAI, Anthropic, xAI en Meta betalen voor elke H200 of Blackwell een stevige datacenter-marge aan Nvidia. Google betaalt fab-kosten, packaging en engineering op zijn TPU’s, maar niet die tussenmarge. Analisten noemen dat verschil al twee jaar de Nvidia-tax.

De cijfers die Google bij de 8-generatie noemt, illustreren het effect:

  • TPU 8t levert tot 2,7 keer betere prestaties per dollar dan Ironwood voor grootschalige training.
  • TPU 8i levert tot 80 procent betere prestaties per dollar, vooral bij lage-latency scenario’s voor grote MoE-modellen.
  • Beide chips behalen tot twee keer betere prestaties per watt.

Dat laatste punt is structureel belangrijker dan het lijkt. In moderne datacenters is niet het aantal chips de beperkende factor, maar het beschikbare vermogen. Google claimt dat zijn datacenters vandaag zes keer meer rekenkracht per kilowatt leveren dan vijf jaar geleden, mede door vierde-generatie vloeistofkoeling en door netwerkconnectiviteit rechtstreeks op de chip te integreren.

Hoe verhoudt dit zich tot Nvidia’s nieuwste generatie

Een eerlijke vergelijking is lastig omdat de chips in verschillende ecosystemen leven. Nvidia’s Blackwell en de komende Vera Rubin domineren de markt voor losse GPU-aankopen en worden ondersteund door de enorme CUDA- en PyTorch-community. Ze zijn alomtegenwoordig, goed ondersteund en draaien vrijwel alles wat de open AI-wereld bouwt.

De TPU’s zijn daarentegen exclusief beschikbaar via Google Cloud. Je koopt geen rack met TPU 8t voor je eigen datacenter. Wel krijg je toegang tot een volledig geïntegreerde stack: JAX, PyTorch, vLLM, SGLang, XLA en Pathways, met native PyTorch-ondersteuning nu in preview en bare metal-toegang voor wie dieper wil graven.

Voor trainingsschaal maakt Google een argument dat moeilijk te weerleggen is: één miljoen chips in een enkel logisch cluster via Virgo Network. Voor inference is het verhaal nog scherper. De combinatie van drie keer meer on-chip SRAM, vijf keer lagere collectieve latency en een Boardfly-topologie die specifiek op MoE-communicatie is gebouwd, maakt de 8i architectonisch interessanter dan een generieke GPU voor agent-workloads.

Belangrijk om te nuanceren: Google vervangt Nvidia niet, ook niet op zijn eigen cloud. Het bedrijf gaat Vera Rubin later dit jaar aanbieden en werkt samen met Nvidia aan Falcon, de open-source networking-technologie die Nvidia-systemen in Google Cloud efficiënter moet laten draaien. Voor veel klanten blijft de keuze hybride.

Co-design als fundament

De rode draad door het hele ontwerp is co-design. Boardfly-topologie is specifiek afgestemd op de communicatiepatronen van huidige reasoning-modellen. De SRAM-capaciteit van de 8i is gedimensioneerd op de KV cache-voetafdruk van productie-reasoning-modellen. Virgo’s bandbreedte-doelen komen direct uit de parallelisme-eisen van trillion-parameter training. En voor het eerst draaien beide chips op Google’s eigen Axion Arm-gebaseerde CPU-host, wat systeembrede optimalisatie mogelijk maakt die je simpelweg niet haalt als host en accelerator apart worden ontworpen.

Het is die integratie, en niet één enkele spec, die het verschil maakt. Een enkele ExaFlop zegt weinig als het netwerk het niet kan aanvoeren, of als de opslag de MXU’s laat verhongeren, of als de host-CPU de tokens niet snel genoeg kan voorbereiden.

Wat dit betekent voor de compute-race

De frontier compute-race draaide lang om de vraag wie de meeste H100’s kon kopen. Die vraag verschuift nu naar wie de stack controleert. Op dat vlak is de shortlist voorlopig kort: Google en Nvidia. Amazon en Microsoft werken aan eigen silicon, maar de diepte van integratie die Google met de achtste TPU-generatie demonstreert, is zeldzaam.

De interessantste vraag is niet of Google met de 8t en 8i Nvidia gaat verslaan op ruwe specs. Dat is ook niet het spel. De interessantere vraag is of workloads structureel verschuiven richting specialistische silicon zodra de economie van agents en reasoning-modellen de bovenhand krijgt. Als een 8i daadwerkelijk twee keer zoveel klanten bedient tegen dezelfde kost als Ironwood, wordt de keuze voor een cloudprovider een berekening waarin CUDA-compatibiliteit alleen niet langer wint. En dat is, in een markt waar elke procent goodput vertaalt naar dagen actieve trainingstijd, waarschijnlijk de duurzaamste vorm van concurrentiedruk die Nvidia in jaren heeft gezien.