Gimlet Labs en de nieuwe infrastructuur voor AI inference

Wie vandaag over artificiële intelligentie spreekt, denkt meestal aan modellen, agents, copilots en toepassingen. Toch zit de echte bottleneck vaak dieper in de stack. Niet het model zelf, maar de manier waarop AI inference over hardware, netwerken en datacenters wordt verdeeld, bepaalt steeds vaker wat haalbaar, snel en betaalbaar is. Precies op dat snijvlak positioneert Gimlet Labs zich.

Gimlet Labs richt zich op een fundamenteel probleem. Hoe laat je AI workloads efficiënt draaien in een wereld waarin agents uit meerdere stappen bestaan, verschillende soorten chips nodig hebben en een steeds grotere druk zetten op latency, energieverbruik en kostprijs? Die vraag is technisch, maar tegelijk strategisch. Want wie AI op schaal wil uitrollen, botst vroeg of laat op infrastructuur.

In deze blogpost bekijken we wat Gimlet Labs precies doet, waarom multi silicon inference zo belangrijk wordt en hoe hun onderzoek rond scheduling, edge en cloud, compilers en hardwarearchitectuur past in een bredere evolutie van AI infrastructuur.

Wat Gimlet Labs precies is

Gimlet Labs omschrijft zichzelf als een applied research lab dat de volgende generatie computersystemen voor AI workloads wil vormgeven. Dat klinkt ambitieus, maar de onderliggende logica is helder. De huidige infrastructuur voor AI is grotendeels opgebouwd rond aannames uit een eerdere fase van machine learning. In de praktijk verschuift de markt nu richting agentic AI, complexe inference pipelines en heterogene hardwareomgevingen. Daardoor volstaat een standaardbenadering met één type accelerator of één uniforme cloudlaag steeds minder.

Het bedrijf bouwt aan een platform voor serverless inference voor AI agents. Dat betekent dat ontwikkelteams of AI operators niet zelf elk detail van scheduling, orkestratie en optimalisatie hoeven te beheren. Volgens het concept van Gimlet kunnen zowel eenvoudige agents als complexe multi agent systemen draaien met aangepaste logica, zoekstappen en externe databronnen. Het platform moet die keten vervolgens slim over beschikbare infrastructuur verdelen.

Belangrijk is dat Gimlet Labs zich niet beperkt tot software orkestratie. Het werkt tegelijk aan compilertechnologie, dynamische datacenter scheduling, hybride edge cloud partitionering en zelfs alternatieve hardwareontwerpen. Daardoor is het minder een enkel product en meer een infrastructuurvisie.

Waarom AI inference de echte bottleneck is

De aandacht in AI ging lang naar training. Grote modellen trainen vereiste enorme rekenkracht en kreeg daarom de meeste media aandacht. Maar zodra modellen in productie komen, verschuift de economische realiteit. Dan telt inference. Elke prompt, elk agentbesluit, elke retrievalstap en elke tool call moet immers live worden uitgevoerd.

Bij moderne AI agents is dat proces zelden lineair. Een agent kan verschillende modelaanroepen combineren met zoekopdrachten, gegevensopvragingen, planning en externe tools. Sommige onderdelen zijn vooral compute bound, andere memory bound en nog andere network bound. Daardoor is niet elke stap optimaal op dezelfde chip of in dezelfde omgeving.

Dat is precies het probleem dat Gimlet Labs adresseert. In plaats van een volledige workload op één type hardware te forceren, wil het bedrijf taken opdelen en verdelen over meerdere soorten chips. Dat idee wordt vaak samengevat als multi silicon inference cloud. De kern is eenvoudig. Niet één processor is ideaal voor alles. Heterogeniteit is geen uitzondering meer, maar een voorwaarde voor efficiëntie.

Die benadering sluit aan bij een bredere realiteit in datacenters. Veel hardware blijft onderbenut. Wanneer workloads niet goed aansluiten op de eigenschappen van een chip, ontstaan wachttijden en inefficiëntie. Als de effectieve benuttingsgraad van bestaande systemen laag blijft, loopt de sector niet alleen tegen prestatieproblemen aan, maar ook tegen enorme verspilling van energie en kapitaal.

Multi silicon inference als architectuurkeuze

Het interessante aan Gimlet Labs is dat het heterogene hardware niet ziet als een last, maar als een ontwerpprincipe. CPU’s, GPU’s, geheugenrijke systemen en gespecialiseerde AI chips hebben elk een eigen profiel. Inference op schaal vraagt dus om een softwarelaag die begrijpt welke stap waar het best past.

Een deel van een agentworkflow kan baat hebben bij GPU versnelling. Een andere stap, bijvoorbeeld tool orchestration of netwerkintensieve interactie, kan efficiënter op CPU’s draaien. Sommige onderdelen van modeluitvoering vragen vooral bandbreedte of veel geheugen. In dat geval kunnen andere architecturen geschikter zijn dan klassieke GPU’s.

Dat is geen triviale puzzel. Zodra je één workload over meerdere hardwaretypen verdeelt, krijg je nieuwe uitdagingen rond synchronisatie, latency, foutafhandeling en kostenmodellering. Juist daar wil Gimlet Labs waarde toevoegen. Niet alleen door workloads slim op te delen, maar ook door scheduling en optimalisatie automatisch uit te voeren.

Als dit model werkt zoals beloofd, heeft het twee grote implicaties. Ten eerste kunnen AI workloads sneller worden uitgevoerd zonder noodzakelijk meer brute rekenkracht toe te voegen. Ten tweede kan bestaande infrastructuur beter worden benut. In een tijd waarin de vraag naar AI capaciteit explodeert, is dat economisch zeer relevant.

Serverless inference voor AI agents

Een tweede belangrijke pijler is de focus op serverless inference. In de klassieke cloudwereld betekende serverless dat ontwikkelaars minder bezig hoefden te zijn met servers en provisioning. Bij AI agents wordt dat idee complexer, omdat een agent niet uit één verzoek bestaat maar uit een keten van beslissingen, modellen en externe acties.

Gimlet Labs probeert hier een abstractielaag te bouwen die deze complexiteit opvangt. Gebruikers kunnen bestaande agentic pipelines importeren, meerdere modellen combineren en niet modelstappen zoals search of data retrieval opnemen in dezelfde flow. Het platform zou dan scheduling, orkestratie en optimalisatie verzorgen.

Voor de toekomst van AI applicaties is dat een belangrijke evolutie. Veel organisaties willen wel met agents experimenteren, maar botsen op operationele complexiteit. Een agent die in een demo goed werkt, wordt in productie plots een infrastructuurprobleem. Latency schommelt, kosten lopen op en performance is moeilijk voorspelbaar. Serverless inference voor agents is dus niet alleen een gebruiksgemak, maar ook een poging om AI systemen beheersbaar te maken.

kforge en autonome kernelgeneratie

Een van de technisch meest intrigerende onderdelen in het Gimlet verhaal is kforge. Dat systeem genereert geoptimaliseerde low level kernels rechtstreeks vanuit PyTorch. In plaats van handmatig kernels te schrijven of workloads moeizaam naar nieuwe backendomgevingen te porteren, gebruikt Gimlet een multi agent aanpak om verschillende kernelontwerpen te verkennen, correctheid te controleren en de snelste variant te selecteren.

Waarom is dat zo belangrijk? Omdat prestaties in AI training en inference vaak staan of vallen met kernelefficiëntie. Technieken zoals kernel fusion kunnen modellen veel sneller maken, maar het ontwikkelen van geoptimaliseerde kernels is specialistisch en tijdrovend. Bovendien wordt het nog moeilijker buiten de dominante CUDA wereld.

Door kernels autonoom te genereren voor verschillende backends zoals CUDA, ROCm en Metal, speelt Gimlet in op een cruciale trend. AI mag niet afhankelijk blijven van één ecosysteem als de markt tegelijk diversifieert richting AMD, Arm, Apple silicon en andere gespecialiseerde chips. Een systeem dat performantie verhoogt zonder de ontwikkelaar uit PyTorch te duwen, verlaagt de drempel voor heterogene infrastructuur aanzienlijk.

Dit maakt kforge relevant voor meer dan alleen benchmarking. Het kan ook een sleutelrol spelen in het sneller beschikbaar maken van AI workloads op nieuwe hardwareplatformen. Dat is strategisch, omdat de chipmarkt versnelt en softwareportering traditioneel een rem vormt op adoptie.

Scheduling in het datacenter met SLA’s als leidraad

Een AI agent workflow is niet alleen technisch complex, maar ook operationeel veeleisend. Datacenters moeten immers prestaties leveren binnen vooraf bepaalde grenzen voor latency, beschikbaarheid en kosten. In zakelijke omgevingen gebeurt dat vaak via service level agreements, meestal afgekort als SLA’s.

Gimlet Labs onderzoekt hoe AI agent workloads dynamisch over gedistribueerde hardware kunnen worden verdeeld zodat end to end SLA’s gehaald blijven worden. Dat is essentieel, want verschillende stappen in een workflow creëren verschillende bottlenecks. Een modelcall kan rekenintensief zijn, een retrievalstap vraagt snelle toegang tot data en een tool call kan vooral netwerkgevoelig zijn.

Klassieke scheduling werkt vaak te grofmazig voor zulke ketens. Een agent wordt dan behandeld als één taak, terwijl de realiteit eerder lijkt op een graaf van afhankelijke microtaken. Door workloads te modelleren als taakgrafen met prestatie en kostengewichten, opent Gimlet de deur naar optimalisatiebenaderingen die globaler en slimmer zijn dan eenvoudige resource allocatie.

Voor de AI industrie is dit een fundamenteel onderwerp. Naarmate agents autonomer worden, stijgt de nood aan infrastructuur die niet alleen snel is, maar ook voorspelbaar en economisch rationeel.

Hybride edge en cloud wordt praktischer dan het klinkt

Een ander onderzoeksdomein van Gimlet Labs is hybride edge cloud workload partitioning. Daarbij wordt bekeken welke delen van een AI workload beter lokaal op het apparaat van een gebruiker draaien en welke beter in de cloud blijven.

Dat idee is aantrekkelijk om drie redenen. Ten eerste kan lokale uitvoering de responstijd verkorten. Ten tweede verbetert het in sommige scenario’s de privacy, omdat niet alle gegevens naar de cloud hoeven. Ten derde kan het de totale kost verlagen wanneer cloudcapaciteit selectief wordt ingezet.

Toch is de praktijk lastig. Niet elk toestel heeft dezelfde rekenkracht. Netwerkcondities veranderen voortdurend. Sommige modelonderdelen zijn gevoelig voor latency, andere voor energieverbruik of geheugenlimieten. Het echte vraagstuk is dus niet of edge of cloud beter is, maar hoe je beide combineert zonder de ontwikkelaar op te zadelen met onoverzichtelijke complexiteit.

Daarom past dit onderzoek goed in de bredere Gimlet visie. Als AI workloads automatisch kunnen worden opgesplitst over verschillende chips in het datacenter, dan ligt een uitbreiding naar verdeling tussen toestel en cloud voor de hand. Voor gebruikers van AI agents kan dat op termijn het verschil maken tussen een trage, dure ervaring en een vloeiende, responsieve toepassing.

Een universele AI compiler voor heterogene hardware

Een van de minder zichtbare maar potentieel meest impactvolle onderdelen van AI infrastructuur is de compilerlaag. Veel optimalisatie gebeurt niet op het niveau van de applicatie, maar in de vertaling van compute graphs naar concrete instructies voor specifieke hardware.

Gimlet Labs werkt aan een universele AI compiler op basis van MLIR. Het doel is om compute graphs te representeren en te optimaliseren op een manier die zowel generieke als apparaatbewuste optimalisaties mogelijk maakt. Dat klinkt technisch, maar de implicatie is eenvoudig. AI workloads zouden makkelijker op uiteenlopende systemen moeten kunnen draaien zonder telkens zware manuele portering.

In een markt waarin nieuwe accelerators snel opduiken, is zo’n compilerlaag strategisch goud waard. Zonder goede compilerondersteuning blijft zelfs sterke hardware moeilijk inzetbaar. Met een goede universele laag kun je performantie, compatibiliteit en portabiliteit beter combineren. Voor organisaties betekent dat minder lock in en snellere adoptie van nieuwe infrastructuur.

Headless hardware en kostenbewuste optimalisatie

Naast software denkt Gimlet Labs ook na over hardwarearchitectuur. Een opvallend idee is het gebruik van headless hardware systems voor AI inference. Daarbij worden traditionele moederborden gedeeltelijk vervangen door DPU gebaseerde ontwerpen die samen met accelerators een slankere en mogelijk goedkopere infrastructuur vormen.

Dit type experiment is interessant omdat AI inference andere eisen stelt dan klassieke serverworkloads. Als een systeem specifiek is ontworpen voor het bedienen van AI taken, dan hoeven niet alle traditionele componentkeuzes behouden te blijven. Door meer doelgericht te ontwerpen, kunnen prestaties per euro of prestaties per watt verbeteren.

Daar sluit ook het werk aan rond cost aware optimization frameworks. In een multitenant datacenteromgeving telt niet alleen snelheid, maar ook economische efficiëntie. Door workloads als taakgrafen te modelleren en daar zowel performance als kost op te projecteren, probeert Gimlet optimalisatie niet alleen technisch maar ook financieel te sturen.

Dat is misschien minder mediageniek dan een nieuw foundation model, maar voor de praktijk van AI op schaal is het onmisbaar.

Wat dit betekent voor de toekomst van AI infrastructuur

De bredere les van Gimlet Labs is dat de volgende golf van AI innovatie niet alleen uit betere modellen zal komen. Ze zal ook voortkomen uit betere systemen rond die modellen. Wie inference slimmer organiseert, hardware beter benut en workloads dichter bij hun ideale uitvoeringsomgeving brengt, creëert ruimte voor snellere, goedkopere en robuustere AI toepassingen.

Gimlet Labs probeert AI inference fundamenteel efficiënter te maken door workloads intelligent te verdelen over verschillende chips, infrastructuurlagen en uitvoeringsomgevingen.