Een nieuwe generatie taalmodellen

Inception Labs heeft met Mercury een taalmodel ontwikkeld dat fundamenteel anders werkt dan andere LLM’s. Waar modellen zoals ChatGPT, Claude en Gemini woorden letter voor letter opbouwen, gooit Mercury het roer volledig om met een diffusion-gebaseerde aanpak die tokens parallel genereert.

Het is geen toeval dat AI-pionier Andrej Karpathy, de man die de term “vibe coding” bedacht, enthousiast is over deze technologie.

Wat is Mercury precies?

Mercury is het commerciële taalmodel van Inception Labs, een startup die amper anderhalf jaar oud. Het bedrijf werd opgericht door wetenschappers die diffusietechnologie hebben helpen uitvinden, waaronder Stefano Ermon van Stanford University, Aditya Grover van UCLA en Volodymyr Kuleshov van Cornell. Deze mensen zijn geen onbekenden in de AI-wereld. Ze hebben bijgedragen aan baanbrekende technologieën zoals DPO, flash attention en decision transformers.

Het bijzondere aan Mercury is dat het een diffusion language model (dLLM) is, een volledig nieuwe categorie binnen de wereld van grote taalmodellen. Terwijl traditionele LLM’s autoregressief werken en tokens sequentieel voorspellen van links naar rechts, gebruikt Mercury een diffusieproces dat alle tokens tegelijk genereert. Het begint met ruis en verfijnt dit geleidelijk tot een coherente tekststroom.

Burzin Patel, vice president product bij Inception, legt het zo uit: “Per doorgang door het selectieproces krijg je meerdere tokens tegelijk, waardoor het vijf tot tien keer sneller is.” Een doorgang betekent hier een voorwaartse blik door het neurale netwerk om voorspellingen te evalueren en te maken.

Hoe diffusiemodellen fundamenteel verschillen

Om te begrijpen waarom Mercury zo anders is, moeten we even stilstaan bij hoe traditionele taalmodellen werken. Autoregressieve modellen zoals GPT-4 of Claude genereren tekst token per token. Ze voorspellen het volgende woord op basis van alle voorgaande woorden, en dit proces herhaalt zich tot de volledige tekst er staat. Als je een antwoord van duizend tokens wilt, heb je duizend doorlopen door het model nodig.

Diffusiemodellen daarentegen werken met een heel ander principe. Ze voorspellen alle gemaskeerde tokens tegelijkertijd, in blokken met variërende betrouwbaarheidsniveaus. Mercury genereert tokens in groepen: als een blok duizend tokens bevat, kunnen er driehonderd een hoge betrouwbaarheid hebben. Het model kan dan verder gaan met het opsplitsen en blijven tonen welke tokens een hoge betrouwbaarheid hebben.

Stel dat je antwoord duizend tokens vereist. Met een autoregressief model zou je duizend doorlopen nodig hebben. Met diffusie kun je ergens tussen de vijf en tien tokens per doorloop genereren. Tot 10 keer minder.

Deze aanpak komt rechtstreeks uit de AI-labs van Stanford University. Diffusie-algoritmes werden oorspronkelijk ontwikkeld voor continue data zoals beelden en video’s. Ze zijn de standaard geworden voor platforms zoals Midjourney en Sora. Het doorbreken naar tekstmodaliteit was echter een enorme uitdaging, omdat taal uit discrete data bestaat, 26 letters in plaats van duizenden kleurgradiënten.

De voordelen van parallelle tokengeneratie

Het snelheidsvoordeel van Mercury is niet alleen indrukwekkend op papier, het heeft ook concrete gevolgen voor praktische toepassingen. Vooral voor agentic workflows, waarbij applicaties meerdere keren achter elkaar een LLM aanroepen, maakt het verschil uit. Als een applicatie dertig LLM-aanroepen doet en elke aanroep twee seconden sneller is, bespaar je een volle minuut per verzoek.

Mercury bereikt in veel gebruikssituaties een snelheidsverbetering tot 10x ten opzichte van traditionele LLM’s, terwijl de kwaliteit op hetzelfde niveau blijft. De prijsstelling weerspiegelt deze efficiëntie: 25 cent per miljoen input tokens en 1 dollar per miljoen output tokens. Dat is aanzienlijk goedkoper dan veel concurrenten.

Een ander voordeel is de flexibiliteit tijdens het generatieproces. Bij Mercury kun je als onderdeel van een blok tokens aanpassen. Als je een betere vijfde token ziet, kun je teruggaan en de tweede token veranderen. Deze mogelijkheid om terug te keren en te verfijnen bestaat niet bij autoregressieve modellen, waar elke token definitief is zodra hij gegenereerd is.

Inception richt zich bewust op twee specifieke gebieden: code en spraak. Dit zijn de meest snelheidsgevoelige toepassingen. Bij code-autocompletion is het nutteloos als je sneller kunt typen dan de suggesties verschijnen. Voor spraakagenten is low latency essentieel om natuurlijke, real-time conversaties mogelijk te maken.

Het bedrijf werkt samen met verschillende coding IDE’s en plugins, waaronder Continue (een open source coding agent), Proxy AI, JetBrains, Kilo Code en Cline. Mercury is de standaard LLM geworden voor veel van deze tools, omdat de ontwikkelaars experts zijn in het bouwen van IDE’s maar niet noodzakelijk in het ontwikkelen van taalmodellen.

De nadelen en uitdagingen

Diffusiemodellen zijn niet perfect voor de gebruikerservaring bij interactieve toepassingen. Bij autoregressieve modellen zie je de output in real-time verschijnen. Dit geeft gebruikers een gevoel van voortgang.

Bij diffusiemodellen zoals Mercury is er initieel wat vertraging voordat je de eerste output ziet, ook al is het volledige antwoord sneller klaar. Als gebruikers direct visuele feedback verwachten, is dit een nadeel.

Diffusiemodellen voor tekst geven nog niet dezelfde kwaliteit als hun autoregressieve tegenhangers. Mercury is een pioneer. Hoewel de resultaten veelbelovend zijn, moet de technologie zich nog verder bewijzen op een breed scala aan taken.

Het afstemmen van diffusiemodellen vraagt zorgvuldige hyperparameter-tuning. De nauwkeurigheid en doorvoerverbeteringen zijn gevoelig voor specifieke instellingen. Het geautomatiseerd zoeken naar optimale kalibratieparameters blijft een interessant onderzoeksgebied.

Concurrerende diffusion language models

Mercury is niet het enige diffusion language model op de markt, maar het is voorlopig wel het enige commercieel beschikbare model met een eigen API. Inception heeft een paar concurrenten in deze opkomende markt.

Dream7B is een experimenteel diffusiemodel met sterke generatieve capaciteiten. Het model gebruikt masked diffusion.

LLaDA (Large Language Diffusion Assistant) is een ander open-source diffusiemodel dat autoregressieve training combineert met diffusietechnieken. Het biedt interessante mogelijkheden voor onderzoekers, maar mist de gepolijste commerciële implementatie en ondersteuning die Inception biedt.

Google experimenteert ook met diffusiemodellen voor tekst met Gemini Diffusion.

Wat Mercury onderscheidt is de combinatie van commerciële beschikbaarheid, API-compatibiliteit met OpenAI-standaarden, en de focus op praktische toepassingen. Het model is beschikbaar via grote cloudproviders zoals AWS Bedrock en Azure Foundry.

Integratie en implementatie

Een groot voordeel van Mercury is de eenvoudige integratie. De API van het model is compatibel met de API van  OpenAI en andere standaardmodellen.

Inception biedt verschillende implementatiemodellen. Nieuwe gebruikers krijgen 10 miljoen tokens wanneer ze een account aanmaken. Bedrijven die datasoevereiniteit nodig hebben, kunnen het model zelf hosten.

Momenteel werkt Inception alleen met Nvidia GPU’s.

De toekomst van diffusiemodellen

Elon Musk heeft over diffusiemodellen gezegd dat er een grote kans is dat diffusie uiteindelijk de grootste winnaar wordt. Samen met het enthousiasme van experts zoals Andrej Karpathy is de toekomst van diffusiemodellen veelbelovend voor AI.

Het vroege succes van Mercury inspireert andere AI-bedrijven om hun eigen dLLM-inspanningen te starten. Ze zien dat bedrijven en ontwikkelaars graag AI willen inzetten voor instant, in-the-flow ervaringen, maar worden tegengehouden door de lage snelheid en hoge kosten van traditionele LLM’s. Veel enterprise AI-initiatieven blijven steken in de pilotfase omdat opschalen simpelweg te duur is.