In februari 2026 lanceerde het Chinese AI-bedrijf MiniMax een nieuw model. MiniMax M2.5 scoort vergelijkbaar met topmodellen zoals Claude Opus 4.6 op codeertaken, maar kost slechts een fractie van de prijs. Met een score van 80,2% op de veeleisende SWE-Bench Verified benchmark positioneert het zich als een serieuze concurrent voor ontwikkelaars die krachtige AI-assistentie zoeken met een beperkt budget.
Wat maakt dit model zo bijzonder? Het combineert geavanceerde Mixture of Experts-architectuur met innovatieve reinforcement learning-technieken. Het is specifiek getraind voor coderen en agent-taken.
Wie zit er achter MiniMax M2.5
MiniMax is een AI-bedrijf uit China dat zich richt op het ontwikkelen van large language models en multimodale AI-systemen. Het bedrijf heeft zich de afgelopen jaren geprofileerd als een speler die kwaliteit levert tegen competitieve prijzen, met een sterke focus op praktische toepassingen voor ontwikkelaars.
De release van M2.5 op 12 februari 2026 markeert een belangrijke mijlpaal voor het bedrijf. Het model werd vrijgegeven onder de MIT-licentie, wat een duidelijk signaal is dat MiniMax inzet op openheid en toegankelijkheid. Dit staat in contrast met veel andere AI-bedrijven die hun modellen gesloten houden.
Interessant is dat MiniMax het model intern al intensief gebruikt. Volgens hun eigen cijfers wordt 80% van de nieuwe code binnen het bedrijf gegenereerd door M2.5, en het model handelt 30% van de dagelijkse taken af. Dit toont aan dat ze vertrouwen hebben in hun eigen technologie en het niet zomaar een marketingstunt is.
Wat is MiniMax M2.5 precies
MiniMax M2.5 is een large language model met 230 miljard parameters, maar door de Mixture of Experts-architectuur worden er slechts 10 miljard parameters actief gebruikt tijdens inferentie. Dit maakt het model extreem efficiënt qua rekenkracht en snelheid.
Het model ondersteunt een contextvenster van 205.000 tokens, wat ruim voldoende is voor de meeste praktische toepassingen. Je kan er lange documenten mee analyseren, complexe codebases doorlichten of uitgebreide conversaties mee voeren zonder dat het model de draad kwijtraakt.
M2.5 is specifiek een reasoning model, wat betekent dat het extended thinking gebruikt om door complexe problemen heen te werken voordat het een antwoord geeft. Dit is vooral waardevol bij programmeer- en probleemoplossingstaken waar een doordachte aanpak essentieel is.
Het model accepteert alleen tekstinput en produceert tekstoutput. Het is dus geen multimodaal model zoals sommige concurrenten, maar dat houdt het ook gefocust en efficiënt voor de taken waar het voor ontworpen is.
Technische specificaties in vogelvlucht
- Totaal aantal parameters: 230 miljard
- Actieve parameters tijdens inferentie: 10 miljard
- Contextvenster: 205.000 tokens
- Architectuur: Mixture of Experts (MoE)
- Licentie: MIT (vrij voor commercieel gebruik)
- Modaliteiten: tekst naar tekst
- Release datum: 12 februari 2026
Waar blinkt M2.5 in uit
De grootste kracht van MiniMax M2.5 ligt ongetwijfeld in het coderen. Met een score van 80,2% op SWE-Bench Verified overtreft het zelfs GPT-5.2 (80,0%) en komt het dicht in de buurt van Claude Opus 4.6 (80,8%). Dit is opmerkelijk voor een model dat zoveel goedkoper is dan deze concurrenten.
SWE-Bench Verified is een benchmark die meet hoe goed een AI-model echte bugs kan oplossen in bestaande codebases. Het gaat niet om simpele programmeeroefeningen, maar om realistische scenario’s waarbij het model door duizenden regels code moet navigeren, de oorzaak van een probleem moet identificeren en een werkende oplossing moet implementeren.
Codeertaken waarin M2.5 uitblinkt
Het model scoort ook sterk op Multi-SWE-Bench met 51,3%, een variant die test hoe goed het model kan samenwerken over meerdere bestanden heen. Dit is cruciaal voor projecten waar wijzigingen in het ene bestand gevolgen hebben voor andere delen van de codebase.
Een ander sterk punt is de snelheid waarmee M2.5 codeertaken afwerkt. Het model rondt een enkele SWE-Bench taak af in gemiddeld 22,8 minuten, wat 37% sneller is dan zijn voorganger M2.1. Deze efficiëntiewinst komt door een unieke aanpak die MiniMax Spec-writing noemt.
Bij deze methode breekt het model eerst de architectuur van de oplossing op in kleinere componenten voordat het begint met implementeren. Dit vermindert ineffectieve trial-and-error loops en leidt tot schonere, beter doordachte code. Het is vergelijkbaar met hoe ervaren ontwikkelaars werken: eerst nadenken over de structuur, dan pas beginnen typen.
Agentic taken en tool calling
Naast coderen scoort M2.5 ook uitstekend op agentic taken. Met 76,8% op de BFCL Multi-Turn benchmark toont het aan dat het model kan omgaan met function calls, bestanden en API-interacties. Dit maakt het geschikt voor scenario’s waarbij de AI moet samenwerken met externe tools en systemen.
Het model vermindert het aantal tool-calling rondes met 20% vergeleken met de vorige generatie, wat betekent dat het efficiënter werkt en sneller tot een resultaat komt. Voor ontwikkelaars die geautomatiseerde workflows bouwen of AI-agents inzetten, is dit een voordeel.
Op BrowseComp, een benchmark die webzoeken en browsen test, scoort M2.5 76,3%. Dit plaatst het in de top van modellen die informatie van het internet kunnen verzamelen en verwerken.
De nieuwe technologie achter M2.5
De sprong in prestaties van M2.1 naar M2.5 komt niet vanzelf. MiniMax heeft een nieuw reinforcement learning framework ontwikkeld genaamd Forge RL, specifiek ontworpen om de sterke punten van het model verder aan te scherpen.
Forge RL, training in realistische omgevingen
Forge RL traint het model op meer dan 200.000 realistische situaties, waarbij de nadruk ligt op taakdecompositie en tool-calling optimalisatie. In plaats van het model alleen te trainen op synthetische data of geïsoleerde oefeningen, leert het omgaan met de complexiteit en onvoorspelbaarheid van echte situaties.
Deze aanpak verklaart waarom M2.5 zo goed presteert op praktische taken. Het heeft geleerd om problemen op te splitsen in beheersbare stukken, de juiste tools te selecteren voor elke subtaak en efficiënt te werk te gaan zonder onnodige stappen.
Mixture of Experts architectuur
De MoE-architectuur is niet nieuw, maar MiniMax heeft het op een slimme manier geïmplementeerd. Van de 230 miljard parameters zijn er slechts 10 miljard actief tijdens inferentie, wat neerkomt op 4,3% van het totaal. Dit is extreem efficiënt vergeleken met andere modellen in dezelfde klasse.
Het voordeel is dubbel. Enerzijds krijg je de kennis en capaciteit van een groot model, anderzijds de snelheid en kostenefficiëntie van een kleiner model. De Lightning-versie van MiniMax M2.5 haalt zelfs 100 tokens per seconde, wat het een van de snelste frontier models maakt die momenteel beschikbaar zijn.
De standaardversie genereert output aan 74 tokens per seconde, wat nog steeds sneller is dan het gemiddelde van 54 tokens per seconde voor vergelijkbare modellen. Dit verschil merk je tijdens het gebruiker, vooral bij interactieve toepassingen.
Spec-writing codeerstijl
Een innovatie die specifiek voor M2.5 is ontwikkeld, is de Spec-writing aanpak. Dit is geen technische architectuurwijziging, maar eerder een getrainde werkwijze die het model heeft aangeleerd tijdens de reinforcement learning fase.
Bij traditionele AI-codering beginnen modellen vaak direct met het schrijven van code, wat kan leiden tot suboptimale oplossingen en veel herschrijfwerk. M2.5 neemt eerst de tijd om de architectuur uit te tekenen, afhankelijkheden te identificeren en een plan op te stellen voordat het begint met implementeren.
Deze methodologie resulteert in code die beter onderhoudbaar is, minder bugs bevat en efficiënter werkt. Het is een subtiele maar krachtige verbetering die het verschil maakt tussen een werkende oplossing en een goede oplossing.
Prijsstelling, hier schittert M2.5
De technische prestaties zijn indrukwekkend, maar wat M2.5 echt onderscheidt is de prijsstelling. Het model kost $0,30 per miljoen input tokens en $1,20 per miljoen output tokens via de officiële MiniMax API. Dit is zeer competitief vergeleken met andere modellen in dezelfde prestatieklasse.
Ter vergelijking: het gemiddelde voor vergelijkbare open weight modellen ligt op $0,60 voor input en $2,20 voor output. M2.5 is dus ongeveer de helft goedkoper dan het gemiddelde, terwijl het bovengemiddeld presteert op de belangrijkste benchmarks.
Als je de blended rate berekent (met een 3:1 ratio van input naar output, wat typisch is voor de meeste toepassingen), kom je uit op $0,53 per miljoen tokens. Dit maakt het een van de meest kosteneffectieve opties voor ontwikkelaars die regelmatig AI-assistentie nodig hebben.
Kosten voor benchmarking
Het uitvoeren van de volledige Artificial Analysis Intelligence Index kostte $124,58 voor M2.5. Dit is relatief hoog vergeleken met sommige andere modellen, maar dat komt vooral doordat M2.5 wat verbose is. Het genereerde 56 miljoen output tokens tijdens de evaluatie, wat hoger is dan het gemiddelde van 14 miljoen.
Deze verbositeit betekent dat het model uitgebreidere antwoorden geeft, wat in sommige contexten waardevol is maar in andere situaties kan leiden tot hogere kosten. Het is iets om rekening mee te houden bij het plannen van je budget, vooral voor toepassingen met hoge volumes.
Hoe verhoudt M2.5 zich tot de concurrentie
Op de Artificial Analysis Intelligence Index scoort M2.5 een 42, wat het ruim boven het gemiddelde plaatst van 25 voor vergelijkbare open weight modellen. Dit is een samengestelde score die verschillende aspecten meet: reasoning, kennis, wiskunde en coderen.
Vergeleken met GLM-5, een ander prominent model dat rond dezelfde tijd werd gelanceerd, heeft M2.5 een duidelijk voordeel in coderen (80,2% vs 77,8% op SWE-Bench Verified) en agent-taken. GLM-5 scoort daarentegen beter op pure reasoning-taken zoals wiskundige problemen en wetenschappelijke vraagstukken.
Ten opzichte van Claude Opus 4.6, het topmodel van Anthropic, komt M2.5 verrassend dicht in de buurt qua codeerprestaties. Opus 4.6 scoort 80,8% op SWE-Bench Verified, slechts 0,6 procentpunt hoger. Het grote verschil zit hem in de prijs: Opus 4.6 kost vele malen meer dan M2.5.
Waar M2.5 minder sterk is
Het model heeft geen ondersteuning voor afbeeldingen of andere multimedia, wat het niet geschikt maakt voor toepassingen die visuele input vereisen.
De latency (tijd tot het eerste token) ligt met 1,59 seconden aan de hogere kant vergeleken met het gemiddelde van 1,13 seconden voor vergelijkbare modellen. Voor interactieve toepassingen waar snelle respons cruciaal is, kan dit een nadeel zijn, hoewel de hoge output snelheid dit deels compenseert.
Op kennisintensieve taken en factual accuracy scoort M2.5 minder sterk dan modellen zoals GLM-5, die specifiek getraind zijn op betrouwbaarheid en het vermijden van hallucinaties. Voor toepassingen waar feitelijke correctheid essentieel is, zijn er betere alternatieven.
Praktische toepassingen en toegang
MiniMax M2.5 is beschikbaar via API. Je kan de officiële MiniMax API gebruiken. De modelgewichten zijn ook publiekelijk beschikbaar via HuggingFace, wat betekent dat je het zelf kan hosten als je de infrastructuur hebt.
Voor de meeste ontwikkelaars is toegang via een API de meest praktische optie. Dit elimineert de noodzaak voor dure hardware en complexe setup, terwijl je toch profiteert van de kracht van het model.
Ideale use cases
M2.5 is bij uitstek geschikt voor:
- Code reviews en bug fixes in bestaande projecten
- Geautomatiseerde feature implementatie
- Agentic workflows met tool calling
- Documentatie generatie uit code
- Refactoring en code optimalisatie
- API-integraties en automatisering
Voor scenario’s die diepe reasoning vereisen, zoals complexe wiskundige bewijzen of wetenschappelijke analyse, zijn er modellen die beter presteren. Maar voor de dagelijkse taken van ontwikkelaars biedt M2.5 een uitstekende balans tussen prestaties en kosten.
Is M2.5 de moeite waard
MiniMax M2.5 is een indrukwekkend model dat laat zien dat topkwaliteit niet altijd een hoge prijs hoeft te hebben. Met prestaties die vergelijkbaar zijn met veel duurdere alternatieven en een prijsstelling die toegankelijk is voor de meeste ontwikkelaars, vult het een belangrijke niche in het AI-landschap.