MiniMax M2.7 verbetert zichzelf

MiniMax M2.7 valt op omdat het niet alleen als nieuw taalmodel is gelanceerd, maar als een model dat actief meewerkt aan zijn eigen volgende iteratie. MiniMax bracht M2.7 uit op 18 maart 2026 en beschrijft het als het eerste model in de M2 reeks dat diep deelneemt aan zijn eigen evolutie. Het model is gericht op coding, agent workflows en complexe productiviteitstaken, is beschikbaar via MiniMax Agent en de API, en wordt op Ollama getoond als een tekstmodel met een contextvenster van 200.000 tokens.

Wat MiniMax M2.7 precies is

Als je MiniMax M2.7 in één zin wil samenvatten, dan is het een werkmodel voor lange, complexe taken waarin redeneren, toolgebruik, samenwerking tussen meerdere agents en nauwkeurige uitvoering samenkomen. MiniMax koppelt M2.7 nadrukkelijk aan Agent Teams, complexe skills en dynamische toolselectie. Op de eigen modelpagina vermeldt het bedrijf ook dat er twee API varianten zijn, namelijk M2.7 en een snellere highspeed versie met identieke resultaten. Dat zegt veel over de positionering van dit model. Het is minder bedoeld als losse chatbot en meer als motor voor een complete werkomgeving waarin taken kunnen worden opgesplitst, uitgevoerd en bijgestuurd.

Wat dat zichzelf verbeteren echt betekent

De opvallendste claim rond MiniMax M2.7 is dat het zichzelf verbetert. Je moet dat wel juist lezen. In de beschrijving van MiniMax gaat het niet om een model dat zelfstandig op eigen houtje nieuwe gewichten traint en uitrolt. Wat M2.7 volgens MiniMax vooral doet, is meebouwen aan de agentlaag rond het model. Het werkt aan geheugen, skills, evaluaties, werkregels en de scaffold waarin het model taken uitvoert. Die nuance is belangrijk. De zelfverbetering zit dus in de manier waarop het model werkt, leert van eerdere rondes en zijn eigen werkomgeving slimmer maakt. Dat is minder sciencefictionachtig dan de kop doet vermoeden, maar technisch gezien nog altijd erg relevant.

Hoe de zelfverbetering van M2.7 werkt

Een agentomgeving die het model zelf helpt bouwen

MiniMax beschrijft eerst een interne onderzoeksomgeving waarin een vroege versie van M2.7 een research harness bouwt voor verschillende onderzoeksgroepen. Die omgeving ondersteunt datapijplijnen, trainingsomgevingen, infrastructuur, samenwerking tussen teams en persistent geheugen. In de dagelijkse praktijk van het RL team helpt de agent vervolgens bij literatuuronderzoek, het volgen van een experimentplan, het klaarzetten van data, het starten van experimenten en het volgen van logs. Tijdens zo’n run kan het systeem ook debugging uitvoeren, metrics analyseren, code aanpassen, merge requests voorbereiden en smoke tests draaien. Volgens MiniMax kan M2.7 op die manier al 30 tot 50 procent van die workflow oppakken, zodat mensen vooral nog nodig zijn voor de cruciale beslissingen.

Geheugen en zelfkritiek na elke ronde

De tweede laag van het systeem draait om feedback. MiniMax zegt dat de interne harness autonoom feedback verzamelt, eigen evaluatiesets voor interne taken opbouwt en vervolgens architectuur, skills en geheugenmechanismen blijft aanpassen. In de experimenten rond autonome optimalisatie werkt M2.7 met drie kernonderdelen, namelijk kortetermijngeheugen, zelffeedback en zelfoptimalisatie. Na elke iteratie schrijft de agent een geheugenbestand weg en levert hij kritiek op de vorige poging. De volgende ronde vertrekt vervolgens niet van nul, maar bouwt verder op alle eerdere observaties. In gewone taal komt het erop neer dat M2.7 niet alleen een taak uitvoert, maar ook bijhoudt wat wel en niet werkte en dat inzicht meteen meeneemt naar de volgende stap.

Een iteratieve lus met behouden of terugdraaien

Het meest concrete voorbeeld uit de aankondiging is een autonome optimalisatielus van meer dan honderd rondes. Daarbij analyseerde M2.7 faalpaden, plande het wijzigingen, paste het scaffold code aan, draaide het evaluaties, vergeleek het resultaten en besliste het of een wijziging behouden of teruggedraaid moest worden. MiniMax zegt dat het model in die cyclus zelf bruikbare optimalisaties vond, zoals betere samplinginstellingen, scherpere workflowregels en lusdetectie in de agentloop. Dat leverde volgens het bedrijf een prestatieverbetering van 30 procent op in interne evaluaties. In een tweede test liet MiniMax M2.7 meedraaien in 22 MLE Bench Lite competities op een enkele A30 GPU. Over drie runs van 24 uur haalde het model gemiddeld een medaillepercentage van 66,6 procent, met in de beste run 9 gouden, 5 zilveren en 1 bronzen medaille.

Waarom developers dit meteen voelen

Voor developers is MiniMax M2.7 vooral interessant omdat de zelfverbetering niet losstaat van software engineering. MiniMax koppelt die interne lus rechtstreeks aan productieachtige taken. In de aankondiging staat een voorbeeld waarin M2.7 live storingen analyseert door monitoringdata te koppelen aan deployments, hypotheses te vormen, databases te controleren en zelfs een ontbrekend migratiebestand in de codebasis aan te wijzen. Daarbij zou het systeem ook genoeg operationeel inzicht hebben om eerst met een niet blokkerende indexcreatie de schade te beperken en pas daarna een merge request voor te bereiden. MiniMax zegt dat zulke workflows de hersteltijd van incidenten in sommige gevallen onder de drie minuten brachten. Los van dat praktijkvoorbeeld zijn ook de gepubliceerde benchmarks stevig, met 56,22 procent op SWE Pro, 55,6 procent op VIBE Pro en 57,0 procent op Terminal Bench 2.

Die cijfers zijn vooral interessant omdat ze laten zien waar MiniMax M2.7 sterk wil zijn. Niet alleen bij losse codefragmenten, maar ook bij volledige projecten, repo begrip en taken waarin een model lang genoeg gefocust moet blijven om echt iets af te maken. MiniMax noemt daarnaast 76,5 op SWE Multilingual en 52,7 op Multi SWE Bench. Samen met de nadruk op Agent Teams wijst dat op een model dat goed moet functioneren in lange ketens van actie, controle en bijsturing. Als jij vooral met multi file refactors, debugging, toolgebruik en agents werkt, dan is dat een nuttiger profiel dan een model dat alleen goed scoort op korte benchmarkvragen.

Waarom kenniswerk en productiviteit hier ook beter van worden

MiniMax positioneert M2.7 niet alleen als codingmodel, maar ook als model voor professioneel kenniswerk. Op de officiële pagina legt het bedrijf uit dat M2.7 beter is geworden in het bewerken van Word, Excel en PowerPoint, inclusief meerdere revisierondes en nauwkeurige aanpassingen op bestaande bestanden. In GDPval AA haalde het model volgens MiniMax een ELO score van 1495. Ook stelt het bedrijf dat M2.7 een skill adherence van 97 procent behoudt over 40 complexe skills van meer dan 2.000 tokens. Daarnaast noemt MiniMax 46,3 procent op Toolathon en 62,7 procent op MM Claw, wat erop wijst dat het model niet alleen iets moet weten, maar ook stabiel moet kunnen blijven werken in een omgeving met veel instructies, tools en context.

Dat voordeel wordt concreter in het financiële voorbeeld dat MiniMax zelf geeft. Daar leest M2.7 jaarverslagen en earnings call verslagen, vergelijkt het meerdere researchrapporten, maakt het eigen aannames, bouwt het een omzetmodel en levert het daarna zowel een presentatie als een rapport op. Het bedrijf zegt dat professionals die output al als eerste versie in hun workflow kunnen gebruiken. Zelfs als je dat voorbeeld wat ambitieus vindt, is de onderliggende meerwaarde duidelijk. M2.7 probeert niet alleen antwoord te geven op een vraag, maar wil documenten, spreadsheets en deliverables produceren die in een echte werkstroom passen. Voor teams die nu nog veel tijd verliezen aan de sprong tussen idee, analyse en eerste versie, is dat waarschijnlijk een groter voordeel dan een paar extra benchmarkpunten.

De voordelen van MiniMax M2.7

Je krijgt een model dat langer op koers blijft. De combinatie van een contextvenster van 200.000 tokens, persistent geheugen in de agentomgeving en iteratieve feedback maakt M2.7 geschikter voor lange trajecten dan voor losse vraag en antwoord sessies.
Je krijgt meer dan alleen output. M2.7 is ontworpen om tools te gebruiken, taken op te delen en rollen over meerdere agents te verdelen, waardoor het beter past bij echte workflows.
Je wint tijd bij herhaling. Omdat het systeem feedback, geheugen en evaluaties meeneemt, hoeft niet elke volgende ronde opnieuw vanaf nul te beginnen.
Je kunt meer werk automatiseren zonder de controle helemaal los te laten. In MiniMax’ eigen beschrijving blijven mensen nodig voor belangrijke keuzes, terwijl het model een groot deel van de uitvoering overneemt.
Je kunt sneller uitrollen. MiniMax zegt dat M2.7 al beschikbaar is via de agentomgeving en de API, en biedt daarnaast een highspeed variant met dezelfde resultaten maar hogere snelheid.

Waar je nuchter over moet blijven

Juist omdat de term zichzelf verbeteren zo groot klinkt, is het slim om de claim niet mystieker te maken dan nodig. In de officiële uitleg zie je vooral optimalisatie van scaffold code, geheugen, skills, samplinginstellingen en workflowregels. Dat is waardevol, maar het is niet hetzelfde als een model dat volledig zelfstandig nieuwe gewichten traint en publiceert. Daarnaast komen veel van de sterkste cijfers rechtstreeks uit de aankondiging van MiniMax zelf. De juiste les is dus niet dat je elk ander model meteen moet afschrijven. De juiste les is dat M2.7 serieus genoeg lijkt om in jouw eigen workflow te testen, vooral als je werkt met coding agents, lange taken en toolrijke omgevingen.