Kimi K2.7 Code uitgelegd, het open-source model voor lange coding-sessies

Moonshot AI heeft met Kimi K2.7 Code een open-source model uitgebracht dat specifiek is gebouwd voor lange, complexe softwareprojecten. Kimi K2.7 Code is een agentic model dat plant, code aanpast, tools aanroept en debugt over honderden stappen. Onder de motorkap zit een Mixture-of-Experts architectuur met 1 biljoen parameters en een contextvenster van 256K tokens. Dat klinkt indrukwekkend op papier, maar interessanter is hoe het zich gedraagt in echte ontwikkelworkflows.

Wat Kimi K2.7 Code precies is

Kimi K2.7 Code is de coding-variant binnen de K2-familie van Moonshot AI. Het model is opgebouwd op K2.6 en gericht op wat Moonshot long-horizon software engineering noemt.

De gewichten staan op Hugging Face onder een aangepaste MIT-licentie. Je kunt het model zelf hosten via vLLM, SGLang of KTransformers, of je benadert het via de Kimi API. De repository is ongeveer 595 GB, dus zelf draaien lukt enkel op server.

De architectuur

De Mixture-of-Experts opzet activeert per token slechts 32 miljard van de 1 biljoen parameters. Concreet zijn er 384 experts, waarvan er 8 per token worden ingezet plus 1 gedeelde expert. Het model telt 61 lagen en gebruikt Multi-head Latent Attention voor de aandachtsberekeningen en SwiGLU in de feed-forward laag.

Daarnaast is er een visuele encoder ingebouwd. MoonViT voegt 400 miljoen parameters toe en maakt input via beelden en video mogelijk. Een screenshot van een crashende interface, een diagram van een database of een schermopname van een bug kun je dus rechtstreeks gebruiken. Het model ondersteunt native INT4-quantisation, wat het geheugengebruik beperkt.

Benchmarks en wat ze betekenen

Moonshot publiceerde zes benchmarkrijen waarin K2.7 Code wordt vergeleken met K2.6, GPT-5.5 en Claude Opus 4.8. Op elke rij verslaat K2.7 Code zijn voorganger. De grootste sprong zit op Kimi Code Bench v2, van 50.9 naar 62.0, een stijging van 21.8 procent. Op Program Bench gaat het model van 48.3 naar 53.6, een winst van 11 procent. Op MLS Bench Lite is de sprong nog opvallender, van 26.7 naar 35.1, oftewel 31.5 procent erbij.

Op agent-gerichte evaluaties is het patroon vergelijkbaar. Op Kimi Claw 24/7 Bench, MCP Atlas en MCP Mark Verified verbetert K2.7 Code gemiddeld met ongeveer 10 procent ten opzichte van K2.6. Op MCP Mark Verified scoort het model 81.1 tegen 76.4 voor Opus 4.8. Op MLS Bench Lite ligt het dicht bij GPT-5.5.

Belangrijke kanttekening: dit zijn vendor-gerapporteerde cijfers. Onafhankelijke evaluaties zijn nog niet beschikbaar. De testopstelling is wel transparant: K2.7 Code draaide via de Kimi Code CLI met thinking aan, temperatuur 1.0, top-p 0.95 en het volledige contextvenster van 262.144 tokens.

Minder denken, sneller resultaat

Een opvallend punt is de reductie in reasoning tokens. Redeneringsmodellen hebben de neiging om te lang te blijven hangen bij problemen die geen diepe overweging vereisen. K2.7 Code gebruikt gemiddeld zo’n 30 procent minder denktokens dan K2.6, terwijl het op de coding-benchmarks hoger scoort.

Voor wie het model in productie inzet, is dit op drie manieren belangrijk. De output-kosten per taak liggen lager. De responstijd in interactieve CLI-sessies verbetert. En een agent kan meer stappen zetten binnen hetzelfde contextbudget voordat de limiet bereikt wordt. In agentic workflows die honderden iteraties doorlopen, lopen de besparingen snel op.

Praktische toepassingen

Een aantal scenario’s komt naar voren als logische fit voor dit model.

Refactoring: wijs de agent op een falende testsuite. Het model leest bestanden, past code aan over modules heen en draait de tests opnieuw tot ze slagen.
Code review: Het venster van 256K tokens houdt grote diffs, logs en gerelateerde bestanden samen in één prompt.
MCP-tooling: de score van 81.1 op MCP Mark Verified suggereert dat het model goed presteert bij gestructureerde tool-aanroepen via het Model Context Protocol. Denk aan CI-checks, ticketupdates en bestandsbewerkingen in één loop.
Multimodale analyse: dankzij MoonViT kun je documentatie, screenshots en een opgenomen video van een bug gebruiken om een oplossing te zoeken.

Werken met de API

De Kimi API is OpenAI-compatibel, wat de overstap voor bestaande projecten relatief eenvoudig maakt. De model-identifier is kimi-k2.7-code. Er zijn wel een paar regels die je moet respecteren.

Thinking mode is verplicht. Schakel je het uit, dan geeft de API een foutmelding. In Kimi Code zelf worden requests zonder thinking automatisch doorgestuurd naar K2.6. De sampling-parameters liggen vast: temperatuur 1.0, top-p 0.95, n op 1 en penalties op 0.0. Pas je deze waarden aan, dan faalt het request. De standaard max output is 32.768 tokens.

Voor multi-step tool calls geldt dat je het veld reasoning_content uit de huidige beurt in de context moet houden. Verder mag tool_choice alleen op “auto” of “none” staan. Wie deze regels respecteert, krijgt een model dat redelijk voorspelbaar werkt binnen agentic frameworks.

Prijzen en toegang

De Kimi API hanteert per-token facturatie. Input bij cache miss kost ongeveer 0,95 dollar per miljoen tokens, met cache hit zakt dit naar 0,19 dollar. Automatische context-caching verlaagt de kosten dus aanzienlijk voor workflows waarin je hergebruik hebt, zoals lange agent-sessies in dezelfde repo. Output ligt rond de 3,39 tot 4 dollar per miljoen tokens, afhankelijk van de aanbieder.

Wie liever met een abonnement werkt, kan terecht bij Kimi Code zelf, met plannen vanaf 19 dollar per maand. Daarin zit een wekelijks verversend quotum. Het model is ook beschikbaar via aanbieders als Fireworks, waar je ook on-demand deployments op dedicated GPU’s kunt afnemen en LoRA-fine-tuning beschikbaar is.

K2.7 Code of K2.6, hoe kies je

Moonshot is hier duidelijk over: K2.7 Code is geoptimaliseerd voor coding en agentic taken. Voor schrijven, analyse en conversatie blijft K2.6 aanbevolen. Het is dus geen vervanger van het algemene model, maar een gespecialiseerde variant naast de bestaande lijn.

Een nuchtere blik op de impact

Wat K2.7 Code interessant maakt, is niet zozeer een individuele benchmarkscore, maar de combinatie van open gewichten, lange context, lagere redeneringskosten en concurrerende prijzen. Voor teams die agentic coding-pijplijnen bouwen en de controle over hun stack willen behouden, is een zelf-hostbaar model van dit kaliber een serieuze optie.