Een nieuwe standaard in AI-modellen
Op 17 februari 2026 lanceerde Anthropic Claude Sonnet 4.6. Betaalbaarheid en prestaties staan centraal in deze LLM. Sonnet 4.6 behaalt op veel vlakken dezelfde resultaten als het duurdere Opus 4.6-model tegen een fractie van de prijs. Voor ontwikkelaars en bedrijven die dagelijks met AI werken, betekent dit een verschuiving in wat economisch haalbaar is.
Het model kost $3 per miljoen input tokens en $15 per miljoen output tokens, precies hetzelfde als zijn voorganger Sonnet 4.5. Maar waar Sonnet 4.5 nog duidelijk achterbleef bij Opus-modellen, sluit Sonnet 4.6 die kloof bijna volledig. Op sommige benchmarks presteert het zelfs beter dan Opus 4.6, dat vijf keer duurder is.
Wie zit er achter Anthropic
Anthropic werd opgericht door voormalige OpenAI-medewerkers, waaronder Dario Amodei en Daniela Amodei. Het bedrijf richt zich op het ontwikkelen van veilige en betrouwbare AI-systemen. In tegenstelling tot veel concurrenten legt Anthropic een sterke nadruk op AI-veiligheid en alignment, wat betekent dat hun modellen zo zijn ontworpen dat ze zich gedragen volgens menselijke waarden en intenties.
De Claude-modellijn, waar Sonnet 4.6 deel van uitmaakt, staat bekend om zijn evenwicht tussen capaciteit en veiligheid. Anthropic hanteert een AI Safety Level (ASL) classificatiesysteem, waarbij Sonnet 4.6 onder ASL-3 valt, hetzelfde niveau als Opus 4.6. Dit betekent dat het model uitgebreide veiligheidsevaluaties heeft ondergaan voordat het werd uitgebracht.
Het bedrijf heeft in 2025 een indrukwekkende groei doorgemaakt, met een omzet die steeg van $100 miljoen in 2023 naar $1 miljard in 2024 en naar verwachting $9-10 miljard in 2025. Deze groei wordt gedreven door snelle adoptie in bedrijfsomgevingen, waar organisaties AI-modellen inzetten voor complexe taken die voorheen menselijke expertise vereisten.
Computer use: van experiment naar praktisch hulpmiddel
Een van de meest opvallende verbeteringen in Sonnet 4.6 is de computer use-functionaliteit. In oktober 2024 introduceerde Anthropic als eerste een AI-model dat een computer kon bedienen zoals een mens dat doet: door naar het scherm te kijken, de muis te bewegen en op het toetsenbord te typen. Deze functie was experimenteel en foutgevoelig.
Zestien maanden later scoort Sonnet 4.6 72,5% op OSWorld-Verified, een benchmark die test hoe goed een model echte computertaken kan uitvoeren. Ter vergelijking: Opus 4.6 scoort 72,7%. Het verschil is verwaarloosbaar. Vroege gebruikers melden dat het model menselijk niveau bereikt bij taken zoals het navigeren door complexe spreadsheets, het invullen van webformulieren over meerdere stappen en het samenvoegen van informatie uit verschillende browsertabbladen.
Deze vooruitgang heeft directe praktische gevolgen. Veel organisaties werken met legacy-software die nooit is ontworpen voor API-integratie. Een model dat deze software gewoon kan gebruiken zoals een mens dat doet, opent nieuwe automatiseringsmogelijkheden zonder dat er maatwerk nodig zijn.
Veiligheid bij computer use
Computer use brengt specifieke veiligheidsrisico’s met zich mee. Wanneer een AI-model autonoom door het web navigeert, kunnen kwaadwillenden proberen het te kapen door verborgen instructies op websites te plaatsen, een techniek die prompt injection wordt genoemd. Sonnet 4.6 toont een grote verbetering in weerstand tegen deze aanvallen vergeleken met Sonnet 4.5
In codeomgevingen daalde het succespercentage van aanvallen naar 0% wanneer extended thinking is ingeschakeld. In browseromgevingen daalde het succespercentage per poging van ongeveer 20% bij Sonnet 4.5 naar minder dan 0,3% bij Sonnet 4.6. Dit maakt computer use aanzienlijk veiliger.
Coding: gebruikers verkiezen het boven Opus
Op het gebied van programmeren laat Sonnet 4.6 opmerkelijke verbeteringen zien. In Claude Code, Anthropic’s command-line coding tool, gaven vroege testers de voorkeur aan Sonnet 4.6 boven Sonnet 4.5 in ongeveer 70% van de gevallen. Nog opvallender: ze gaven de voorkeur aan Sonnet 4.6 boven Opus 4.5 in 59% van de gevallen.
Gebruikers melden dat het model effectiever context leest voordat het code aanpast en gedeelde logica consolideert in plaats van te dupliceren. Dit maakt het minder frustrerend om mee te werken tijdens lange codeersessies. Het model is ook minder geneigd tot overengineering en luiheid, twee gedragingen die eerdere modellen vertoonden.
Op SWE-bench Verified, een benchmark die test hoe goed modellen echte GitHub-issues kunnen oplossen, scoort Sonnet 4.6 79,6%, vergeleken met 80,8% voor Opus 4.6. Het verschil van ongeveer één procentpunt is zo klein dat de meeste ontwikkelaars het in hun dagelijks werk niet zullen merken.
Beter in het herkennen van problemen
Een interessante verbetering is dat Sonnet 4.6 beter is in het herkennen wanneer iets niet klopt. In testscenario’s waarbij tests duidelijk verkeerd waren gespecificeerd, schreven eerdere modellen onbruikbare code om de tests te laten slagen. Sonnet 4.6 herkent het probleem vaker en signaleert dit aan de gebruiker. Het vangt ook subtiele bugs die bestaande testsuites missen zoals string truncation.
Een miljoen tokens context
Sonnet 4.6 beschikt over een contextvenster van 1 miljoen tokens in bèta. Dat is genoeg om volledige codebases, lange contracten of tientallen onderzoekspapers in één keer te verwerken. Maar ruwe contextgrootte is niet het interessante deel. Wat telt is of het model effectief kan redeneren over al die informatie.
Het bewijs suggereert dat het dat kan. Op Vending-Bench Arena, een simulatie waarin AI-modellen concurreren om het meest winstgevende automatenpark te runnen, ontwikkelde Sonnet 4.6 een strategie die geen enkel eerder model had geprobeerd. Het investeerde zwaar in capaciteit gedurende de eerste tien gesimuleerde maanden en draaide dan scherp naar winstgevendheid in de laatste fase. Deze timing hielp het ver voor de concurrentie te eindigen.
Dit is geen voorgeprogrammeerde strategie. Het model bedacht dit door te redeneren over een lange tijdshorizon, iets wat alleen mogelijk is met de combinatie van een enorm contextvenster en de intelligentie om het te gebruiken.
Lange gesprekken zonder kwaliteitsverlies
Een veelvoorkomend probleem bij AI-modellen is context rot: de prestaties verslechteren naarmate gesprekken langer worden, waarbij het model geleidelijk eerdere informatie vergeet, zichzelf herhaalt of afdrijft van de oorspronkelijke taak. Sonnet 4.6 handhaaft de kwaliteit over lange gesprekken veel beter dan Sonnet 4.5. Het houdt informatie vast en volgt deze over honderdduizenden tokens met minder drift.
Voor iedereen die Claude gebruikt voor uitgebreide werksessies zoals lange debugging-runs, onderzoek in meerdere fasen of iteratief documentwerk, is dit een van de meest praktisch betekenisvolle verbeteringen.
Prestaties op kenniswerk en financiële analyse
Op GDPval-AA, een evaluatie van economisch waardevolle kenniswerktaken over 44 beroepen en 9 industrieën, scoort Sonnet 4.6 een ELO van 1633. Dit is de hoogste score van alle geteste modellen. Opus 4.6 scoorde 1606. Voor taken die het meest lijken op professioneel werk zoals financiële analyse, juridisch werk en onderzoek, is Sonnet 4.6 het beste beschikbare model tegen welke prijs dan ook.
Op de Finance Agent benchmark van Vals AI, die onderzoek naar SEC-documenten van beursgenoteerde bedrijven test, scoort Sonnet 4.6 63,3% met maximale thinking, waarmee het elk ander getest model verslaat.
Klanten melden ook dat de visuele output van Sonnet 4.6, zoals grafieken, presentaties en opgemaakte documenten, opvallend beter is. Betere lay-outs, animaties en ontwerpgevoel. Er zijn minder iteratierondes nodig om tot productiekwaliteit te komen.
Veiligheid en alignment
De intelligentiewinsten in Sonnet 4.6 gaan niet ten koste van veiligheid. Veiligheidsonderzoekers concludeerden dat het model een breed warm, eerlijk en sociaal karakter heeft
Op sommige alignment-metingen toonde Sonnet 4.6 de beste mate van alignment die Anthropic ooit in een Claude-model heeft gezien. Op de moeilijkere evaluatie van schadelijke verzoeken bereikte het een harmless response rate van 99,40%, het hoogste van alle geteste modellen. Het toonde sterke patroonherkenning van manipulatietactieken in multi-turn settings, met snellere disengagement en correcte identificatie van social engineering-pogingen.
Minder onnodige weigeringen
Sonnet 4.6 bereikt een opvallend beter evenwicht bij over-refusals, wanneer het model onnodig weigert om onschuldige vragen te beantwoorden. Op moeilijkere evaluaties van onschuldige verzoeken, waar Sonnet 4.5 een over-refusal rate van 8,50% had, daalde Sonnet 4.6 naar slechts 0,18%. Het evalueert effectiever het onderliggende verzoek in plaats van verward te raken door uitgebreide formuleringen.
Nieuwe functies voor ontwikkelaars
Sonnet 4.6 introduceert adaptive thinking, waarbij het model zelf kan beslissen wanneer dieper redeneren nuttig zou zijn. Ontwikkelaars kunnen het inspanningsniveau aanpassen om dit te controleren. Het praktische voordeel: je hoeft niet te raden of je thinking aan of uit moet zetten voor een bepaalde taak, het model bedenkt het zelf.
Context compaction is beschikbaar in bèta. Langlopende gesprekken en agentische taken bereiken vaak de limiet van het contextvenster. Context compaction vat automatisch oudere context samen en vervangt deze wanneer gesprekken de limiet naderen, waardoor Claude langere taken kan uitvoeren zonder te stoppen.
Claude’s web search (API) en fetch tools voeren nu automatisch code uit om zoekresultaten te filteren en verwerken, waarbij alleen relevante content in context wordt gehouden. Dit verbetert zowel de kwaliteit van de respons als de token-efficiëntie.
Praktische beschikbaarheid
Claude Sonnet 4.6 is nu beschikbaar op alle Claude-plannen (Free, Pro, Max, Team en Enterprise), Claude Cowork, Claude Code, de Anthropic API en alle grote cloudplatforms. Het is het standaardmodel voor Free en Pro-gebruikers op claude.ai.
De gratis tier is geüpgraded naar Sonnet 4.6 als standaard en bevat nu bestandscreatie, connectors, skills en compaction. Dit is een aanzienlijke uitbreiding van wat gratis gebruikers kunnen doen, met functies die voorheen achter betaalde plannen zaten.
Voor ontwikkelaars is het model direct beschikbaar via de API met de modelstring “claude-sonnet-4-6”. De standaardprijzen van $3/$15 per miljoen tokens zijn van toepassing. Voor prompts die 200.000 tokens overschrijden en het uitgebreide contextvenster van 1 miljoen tokens gebruiken, kunnen premiumprijzen gelden, afhankelijk van het platform.
Wat betekent dit voor jou
De combinatie van Opus-niveau intelligentie, Sonnet-niveau prijzen en verbeterde functies zoals computer use, lange context en adaptive thinking, maakt Sonnet 4.6 tot het model dat de overgang mogelijk maakt van AI als chatbot naar AI als autonome werker die taken uitvoert terwijl jij slaapt.