Een nieuwe generatie securityonderzoeker

Stel je voor dat je een securityonderzoeker hebt die nooit slaapt, nooit moe wordt en continu je code doorlicht op zoek naar zwakke plekken. Dat is precies wat OpenAI voor ogen had toen ze Aardvark ontwikkelden. Deze autonome AI-agent, aangedreven door GPT-5, is ontworpen om softwareveiligheid naar een hoger niveau te tillen.

In 2024 alleen al werden meer dan 40.000 nieuwe kwetsbaarheden (CVE’s) gerapporteerd. Voor ontwikkelaars en beveiligingsteams is het een race tegen de klok om deze problemen te vinden en op te lossen voordat schurken ze kunnen uitbuiten. Aardvark moet die balans doen doorslaan in het voordeel van de verdedigers.

Wat is Aardvark precies?

Aardvark is geen gewone scanningtool. Het is een AI-agent die redeneert zoals een menselijke securityonderzoeker dat zou doen. In plaats van te vertrouwen op traditionele technieken zoals fuzzing of software composition analysis, gebruikt Aardvark de kracht van large language models om code te begrijpen en kwetsbaarheden te identificeren.

De tool integreert naadloos met platforms zoals GitHub en past zich aan bestaande ontwikkelworkflows. Momenteel bevindt Aardvark zich in een besloten bètafase, waarbij OpenAI de mogelijkheden test bij geselecteerde partners en binnen hun eigen codebases.

Wat Aardvark bijzonder maakt, is dat het niet alleen problemen vindt, maar ook actief helpt bij het oplossen ervan. Via integratie met OpenAI Codex genereert de tool patches die ontwikkelaars met één klik kunnen reviewen en implementeren.

Hoe werkt deze digitale securityspecialist?

Aardvark doorloopt een meerstappenpijplijn die zowel grondig als efficiënt is. Het proces begint met het analyseren van een volledige repository om te begrijpen wat de code doet, welke doelen het project heeft en welke securityimplicaties er zijn.

Stap 1: het threat model

Eerst creëert Aardvark een threat model op basis van de hele repository. Dit model dient als referentiekader voor alle toekomstige scans. Wanneer nieuwe code wordt toegevoegd, controleert Aardvark deze meteen tegen dit model.

Stap 2: scannen en annoteren

De AI-agent leest code zoals een mens dat zou doen. Het analyseert de logica, voert tests uit en gebruikt gespecialiseerde tools om potentiële problemen te identificeren. Wanneer Aardvark een kwetsbaarheid vindt, annoteert het de problematische code met duidelijke uitleg zodat ontwikkelaars precies begrijpen wat er mis is.

Stap 3: validatie in een sandbox

Hier wordt het interessant. Aardvark probeert actief om de gevonden kwetsbaarheid te exploiteren in een veilige sandbox-omgeving. Dit minimaliseert false positives en zorgt ervoor dat alleen echte bedreigingen worden gerapporteerd. Resultaten krijgen metadata mee waarmee teams bevindingen kunnen filteren en prioriteren.

Stap 4: automatische patches

Als laatste stap genereert Aardvark via Codex een patch die al is gescand op kwaliteit. Ontwikkelaars krijgen dus niet alleen een melding van het probleem, maar meteen ook een werkende oplossing.

Hoe Aardvark werkt

De prestaties in de praktijk

OpenAI heeft Aardvark al enkele maanden intern getest en de resultaten zijn veelbelovend. In benchmarktests op zogenaamde “golden” repositories identificeerde de tool 92% van de bekende en synthetisch geïntroduceerde kwetsbaarheden. Dat is een indrukwekkend percentage.

Maar het blijft niet bij testen. Aardvark heeft al diverse kwetsbaarheden in open-source projecten ontdekt en verantwoordelijk gemeld. Tien daarvan hebben inmiddels een officiële CVE-identificatie gekregen. OpenAI heeft ook aangekondigd dat ze geselecteerde niet-commerciële open-source projecten gratis scanning zullen aanbieden.

Uit onderzoek blijkt dat ongeveer 1,2% van alle code commits bugs introduceert. Kleine wijzigingen kunnen grote gevolgen hebben, en dat is precies waar Aardvark zijn kracht toont. De tool monitort continu en vangt problemen op voordat ze in productie terechtkomen.

De voordelen van een onvermoeibare securityagent

De grootste troef van Aardvark is natuurlijk de continue monitoring. Terwijl menselijke onderzoekers pauzes nodig hebben, draait Aardvark 24/7. Dit betekent dat nieuwe code meteen wordt gescand zodra deze wordt toegevoegd aan een repository.

Een ander voordeel is de snelheid. Waar een handmatige code review uren of dagen kan duren, analyseert Aardvark code in een fractie van die tijd. Dit versnelt het ontwikkelproces zonder dat de veiligheid in het gedrang komt.

De tool is ook bijzonder veelzijdig. Naast securitykwetsbaarheden kan Aardvark ook logic flaws, incomplete fixes en privacy-problemen aan het licht brengen. Het is dus meer dan alleen een securitytool, het is een algehele code quality checker.

Voor ontwikkelaars is het fijn dat Aardvark niet alleen problemen signaleert, maar ook oplossingen aandraagt. De gegenereerde patches zijn direct bruikbaar, wat de drempel om problemen op te lossen aanzienlijk verlaagt.

De nadelen en uitdagingen

Natuurlijk is geen enkele technologie perfect, en Aardvark heeft ook zijn beperkingen. Een belangrijk aandachtspunt is het energieverbruik. AI-modellen zoals GPT-5 vereisen enorme hoeveelheden rekenkracht. Experts wijzen erop dat de compute costs om zo’n tool continu te laten draaien aanzienlijk kunnen zijn.

Een ander punt van discussie is de focus op bepaalde types kwetsbaarheden. Sommige securityexperts merken op dat AI-modellen zoals Aardvark vooral effectief zijn bij het vinden van high-volume, low-impact bugs. Voor complexere, diepgaande kwetsbaarheden blijft menselijke expertise voorlopig onmisbaar.

Er is ook de vraag van false positives en false negatives. Hoewel Aardvark een sandbox gebruikt om kwetsbaarheden te valideren, blijft er altijd een kans dat sommige problemen over het hoofd worden gezien of dat legitieme code ten onrechte wordt gemarkeerd als problematisch.

Een nieuwe aanpak voor vulnerability disclosure

Interessant is dat OpenAI ook hun vulnerability disclosure beleid heeft aangepast met de komst van Aardvark. In plaats van strikte deadlines te hanteren, kiest het bedrijf nu voor een meer samenwerkingsgerichte aanpak.

OpenAI verwacht dat tools zoals Aardvark zullen leiden tot meer ontdekte bugs. Daarom willen ze op een duurzame manier samenwerken met ontwikkelaars om veerkracht te bereiken, in plaats van druk uit te oefenen met strakke tijdslimieten.

De toekomst van AI in cybersecurity

Aardvark is niet de enige AI-securitytool op de markt. Startups zoals XBOW hebben ook AI-modellen ontwikkeld die succesvol zijn op bug bounty platforms zoals HackerOne en BugCrowd. Deze modellen kunnen honderden kwetsbaarheden identificeren en oplossen, vaak met minimale menselijke tussenkomst.

Wat deze ontwikkeling zo waardevol maakt, is dat geautomatiseerde programma’s de duizenden low-severity bugs kunnen aanpakken die het internet teisteren. Dit geeft menselijke securityonderzoekers de ruimte om zich te concentreren op complexere kwetsbaarheden.

Veel grote cyberaanvallen en malware-campagnes draaien niet om zero-days of high-severity bugs, maar om het aan elkaar schakelen van meerdere low- en medium-impact kwetsbaarheden in ongepatchte systemen. Een tool die deze problemen systematisch aanpakt, heeft dus enorme waarde.