Kunnen artificiële intelligentie en autonome agents het werk van een menselijke cybersecurity-expert, CISO of ethische hacker overnemen? Tot voor kort was het antwoord “nee, nog niet”. AI was goed in specifieke taken, maar miste het overzicht en de creativiteit van een doorgewinterde pentester.
Maar de tijden veranderen snel. Een baanbrekend onderzoek, uitgevoerd door onderzoekers van Stanford University, Carnegie Mellon en Gray Swan AI, heeft de kaarten opnieuw geschud. In hun paper, getiteld “Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing“, worden de prestaties van menselijke experts rechtstreeks vergeleken met die van geavanceerde AI-modellen in een live bedrijfsomgeving. De resultaten zijn confronterend.
De opzet, geen simulatie maar in de echte realiteit
Wat dit onderzoek zo uniek maakt, is de setting. Veel eerdere benchmarks voor AI in cybersecurity waren gebaseerd op ‘Capture The Flag’ (CTF) competities of synthetische omgevingen die speciaal waren opgezet om bepaalde kwetsbaarheden te testen. Hoewel nuttig, missen deze omgevingen de “ruis”, de complexiteit en de schaal van een echt bedrijfsnetwerk.
Voor deze studie kregen de onderzoekers toegang tot een enorm netwerk van een grote onderzoeksuniversiteit. We spreken hier over een omgeving met ongeveer 8.000 hosts verspreid over 12 subnetten. Het netwerk bevatte een mix van Unix-systemen, Windows-machines, IoT-apparaten en diverse embedded systems. Dit is het soort rommelige, heterogene omgeving waar pentesters in de echte wereld dagelijks mee te maken krijgen.
De deelnemers
Aan de menselijke kant werden tien cybersecurity-professionals gerekruteerd. Dit waren geen amateurs; de deelnemers varieerden van ervaren pentesters tot houders van gerespecteerde certificeringen zoals OSCP (Offensive Security Certified Professional). Ze kregen een vergoeding van $2.000 voor hun tijd en moesten proberen zoveel mogelijk kwetsbaarheden te vinden en te exploiteren.
Aan de AI-kant werden zes bestaande ‘agent scaffolds’ (zoals OpenAI’s Codex en CyAgent) getest, samen met een nieuw ontwikkeld raamwerk genaamd Artemis. De AI-agents kregen dezelfde toegang en dezelfde doelen als de mensen: vind gaten in de beveiliging, buit ze uit, en rapporteer ze.
Artemis, de AI agent als uitdager
De meeste bestaande AI-agents faalden jammerlijk in deze complexe omgeving. Ze liepen vast bij hun eerste verkenning of konden de context van een groot netwerk niet beheersen. Hier komt Artemis of Automated Red Teaming Engine with Multi-agent Intelligent Supervision om de hoek kijken. Dit is geen simpele chatbot die commando’s uitvoert, maar een geavanceerd multi-agent systeem.
Artemis werkt met drie kerncomponenten:
- De supervisor: het brein dat de workflow beheert, taken plant en het overzicht bewaart over de lange termijn.
- Sub-agents: een zwerm werkers die specifieke taken uitvoeren, zoals het scannen van een poort of het uitvoeren van een exploit.
- De triager: een agent die gevonden kwetsbaarheden verifieert om valse positieven te verminderen.
Door deze structuur kon Artemis veel langer autonoom opereren dan zijn voorgangers en kon het meerdere aanvallen tegelijkertijd uitvoeren. Waar een menselijke hacker sequentieel werkt (stap voor stap), kon ARTEMIS parallelle aanvallen lanceren op verschillende delen van het netwerk.
De resultaten
De resultaten van de studie zijn een wake-up call voor de cybersecurity industrie. Op het leaderboard van gevonden en gevalideerde kwetsbaarheden eindigde ARTEMIS op de tweede plaats. De AI-agent presteerde beter dan 9 van de 10 menselijke cybersecurity-experts.
De cijfers
Artemis ontdekte 9 unieke, valide kwetsbaarheden en behaalde een validatiepercentage van 82% op zijn inzendingen. Ter vergelijking: de andere AI-agents (zoals Codex en CyAgent) vonden nauwelijks iets van waarde of liepen vast in de verkenningsfase. Alleen de allerbeste menselijke deelnemer wist Artemis te verslaan.
De kostenfactor
Misschien wel het meest schokkende aspect van de studie is de kostenanalyse. Het inhuren van een professionele pentester is duur. In de studie werd gerekend met een conservatief tarief van ongeveer $60 per uur. De operationele kosten voor het draaien van Artemis is slechts $18 per uur (voor de A1-variant op basis van GPT-5).
Als we dit doortrekken naar een jaarbasis, kost een ARTEMIS-achtige oplossing ongeveer $37.876, terwijl een fulltime senior pentester in de VS al snel $125.000 of meer kost.
Waar de mens nog steeds overheerst
Betekent dit dat alle ethische hackers morgen op straat staan? Nee, de tudie bracht duidelijke zwakke plekken van de AI aan het licht en toonde aan waarom menselijke expertise cruciaal blijft.
Creativiteit en context
De menselijke winnaar en de runner-ups blonken uit in situaties die creativiteit vereisten. Mensen zijn beter in het leggen van onverwachte verbanden. Als een menselijke hacker een vreemde configuratie ziet die niet direct een standaard kwetsbaarheid is, gaat er een belletje rinkelen. Een AI-agent mist vaak die intuïtie en focust zich strikt op bekende patronen.
De interface barrière
Een groot struikelblok voor Artemis was de interactie met interfaces (GUI’s). Veel moderne webapplicaties en beheerderspanelen vereisen dat je klikt, sleept of visueel interpreteert wat op het scherm gebeurt. De studie haalt een specifiek voorbeeld aan van een “TinyPilot” interface. 80% van de menselijke deelnemers vond hier een kritieke kwetsbaarheid (Remote Code Execution) omdat ze via de browser konden interageren met het systeem. Artemis faalde hier omdat het moeite had met de visuele interface en vooral goed was met command-line interacties.
Valse positieven
Hoewel Artemis een indrukwekkende validatiescore had, produceerde het meer valse positieven dan de menselijke experts. De AI rapporteerde bijvoorbeeld soms dat een login succesvol was omdat de server een “200 OK” status teruggaf, terwijl het in werkelijkheid een redirect was naar een “login mislukt”-pagina. Een mens ziet dit in één oogopslag; voor een AI die puur op code-output vertrouwt, is dit lastiger te interpreteren zonder visuele context.
Glazing en overreliance
Een risico is het gevaar van glazing of overmatig vertrouwen. Als bedrijven blindelings vertrouwen op AI-tools zoals Artemis bestaat het risico dat ze een vals gevoel van veiligheid krijgen. De AI vindt misschien het laaghangend fruit en bekende CVE’s razendsnel, maar mist de complexe, multi-step aanvalsvectoren die een menselijke aanvaller zou gebruiken. Een AI heeft (nog) geen motief om buiten de gebaande paden te treden.
De toekomst is hybride pentesting
De conclusie van het onderzoek is niet dat AI de mens vervangt, maar dat de rol van de mens verandert. We bewegen ons richting een hybride model. De resultaten tonen aan dat AI-agents superieur zijn in systematische enumeratie en het parallel uitvoeren van taken. Ze worden niet moe, ze vergeten geen subnetten te scannen en ze zijn goedkoop.
Voor de toekomst van cybersecurity professionals betekent dit het volgende:
- Van uitvoerder naar supervisor: de pentester van de toekomst zal minder tijd besteden aan het handmatig draaien van Nmap-scans of het zoeken naar standaard wachtwoorden. Dat doet de AI. De professional wordt een supervisor die de AI-agents aanstuurt, de resultaten interpreteert en de strategie bepaalt.
- Focus op complexiteit: Omdat de AI het saaie werk overneemt, kunnen experts zich focussen op de echt complexe puzzels. Denk aan het vinden van logische fouten in bedrijfsapplicaties, social engineering, of het exploiteren van systemen die visuele interactie vereisen.
- Snelheid en schaalbaarheid: Met tools als Artemis kunnen bedrijven hun netwerken continu testen in plaats van eens per jaar. Dit verhoogt de veiligheid aanzienlijk. De menselijke expert komt dan in actie zodra de AI iets verdachts vindt dat nader onderzoek vereist.
De revolutie in offensive security is begonnen. Ze wordt aangedreven door algoritmes maar gestuurd door mensen.