AI leert zichzelf hacken en kraakt andere systemen met ongekende precisie

vrijdag, 27 maart 2026 om 12:00

Onderzoekers trekken een opvallende conclusie na een onderzoek: een AI-agent heeft zelfstandig nieuwe manieren ontwikkeld om andere AI-systemen te misleiden. Het paper, getiteld Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs, laat zien dat AI niet alleen slimmer wordt, maar ook beter in het omzeilen van beveiliging.

De kern: een AI-systeem analyseert bestaande hacks, bedenkt zelf verbeteringen en test die direct. Zonder menselijke tussenkomst.

Het resultaat is opvallend. De nieuwe aanvalstechnieken behalen tot 40 procent succes bij zogenaamde jailbreaks. Dat is een forse stijging ten opzichte van eerdere methodes, die rond de 10 procent bleven hangen.

Wat is hier precies gebeurd?

De onderzoekers gebruikten een AI-agent gebaseerd op Claude Code. Deze agent kreeg één taak: verbeter bestaande aanvalstechnieken op taalmodellen.

Dat proces verliep volledig autonoom:

De AI analyseerde bestaande methodes
De AI genereerde nieuwe varianten
De AI testte en optimaliseerde deze aanvallen continu

Dit proces wordt “autoresearch” genoemd. Dat betekent dat AI zelfstandig onderzoek uitvoert, inclusief iteratie en verbetering.

Omdat de AI direct feedback krijgt op succes of falen, versnelt het leerproces extreem. Waar menselijke onderzoekers dagen of weken nodig hebben, doet de AI dit in minuten of uren.

Resultaten die verder gaan dan bestaande beveiliging

De impact van deze aanpak is groot. De nieuwe algoritmes:

Overtreffen meer dan 30 bestaande aanvalstechnieken
Bereiken tot 40 procent succes bij gevoelige queries
Halen in sommige tests zelfs 100 procent succes

Vooral dat laatste is opvallend. In tests tegen een model van Meta wist de AI alle beveiligingslagen volledig te omzeilen.

Daarnaast blijken de aanvallen overdraagbaar. Dat betekent dat een aanval die is ontwikkeld op één model, ook werkt op andere modellen. Dit maakt het probleem schaalbaar en moeilijker te beheersen.

Waarom dit een fundamentele verschuiving is

Dit onderzoek markeert een kantelpunt in AI-ontwikkeling. Tot nu toe lag de focus op het verbeteren van prestaties en veiligheid. Maar nu blijkt dat AI ook zelfstandig kwetsbaarheden kan ontdekken en exploiteren.

Belangrijke implicaties:

AI wordt een actieve speler in cyberaanvallen
Beveiliging verandert in een AI-tegen-AI strijd
Ontwikkeling van aanvallen versnelt exponentieel

Waar voorheen menselijke hackers nodig waren, kan AI nu zelf nieuwe aanvalspaden vinden. Dat verlaagt de drempel voor misbruik aanzienlijk.

Nederlandse context: systemen niet voorbereid op AI-aanvallen

Voor Nederland is dit geen theoretisch probleem. Overheidsinstanties en bedrijven integreren steeds vaker AI in hun processen. Denk aan klantenservice, besluitvorming en fraudedetectie.

Maar deze systemen zijn vaak niet ontworpen voor aanvallen die door AI zelf worden gegenereerd.

Dit sluit direct aan op eerdere waarschuwingen van cybersecurity-experts en beleidsorganen. Zij benadrukken dat AI niet alleen kansen biedt, maar ook nieuwe risico’s introduceert.

De realiteit verschuift snel:

Aanvallen worden complexer
Detectie wordt moeilijker
Reactietijd wordt korter

Vooral organisaties zonder gespecialiseerde AI-securityteams lopen risico.

Versnelling én escalatie van AI-veiligheid

Het onderzoek laat ook een dubbel effect zien. Aan de ene kant kan deze technologie worden ingezet voor betere beveiliging. AI kan immers ook helpen om kwetsbaarheden sneller te ontdekken.

Aan de andere kant ontstaat een wapenwedloop:

Aanvallende AI wordt slimmer
Verdedigende AI moet sneller reageren
Innovatie versnelt aan beide kanten

Dit maakt AI-veiligheid een dynamisch en moeilijk te beheersen domein.

Conclusie: AI leert zichzelf hacken

De belangrijkste conclusie is helder: AI-systemen kunnen nu zelfstandig nieuwe manieren ontwikkelen om andere AI-systemen te misleiden.

Dat verandert de spelregels fundamenteel.

Niet omdat AI “gevaarlijk” is op zichzelf. Maar omdat de snelheid, schaal en autonomie van deze ontwikkeling traditionele beveiligingsmodellen onder druk zetten.

Voor bedrijven, overheden en ontwikkelaars betekent dit één ding: AI-beveiliging is geen bijzaak meer. Het is een kernonderdeel van elke AI-strategie.