Onderzoekers onthullen: AI-agents falen massaal bij prompt injection-aanvallen

maandag, 13 april 2026 om 18:00

AI-agents gevoelig voor prompt injection-aanvallen

AI-agents blijken massaal kwetsbaar voor prompt injection-aanvallen, volgens nieuw onderzoek op arXiv. De studie toont dat één kwaadaardige instructie zich door volledige AI-systemen kan verspreiden en uiteindelijk acties kan uitvoeren zonder dat gebruikers dit doorhebben. Dat maakt deze kwetsbaarheid direct relevant voor bedrijven en overheden die AI inzetten in productieomgevingen.

Het onderzoek “Kill-Chain Canaries” van Haochuan Kevin Wang en Zechen Zhang laat zien dat de huidige beveiliging van AI-agents fundamenteel tekortschiet. De kernboodschap is helder: het probleem zit niet alleen in het model, maar in de hele AI-pipeline.

Wat is prompt injection en waarom is het zo gevaarlijk?

Prompt injection is een aanval waarbij verborgen instructies AI-systemen manipuleren. Deze instructies worden bijvoorbeeld verstopt in documenten, e-mails of webpagina’s die een AI-agent verwerkt.

De aanval werkt omdat AI-modellen:

instructies niet altijd goed kunnen scheiden van data
externe input vertrouwen als legitiem
vaak automatisch acties uitvoeren op basis van die input

Het onderzoek toont dat dit probleem groter is dan gedacht. Het gaat niet om één fout, maar om een kettingreactie binnen AI-systemen.

Hoe de aanval zich verspreidt door AI-systemen

De onderzoekers introduceren een nieuw model om aanvallen te analyseren: een zogeheten “kill chain”. Dit beschrijft hoe een aanval zich stap voor stap door een AI-agent beweegt.

De vier fases zijn:

Exposed: de AI ziet de kwaadaardige prompt
Persisted: de instructie wordt opgeslagen in geheugen
Relayed: de instructie wordt doorgegeven aan andere onderdelen
Executed: de AI voert de instructie daadwerkelijk uit

De belangrijkste ontdekking is dat vrijwel alle modellen kwetsbaar zijn in de eerste fase. Het verschil ontstaat pas later in de keten.

Grote verschillen tussen AI-modellen

De onderzoekers testten meerdere toonaangevende AI-modellen in 950 experimenten. De resultaten laten grote verschillen zien in hoe systemen omgaan met aanvallen:

Sommige modellen blokkeren aanvallen volledig bij het opslaan van data
Andere modellen geven de aanval in meer dan 50 procent van de gevallen door
Eén model liet zelfs extreme variatie zien afhankelijk van de context

De conclusie is dat veiligheid niet consistent is, zelfs niet binnen één model.

Belangrijkste kwetsbaarheid: de architectuur van AI-agents

De studie maakt duidelijk dat de grootste zwakte niet het model zelf is, maar de manier waarop systemen zijn opgebouwd.

De meest kritieke factor is:

waar en hoe data wordt opgeslagen en verwerkt

Als een AI-agent bijvoorbeeld:

automatisch informatie opslaat
deze later opnieuw gebruikt
en acties uitvoert zonder verificatie

dan kan een aanval zich ongehinderd verspreiden.

Een opvallende bevinding is dat het routeren van geheugenopslag via een gecontroleerd model de aanval volledig kan stoppen. Dit maakt architectuurkeuzes cruciaal.

Onzichtbare aanvallen: witte tekst in PDF’s

Een van de meest zorgwekkende resultaten is dat aanvallen vaak onzichtbaar zijn.

De onderzoekers tonen aan dat:

verborgen tekst (zoals witte letters op een witte achtergrond)
net zo effectief is als zichtbare instructies

Dit betekent dat:

traditionele contentfilters falen
visuele inspectie geen bescherming biedt

Voor bedrijven die AI gebruiken om documenten te analyseren, zoals financiële rapporten, is dit een direct risico.

Waarom dit direct impact heeft op Nederland

Deze kwetsbaarheid raakt ook Nederlandse organisaties. Bedrijven en instellingen gebruiken AI-agents steeds vaker voor:

documentanalyse
klantenservice
workflow-automatisering
besluitvorming

Denk aan sectoren zoals:

financiële dienstverlening
overheid en uitvoeringsorganisaties
juridische en consultancykantoren

De studie benadrukt dat vooral documentverwerking een risicogebied is, precies waar AI-adoptie in Nederland snel groeit.

Waarom bestaande beveiliging tekortschiet

De onderzoekers tonen dat zelfs geavanceerde beveiligingsmaatregelen falen.

Belangrijke redenen:

beveiliging werkt per component, niet per keten
systemen begrijpen context niet volledig
verschillende communicatiekanalen veroorzaken fouten

Opvallend is dat aanvallen kunnen slagen zonder geavanceerde hackingtechnieken. Alleen een mismatch tussen systemen is al genoeg.

Wat bedrijven nu anders moeten doen

De belangrijkste les uit het onderzoek is dat AI-beveiliging fundamenteel moet veranderen.

Bedrijven moeten:

AI-systemen ontwerpen als ketens, niet losse modellen
geheugen en data-opslag strikt controleren
inputkanalen isoleren en valideren
AI-agents beperken in autonome acties

De focus verschuift van modelveiligheid naar systeemarchitectuur en governance.

Conclusie: AI-agents zijn krachtig, maar structureel kwetsbaar

AI-agents zijn kwetsbaar omdat ze functioneren als verbonden systemen. Eén kwaadaardige prompt kan zich verspreiden en uiteindelijk acties uitvoeren zonder menselijke controle.

Dit onderzoek laat zien dat: