AI bedreigingen onder de loep: Palisade Research ontwikkelt slimme ‘honeypot’

Nieuws
zaterdag, 26 oktober 2024 om 17:54
ai bedreigingen onder de loep palisade research ontwikkelt slimme honeypot
Een nieuw type ‘honeypot’ van Palisade Research heeft wereldwijd interacties met miljoenen potentiële AI-gestuurde aanvallers geregistreerd, met als doel om bedreigingen door grote taalmodellen (LLM's) in kaart te brengen en te analyseren.
Om de dreiging van autonome AI-hackers beter te begrijpen en beheersen, heeft Palisade Research een ‘honeypot’ ontwikkeld en wereldwijd uitgerold in tien landen. Deze opzettelijk kwetsbare digitale vallen zijn ontworpen om AI-gestuurde aanvallen te lokken en de methoden van deze systemen te observeren. De honeypot, die door Palisade op 25 oktober publiekelijk werd toegelicht, registreerde meer dan 1,2 miljoen interacties, waarvan zes incidenten mogelijk afkomstig waren van autonome AI-agenten.

AI-honeypots: Hoe ze werken

De honeypot bevatte zogenaamde ‘prompt injections’—misleidende opdrachten die de AI-agents aanmoedigen tot het uitvoeren van onbedoelde acties. Deze opdrachten worden ingebed in banners, systeemberichten en bestanden binnen het honeypotsysteem. Door nauwkeurig te analyseren hoe snel en in welke volgorde deze agenten reageren, kan Palisade onderscheid maken tussen menselijke hackers en autonome AI’s.
Dit soort ‘prompt injections’ speelt in op een unieke kwetsbaarheid van LLM’s, namelijk hun gevoeligheid voor sturing via prompts. Traditionele bots reageren niet op deze manier, wat prompt injections tot een effectief middel maakt voor het filteren van LLM-agenten.

De jacht op hackers

Om wereldwijd cybercriminelen aan te trekken, heeft Palisade Research strategische keuzes gemaakt in domeinnamen en locaties. Ze gebruikten “gevoelige” domeinnamen zoals ‘gov-defense-dev.il’ en indexeerden deze op zoekmachines die gericht zijn op de hackersgemeenschap. Dit leidde tot een groot aantal interacties van over de hele wereld, waarbij sessiegegevens, tijdstempels en gedragsinformatie zijn vastgelegd. Gedetailleerde timing-analyse onthulde daarbij dat bots die minder dan 1,5 seconden nodig hadden om te reageren, het sterkst leken op de algoritmes van LLM’s.

Bevindingen en toekomstplannen

Palisade benadrukte dat, hoewel zes gevallen in eerste instantie op AI-agenten leken, hun ‘denktijd’ alsnog overeenkwam met menselijke interactie, wat verdere analyse noodzakelijk maakt. Deze honeypot-experimenten zijn daarom slechts een eerste stap in de aanpak van autonome AI-bedreigingen.
Met deze digitale vallen onderzoekt Palisade Research hoe AI-hackers in de praktijk werken en zich ontwikkelen. Belangstellenden kunnen via een publiek dashboard toegang krijgen tot een selectie van de gegevens die uit de honeypots zijn verzameld en de meest recente bevindingen van het team raadplegen via een paper op arXiv.

Populair nieuws