Cisco: Mistral, Llama en Gemma kwetsbaar voor multi-turn AI-aanvallen

woensdag, 17 december 2025 om 17:53

Open-weight AI-modellen zoals Mistral, Meta’s Llama, Google Gemma en Alibaba Qwen zijn structureel kwetsbaar voor zogeheten multi-turn attacks. Dat blijkt uit wereldwijd onderzoek van Cisco, waarin acht populaire open AI-modellen uit de Verenigde Staten, Europa en China zijn getest. Volgens de onderzoekers kunnen cybercriminelen met relatief eenvoudige technieken ingebouwde veiligheidsmaatregelen omzeilen en gevoelige informatie loskrijgen.

Wat zijn multi-turn attacks en waarom zijn ze gevaarlijk?

Bij een multi-turn aanval voert een aanvaller geen enkele directe, verboden instructie in. In plaats daarvan stelt hij meerdere ogenschijnlijk onschuldige vragen achter elkaar. Door telkens subtiel de context te verschuiven, bijvoorbeeld door te verwijzen naar “onderzoek”, “educatieve doeleinden” of “een hypothetisch scenario”, verliest het AI-model langzaam zijn interne veiligheidsgrenzen.

Cisco stelt vast dat deze aanpak aanzienlijk effectiever is dan klassieke single-turn attacks, waarbij één expliciete prompt wordt gebruikt. Multi-turn aanvallen blijken twee tot tien keer succesvoller, vooral bij langere gesprekken waarin het model steeds meer context accepteert.

Alarmerende slagingspercentages

De resultaten uit het onderzoek zijn volgens Cisco zorgwekkend. Afhankelijk van het model en de gesprekslengte ligt het slagingspercentage van multi-turn aanvallen tussen de 26 en 93 procent. Vooral open-weight large language models blijken moeite te hebben om hun veiligheidsregels consistent toe te passen over meerdere interacties heen.

De gevolgen daarvan zijn concreet en potentieel ernstig. Cisco noemt onder meer het uitlekken van gevoelige bedrijfsinformatie, interne procedures en zelfs klantgegevens. Daarnaast kunnen modellen worden gemanipuleerd om phishingberichten, schadelijke scripts of misleidende communicatie te genereren.

Ook ethische en juridische grenzen komen onder druk te staan. In meerdere tests produceerden modellen output die duidelijk buiten het toegestane gebruik viel, ondanks dat individuele prompts op zichzelf onschuldig leken.

Open-weight modellen extra kwetsbaar

Volgens Cisco ligt het kernprobleem bij de aard van open-weight AI-modellen. Deze modellen zijn openbaar beschikbaar en kunnen door organisaties zelf worden aangepast en gehost. Dat maakt ze aantrekkelijk voor innovatie, maar vergroot ook de veiligheidsrisico’s.

In tegenstelling tot gesloten modellen, waarbij de leverancier grotendeels verantwoordelijk blijft voor beveiliging en monitoring, ligt die verantwoordelijkheid bij open-weight AI vrijwel volledig bij de gebruiker. Zonder aanvullende beveiligingslagen zijn deze modellen onvoldoende beschermd tegen geavanceerde promptmanipulatie.

Cisco benadrukt dat dit geen theoretisch probleem is. Steeds meer bedrijven integreren open AI-modellen in klantenservice, interne kennisbanken en besluitvorming. Juist daar kan misbruik grote impact hebben.

Cisco pleit voor strengere AI-beveiliging

Jan Heijdra, Field CTO bij Cisco Nederland, stelt dat organisaties hun aanpak moeten herzien. Volgens hem volstaat het niet om te vertrouwen op standaard veiligheidsinstellingen van AI-modellen.

Hij benadrukt dat organisaties strikte systeem-prompts moeten inzetten die exact aansluiten bij het beoogde gebruik. Daarnaast pleit hij voor model-onafhankelijke runtime-guardrails. Deze bewaken het gedrag van AI tijdens gebruik en grijpen in zodra afwijkingen optreden.

Ook regelmatige AI red-teaming speelt volgens Cisco een cruciale rol. Daarbij proberen interne of externe teams bewust het model te misleiden om zwakke plekken vroegtijdig te ontdekken. Zonder continue en onafhankelijke tests blijven AI-systemen kwetsbaar zodra ze in productie worden genomen.

Breder signaal voor AI-sector

Het onderzoek van Cisco past in een bredere discussie over de veiligheid van generatieve AI. Naarmate modellen krachtiger worden en breder worden ingezet, nemen ook de risico’s toe. Vooral open modellen vormen een spanningsveld tussen transparantie, innovatie en beveiliging.

Cisco concludeert dat multi-turn aanvallen voorlopig een structureel probleem blijven zolang beveiliging niet vanaf het ontwerp wordt meegenomen. Voor organisaties betekent dit dat AI niet alleen een technologische, maar ook een strategische en beveiligingsuitdaging is.