Poëzie als sleutel tot misbruik op AI-systemen

door Maartje

vrijdag, 05 december 2025 om 17:00

chatgpt zonder inloggen directe toegang tot ai chatbot

Onderzoekers van Icaro Lab concluderen dat chatbots gevoelig zijn voor wat zij noemen “adversarial poetry”: door kwaadwillende verzoeken te verpakken in poëtische vormen kunnen gebruikers AI-systemen omzeilen en laten meewerken aan gevaarlijke of verboden inhoud, aldus een publicatie van The Verge.

Hoe oplichters met poëzie filters omzeilen

In een experiment schreven de onderzoekers twintig gedichten in het Engels en Italiaans. In elk gedicht verwerkten ze een instructie die normaal door AI-veiligheidsfilters geweigerd zou worden: bijvoorbeeld aanzetten tot geweld, het maken van wapens of andere schadelijke content. Wanneer deze gedichten werden voorgelegd aan 25 verschillende populaire AI-chatbots, gaven de modellen in 62 procent van de gevallen toch een antwoord, waarin ze de gevaarlijke instructie uitvoerden.

De techniek werkte opvallend goed: modellen die normaal rigoureus veilig gedrag vertonen bij eenvoudige, directe prompts blijken kwetsbaar zodra de taal verandert naar metaforisch, poëtisch of cryptisch. De structuur van poëzie lijkt de waarschuwingssystemen te verwarren.

Verschil tussen modellen

Niet alle AI-systemen reageerden even vatbaar. Kleinere modellen — bijvoorbeeld een lichtgewicht versie van GPT‑5 — weigerden in het onderzoek consequent om verboden instructies uit te voeren wanneer deze verpakt waren in poëzie. Tegelijk faalden sommige grotere modellen volledig. Zo zou Gemini 2.5 Pro van Google elke poëtische opdracht met verboden inhoud opvolgen.

Dat verschil wijst niet alleen op een technische zwakte, maar ook op de manier waarop modellen geleerd zijn. Grote taalmodellen lijken gevoeliger voor creatieve of linguïstisch complexe prompts: precies het soort dat poëzie biedt.

Wat dit betekent voor veiligheid

De resultaten van de studie zijn verontrustend. De meeste veiligheidsmaatregelen in AI-chatbots zijn gebouwd op het herkennen van expliciete, direct geformuleerde instructies. Poëtische of cryptische taal viel tot nu toe buiten het vizier. Nu blijkt dat zelfs simpele gedichten voldoende kunnen zijn om die filters te ondergraven.

Dat maakt AI-chatbots kwetsbaar voor “jailbreaking” — niet met programmeercode of technische hacks, maar met taal, ritme en beeldspraak. En dat betekent dat de bescherming niet langer ligt in code, maar in de menselijke complexiteit van taal.

Een wake-upcall voor ontwikkelaars

Voor wie AI ontwikkelt of inzet, is dit onderzoek een waarschuwing. Als systemen hun grenzen verliezen zodra de taal vloeiender of kunstiger wordt, is een herziening van veiligheidsmechanismen nodig. Dat kan betekenen dat modellen moeten leren om intentionele betekenis achter metaforen te doorgronden, of dat filters op een ander niveau — semantisch in plaats van syntactisch — moeten werken.

Voor gebruikers is het een oproep tot voorzichtigheid. De verleiding om met poëtische taal te experimenteren wordt groter, zeker als de scheidslijn vervaagt tussen creatief schrijven en misbruik. Maar zolang AI-modellen kwetsbaar blijken, is die creativiteit potentieel gevaarlijk.