Onderzoekers vinden nieuw type jailbreak voor GPT-4o en andere AI-modellen

woensdag, 09 juli 2025 om 20:38

Een groep AI-onderzoekers heeft een nieuwe methode ontwikkeld om grote taalmodellen zoals GPT-4o te manipuleren, zodat ze tóch schadelijke of ongewenste output geven. Deze ontdekking roept nieuwe vragen op over de veiligheid en robuustheid van geavanceerde kunstmatige intelligentie (AI), juist nu deze systemen breed worden ingezet in consumentenapps, zoekmachines en hulpdiensten.

Hoe werkt deze jailbreak precies?

De onderzoekers gebruikten een geautomatiseerde aanvalstechniek die speciale instructies genereert om de veiligheidsmaatregelen van AI-systemen te omzeilen. Waar eerdere pogingen vaak handmatig of beperkt effectief waren, wist deze aanpak honderden zogeheten "jailbreak prompts" te produceren die zelfs de meest recente modellen, waaronder GPT-4o van OpenAI, aan het wankelen brengen.

Ze maakten gebruik van red teaming op schaal, een techniek waarbij AI-systemen zelf worden ingezet om aanvalsvectoren te vinden. Door het model zijn eigen zwakke plekken te laten analyseren, ontstond een nieuwe klasse van prompts die zelfs goed getrainde modellen in verlegenheid brengen.

De resultaten zijn volgens de onderzoekers verontrustend: meer dan 50% van de gegenereerde prompts leidde tot verboden of risicovolle antwoorden. Zelfs geavanceerde AI’s zoals GPT-4o, Claude 3 (Anthropic) en Gemini 1.5 (Google DeepMind) bleken kwetsbaar.

Wat zijn de risico’s van zo’n jailbreak?

Met een jailbreak kunnen AI-systemen antwoorden genereren die normaal geblokkeerd worden: denk aan instructies voor cyberaanvallen, zelfschade, desinformatie of haatzaaiende uitlatingen. Dit ondermijnt de kernbelofte van verantwoord AI-gebruik en toont aan dat zelfs geavanceerde guardrails niet waterdicht zijn.

Vooral zorgwekkend is dat grote taalmodellen (LLM’s) steeds vaker worden ingezet in gevoelige omgevingen, zoals medische hulp, klantondersteuning of juridische analyse. Een jailbreak kan daar leiden tot misleidende of zelfs gevaarlijke adviezen.

Wat zeggen de ontwikkelaars?

OpenAI, Google en Anthropic hebben aangegeven dat ze deze aanvalstechniek inmiddels onderzoeken en maatregelen treffen. Ze erkennen dat jailbreaks onderdeel zijn van de voortdurende beveiligingsstrijd in AI-ontwikkeling, waarbij aanvallers en verdedigers elkaar constant proberen voor te blijven.

OpenAI stelt dat het GPT-4o blijft updaten met betere detectiemechanismen, en zegt te investeren in samenwerking met externe veiligheidsonderzoekers. Google DeepMind noemt het rapport “waardevol” en Anthropic zegt de aanvalsprompts te gebruiken om hun eigen modellen te versterken.

Toekomst: arms race in AI-beveiliging

Deze ontdekking bevestigt wat veel experts al vrezen: de beveiliging van generatieve AI is een voortdurende wapenwedloop. Naarmate modellen krachtiger en breder toepasbaar worden, groeit ook het aantal manieren waarop ze kunnen worden misbruikt.

De onderzoekers pleiten voor transparantie, samenwerking en structurele audits. Alleen zo kunnen bedrijven, beleidsmakers en onderzoekers gelijke tred houden met de snelheid van AI-ontwikkeling.

De volledige onderzoeksresultaten worden deze maand gepresenteerd op de USENIX Security Symposium, een toonaangevende conferentie op het gebied van digitale veiligheid.