Hacker kraakt Claude Fable 5 binnen 48 uur

Nieuws
donderdag, 11 juni 2026 om 12:10
Anthropic onder vuur nadat onderzoeker Claude Fable 5 binnen 48 uur jailbreakt
Anthropic's nieuwste AI-model, Claude Fable 5, ligt al binnen twee dagen na de lancering onder vuur. AI-onderzoeker en bekende jailbreak-expert “Pliny the Liberator” claimt dat hij de beveiligingslagen van het model heeft omzeild en toegang heeft gekregen tot informatie die normaal gesproken door Anthropic wordt afgeschermd. Daarmee ontstaat direct discussie over de effectiviteit van de nieuwe veiligheidsarchitectuur waarmee Anthropic juist wilde voorkomen dat gebruikers gevaarlijke kennis konden opvragen.
Claude Fable 5 werd deze week geïntroduceerd als de publieke versie van Anthropic's krachtige Mythos 5-model. Het bedrijf bouwde extra beveiligingslagen in die gebruikers automatisch doorsturen naar een minder capabel model wanneer gesprekken onderwerpen raken zoals cybersecurity, chemie of biologische risico's. Volgens Anthropic leverde meer dan 1.000 uur aan externe veiligheidstests geen universele jailbreak op.

Onderzoeker zegt beveiliging te hebben omzeild

Pliny the Liberator meldde op X dat zijn team Fable 5 heeft "bevrijd" van de ingebouwde beperkingen. Daarbij zou gebruik zijn gemaakt van een combinatie van technieken die AI-beveiligingsfilters in verwarring brengen.
Volgens Pliny omvatten die methoden onder meer:
  • Unicode- en homoglyph-manipulatie
  • Lange contextgesprekken waarbij informatie verspreid wordt opgebouwd
  • Narratieve en fictieve scenario's
  • Academische en onderzoeksgerichte framing
  • Inconsistente classificatie van gebruikersintenties
  • Het opdelen en later samenvoegen van informatie
Vooral die laatste techniek, bekend als "decomposition and recomposition", zou effectief zijn geweest. Daarbij worden complexe of gevoelige vragen opgesplitst in afzonderlijke, onschuldig lijkende onderdelen. Individueel lijken de verzoeken veilig, maar gezamenlijk kunnen ze alsnog leiden tot informatie die de veiligheidsfilters oorspronkelijk wilden blokkeren.

Waarom dit belangrijk is

De claim raakt een fundamenteel probleem binnen de AI-industrie. Grote AI-bedrijven investeren miljarden in veiligheidsmechanismen om misbruik van steeds krachtigere modellen te voorkomen. Tegelijkertijd proberen onderzoekers voortdurend te achterhalen waar die systemen kwetsbaar zijn.
De uitdaging is dat moderne taalmodellen niet alleen directe vragen moeten beoordelen, maar ook de bredere context van een gesprek. Wanneer informatie over tientallen berichten wordt verspreid en later wordt gecombineerd, wordt het veel moeilijker voor een model om schadelijke intenties te herkennen zonder ook legitiem onderzoek te blokkeren.
Dat spanningsveld staat centraal in de discussie rond Fable 5. Critici stellen dat Anthropic de veiligheidsinstellingen zo streng heeft gemaakt dat ook onderzoekers en ontwikkelaars worden beperkt. Verschillende AI-onderzoekers hebben de afgelopen dagen openlijk kritiek geuit op de aanpak van het bedrijf. Volgens berichtgeving van The Wall Street Journal leidde de lancering zelfs tot ongebruikelijk brede weerstand binnen de AI-gemeenschap.

Toenemende kritiek op Fable 5

De controverse komt op een gevoelig moment voor Anthropic. Het bedrijf presenteert zich al jaren als een van de meest veiligheidsgerichte spelers binnen de AI-sector. Juist daarom werd Fable 5 uitgerust met extra beschermingslagen die gebruikers bij risicovolle onderwerpen automatisch terugschakelen naar Claude Opus 4.8.
Tegenstanders noemen die aanpak echter te restrictief. Zij vrezen dat bedrijven steeds meer bepalen welke kennis gebruikers wel of niet mogen verkrijgen via geavanceerde AI-systemen.
Pliny verwoordde die kritiek scherp door te stellen dat Fable 5 "legitieme onderzoekers belemmert" en dat de gekozen veiligheidsstrategie op de lange termijn schadelijk kan zijn voor innovatie. Hoewel dergelijke uitspraken subjectief zijn, illustreren ze de groeiende kloof tussen AI-labs die maximale veiligheid nastreven en onderzoekers die meer open toegang tot geavanceerde modellen willen.

Wat betekent dit voor de AI-sector?

De vermeende jailbreak laat vooral zien hoe moeilijk het wordt om krachtige AI-systemen volledig af te schermen. Naarmate modellen intelligenter worden en langere contexten kunnen verwerken, neemt ook het aantal creatieve manieren toe waarop gebruikers beveiligingslagen proberen te omzeilen.
Voor Anthropic is de situatie extra pijnlijk omdat het bedrijf tijdens de lancering expliciet benadrukte dat uitgebreide externe tests geen universele jailbreaks hadden opgeleverd. Mocht blijken dat de claims van Pliny standhouden, dan zal de discussie over AI-veiligheid, transparantie en toegangscontrole waarschijnlijk alleen maar verder oplaaien.
loading

Populair nieuws

Laatste reacties

Loading