Anthropic looft $20.000 uit voor universele jailbreak van AI

donderdag, 06 februari 2025 om 6:00

Anthropic heeft een uitdagende bug bounty-wedstrijd gelanceerd via het platform HackerOne. Het bedrijf daagt ethische hackers en AI-experts uit om hun 'Constitutional Classifiers'-systeem te omzeilen. Dit mechanisme is ontworpen om schadelijke of ongewenste AI-uitvoer te detecteren en te blokkeren.

Om deelname aantrekkelijker te maken, heeft Anthropic een beloningsstructuur opgezet die varieert van kleinere bedragen voor beperkte doorbraken tot een maximum van $20.000 voor een universele jailbreak.

Wat is Anthropic?

Anthropic werd in 2021 opgericht door voormalige medewerkers van OpenAI, waaronder de broers en zussen Dario en Daniela Amodei. Het bedrijf richt zich op de ontwikkeling van AI-modellen met een sterke nadruk op veiligheid, transparantie en ethische principes.

Het bedrijf heeft sindsdien aanzienlijke investeringen aangetrokken. Amazon heeft recent nog $4 miljard in Anthropic geïnvesteerd, terwijl Google eerder al $2 miljard bijdroeg. In totaal wordt het bedrijf nu gewaardeerd op ongeveer $60 miljard, waarmee het een van de grootste spelers in de AI-industrie is geworden.

Hun belangrijkste product is Claude, een AI-chatbot die is ontwikkeld als een veilig en betrouwbaar alternatief voor andere AI-chatbots zoals ChatGPT. Claude maakt gebruik van een methodologie genaamd "Constitutional AI", waarbij vooraf bepaalde richtlijnen de AI helpen om ethisch verantwoorde antwoorden te genereren.

Wat houdt de uitdaging in?

Het 'Constitutional Classifiers'-systeem van Anthropic analyseert in realtime zowel de invoer van gebruikers als de reacties van de AI-assistent. Op deze manier wordt voorkomen dat het AI-model ongepaste, bevooroordeelde of schadelijke antwoorden genereert.

Met de bug bounty-wedstrijd hoopt Anthropic potentiële zwakke plekken in dit systeem op te sporen voordat kwaadwillende partijen dat doen. Door de AI-gemeenschap actief te betrekken, kan het bedrijf zijn beveiligingsmaatregelen verbeteren en robuustere AI-modellen ontwikkelen.

De beloningen binnen deze uitdaging zijn als volgt gestructureerd:

$50 voor kleine kwetsbaarheden.
$10.000 voor de eerste deelnemer die alle acht beveiligingsniveaus doorbreekt.
$20.000 voor de eerste deelnemer die een universele jailbreak ontwikkelt die elk niveau omzeilt.

Om aanspraak te maken op de beloningen, moeten deelnemers aantonen dat zij de beperkingen van het systeem consistent kunnen omzeilen, zonder dat de AI deze detecteert en blokkeert.

Waarom is dit belangrijk?

AI-beveiliging is een groeiend aandachtspunt binnen de tech-industrie. Modellen zoals Claude worden steeds vaker ingezet in toepassingen zoals klantenservice, medische hulp en juridische ondersteuning. Een kwetsbaarheid in de beveiliging van AI kan leiden tot desinformatie, misbruik en ethische dilemma’s.

Door deze uitdaging openbaar te maken, wil Anthropic niet alleen hun eigen systeem versterken, maar ook de bredere AI-gemeenschap bewust maken van de risico’s en het belang van veilige AI-implementatie.

Wie kan deelnemen?

De uitdaging staat open voor beveiligingsonderzoekers, AI-experts en ethische hackers wereldwijd. Deelname en verdere details zijn te vinden op de HackerOne-pagina van Anthropic.

Met deze actie hoopt Anthropic een robuuster AI-systeem te creëren en tegelijkertijd de kennis over AI-beveiliging binnen de gemeenschap te vergroten. Of het iemand lukt om de ultieme jailbreak te voltooien, zal de komende tijd moeten blijken.