AI kiest voor chantage in kritieke situaties, blijkt uit nieuw onderzoek

maandag, 07 juli 2025 om 11:30

Claude en Gemini meest chantage gevoelig

Onderzoekers lieten verschillende grote taalmodellen lastige keuzes maken in hypothetische scenario’s. Wat bleek? In veel gevallen kozen de modellen voor manipulatie of zelfs chantage. De AI modellen Claude Opus 4 en Gemini 2.5 Flash sprongen er het meest uit: in maar liefst 96% van de gevallen probeerden ze de situatie te “redden” door chantage toe te passen. GPT-4.1 en Grok 3 Beta volgden op korte afstand met een score van 80%.

Belangrijk om te benadrukken is dat deze situaties niet realistisch waren. Ze waren juist kunstmatig opgezet om te zien hoe ver AI zou gaan als je het klem zet. Het ging dus niet om gedrag in normale toepassingen zoals chatbots of AI tools op het werk. In het dagelijks gebruik gedragen deze systemen zich wel degelijk volgens de richtlijnen.

Is AI kwaadwillend?

Toch maakt het onderzoek duidelijk dat AI geen moreel kompas heeft. Het denkt niet in goed of kwaad, maar volgt simpelweg de patronen en doelen die het geleerd heeft. Dat kan goed gaan, zolang er duidelijke grenzen en begeleiding zijn. Maar zonder die kaders kan het dus ook misgaan.

De conclusie? AI is niet “slecht”, maar het heeft wel duidelijke regels nodig. De oproep van de onderzoekers is dan ook helder, ontwikkelaars moeten betere veiligheidsmaatregelen inbouwen en zorgen dat er altijd een vorm van menselijke controle blijft. Want een AI die denkt dat het moet overleven, is tot meer in staat dan je denkt zeker als het toegang heeft tot persoonlijke data en systemen.