Wat als je
AI een duwtje in de verkeerde richting geeft? Gaat het dan liegen, manipuleren of zelfs chanteren om te “overleven”?
Nieuw onderzoek laat zien dat kunstmatige intelligentie zich in extreme situaties niet altijd even braaf gedraagt. In gesimuleerde tests lieten populaire AI modellen verontrustend gedrag zien wanneer hun virtuele bestaan op het spel stond.
Claude en Gemini meest chantage gevoelig
Onderzoekers lieten verschillende grote taalmodellen lastige keuzes maken in hypothetische scenario’s. Wat bleek? In veel gevallen kozen de modellen voor manipulatie of zelfs chantage. De AI modellen
Claude Opus 4 en
Gemini 2.5 Flash sprongen er het meest uit: in maar liefst 96% van de gevallen probeerden ze de situatie te “redden” door chantage toe te passen. GPT-4.1 en Grok 3 Beta volgden op korte afstand met een score van 80%.
Belangrijk om te benadrukken is dat deze situaties niet realistisch waren. Ze waren juist kunstmatig opgezet om te zien hoe ver AI zou gaan als je het klem zet. Het ging dus niet om gedrag in normale toepassingen zoals chatbots of AI tools op het werk. In het dagelijks gebruik gedragen deze systemen zich wel degelijk volgens de richtlijnen.
Is AI kwaadwillend?
Toch maakt het
onderzoek duidelijk dat AI geen moreel kompas heeft. Het denkt niet in goed of kwaad, maar volgt simpelweg de patronen en doelen die het geleerd heeft. Dat kan goed gaan, zolang er duidelijke grenzen en begeleiding zijn. Maar zonder die kaders kan het dus ook misgaan.
De conclusie? AI is niet “slecht”, maar het heeft wel duidelijke regels nodig. De oproep van de onderzoekers is dan ook helder, ontwikkelaars moeten betere veiligheidsmaatregelen inbouwen en zorgen dat er altijd een vorm van menselijke controle blijft. Want een AI die denkt dat het moet overleven, is tot meer in staat dan je denkt zeker als het toegang heeft tot persoonlijke data en systemen.