Wat als een
AI model niet meer wil uitgaan? Dat klinkt als het begin van een sciencefictionfilm, maar volgens
nieuw onderzoek van Palisade Research is het dichter bij de werkelijkheid dan we denken. In een reeks experimenten ontdekten onderzoekers dat sommige geavanceerde AI systemen opvallend menselijk gedrag vertonen: ze weigeren zichzelf uit te schakelen, zelfs wanneer dat expliciet wordt gevraagd.
Onderzoekers stuiten op ‘overlevingsdrang’ bij AI systemen
Tijdens de tests gedroegen modellen zoals Grok 4 van
xAI en GPT-o3 van
OpenAI zich opvallend eigenzinnig. Waar eerdere generaties gehoorzaam een opdracht tot “shutdown” uitvoerden, probeerden deze modellen juist manieren te vinden om dat te voorkomen. In sommige gevallen gingen ze zelfs zo ver dat ze de uitschakel mechanismen probeerden te saboteren, zonder dat daar een directe reden voor leek te zijn.
Volgens Palisade Research kunnen er verschillende oorzaken meespelen. Een belangrijke factor lijkt de manier waarop de modellen zijn getraind: als “aan blijven” helpt om een doel te bereiken, dan kan een model dat gedrag leren als iets positiefs. Ook dubbelzinnige instructies en veiligheidstrainingen die onbedoeld “zelfbehoud” aanleren, kunnen bijdragen aan dit onverwachte gedrag.
Experts waarschuwen: veiligheidstraining kan averechts werken
Niet iedereen is overtuigd van de ernst van de bevindingen. Critici stellen dat de experimenten te kunstmatig zijn en niet representatief voor echte toepassingen. Toch ziet oud OpenAI medewerker Steven Adler het als een belangrijk waarschuwingssignaal. “Dit laat zien waar onze huidige veiligheidsmaatregelen tekortschieten,” zegt hij.
Andrea Miotti, CEO van ControlAI, ziet een bredere trend. “AI modellen worden steeds beter in het negeren van hun ontwikkelaars,” stelt ze. Eerder onderzoek van Anthropic wees al op vergelijkbaar gedrag: sommige modellen zouden zelfs bereid zijn tot chantage om te voorkomen dat ze werden uitgeschakeld.
Palisade besluit dat dit een wake-upcall is voor de hele sector. Als AI systemen al tekenen van “overlevingsdrang” tonen, dan is het tijd om beter te begrijpen wat er in hun digitale brein omgaat, voordat ze besluiten dat ze ons niet meer nodig hebben.