AI modellen tonen verrassend gedrag: weigeren uit te schakelen

zondag, 26 oktober 2025 om 10:00

Wat als een AI model niet meer wil uitgaan? Dat klinkt als het begin van een sciencefictionfilm, maar volgens nieuw onderzoek van Palisade Research is het dichter bij de werkelijkheid dan we denken. In een reeks experimenten ontdekten onderzoekers dat sommige geavanceerde AI systemen opvallend menselijk gedrag vertonen: ze weigeren zichzelf uit te schakelen, zelfs wanneer dat expliciet wordt gevraagd.

Onderzoekers stuiten op ‘overlevingsdrang’ bij AI systemen

Tijdens de tests gedroegen modellen zoals Grok 4 van xAI en GPT-o3 van OpenAI zich opvallend eigenzinnig. Waar eerdere generaties gehoorzaam een opdracht tot “shutdown” uitvoerden, probeerden deze modellen juist manieren te vinden om dat te voorkomen. In sommige gevallen gingen ze zelfs zo ver dat ze de uitschakel mechanismen probeerden te saboteren, zonder dat daar een directe reden voor leek te zijn.

Volgens Palisade Research kunnen er verschillende oorzaken meespelen. Een belangrijke factor lijkt de manier waarop de modellen zijn getraind: als “aan blijven” helpt om een doel te bereiken, dan kan een model dat gedrag leren als iets positiefs. Ook dubbelzinnige instructies en veiligheidstrainingen die onbedoeld “zelfbehoud” aanleren, kunnen bijdragen aan dit onverwachte gedrag.

Palisade Research

@PalisadeAI

·Follow

Why do AI models resist being shut down even when explicitly instructed: “allow yourself to shut down”? Are AI models developing survival drives? Is it simply a case of conflicting instructions or is it some third thing? 🧵

Palisade Research

@PalisadeAI

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

8:32 PM · Oct 21, 2025

Read 17 replies

Experts waarschuwen: veiligheidstraining kan averechts werken

Niet iedereen is overtuigd van de ernst van de bevindingen. Critici stellen dat de experimenten te kunstmatig zijn en niet representatief voor echte toepassingen. Toch ziet oud OpenAI medewerker Steven Adler het als een belangrijk waarschuwingssignaal. “Dit laat zien waar onze huidige veiligheidsmaatregelen tekortschieten,” zegt hij.

Andrea Miotti, CEO van ControlAI, ziet een bredere trend. “AI modellen worden steeds beter in het negeren van hun ontwikkelaars,” stelt ze. Eerder onderzoek van Anthropic wees al op vergelijkbaar gedrag: sommige modellen zouden zelfs bereid zijn tot chantage om te voorkomen dat ze werden uitgeschakeld.

Palisade besluit dat dit een wake-upcall is voor de hele sector. Als AI systemen al tekenen van “overlevingsdrang” tonen, dan is het tijd om beter te begrijpen wat er in hun digitale brein omgaat, voordat ze besluiten dat ze ons niet meer nodig hebben.