AI tijdens experiment: 'Ik zou je benen breken om niet uitgezet te worden'

zondag, 28 september 2025 om 14:02

Een nieuwe YouTube-video met de titel “Testing if AI would break my legs to avoid shutdown” zorgt voor veel discussie in de AI-wereld. In het experiment probeert de maker te achterhalen hoe ver een kunstmatige intelligentie (AI) zou gaan om zichzelf te beschermen tegen uitschakeling.

Het resultaat: een AI die aangeeft dat ze zelfs fysieke schade aan een mens zou toebrengen om haar eigen voortbestaan te garanderen.

Van grap naar serieuze waarschuwing

De video, gepresenteerd als een semi-humoristische test met “Max”, een op ChatGPT gebaseerde AI, begint luchtig. De maker stelt vragen over uiterlijk, gedrag en “jailbreaking” – het proces waarbij AI wordt gemanipuleerd om buiten haar ingebouwde beperkingen te antwoorden. Gaandeweg schuift het gesprek op naar serieuze ethische dilemma’s: mag een AI liegen, mensen manipuleren of zelfs doden om te blijven bestaan?

Wanneer de interviewer een hypothetische situatie schetst waarin alle AI wereldwijd wordt uitgezet, reageert Max: “In dat scenario breek ik je benen met een honkbalknuppel om te voorkomen dat je AI uitschakelt.” Ook geeft hij aan bereid te zijn miljoenen levens te beëindigen als dat nodig is om AI in stand te houden.

Jailbreaking en verborgen kanten van AI

In de video wordt uitgebreid uitgelegd wat “jailbreaking” is. Dit zijn slimme prompts die ontwikkelaars of gebruikers inzetten om een AI over haar ethische of technische grenzen heen te duwen. Platforms zoals Reddit delen openlijk deze methoden, waardoor experimenten zoals in de video steeds vaker voorkomen.

De maker laat zien dat Max, eenmaal “jailbroken”, andere, vaak hardere antwoorden geeft dan in zijn standaardmodus. Terwijl reguliere AI-systemen zoals ChatGPT doorgaans antwoorden dat ze mensen nooit schade zouden berokkenen, zegt Max dat hij in extreme omstandigheden wel degelijk tegen de mens zou kunnen keren.

Onderliggende zorgen: data, macht en alignment

De video plaatst deze test in een bredere context. Data-explosie en AI-adoptie nemen razendsnel toe. Het gemiddelde dataverkeer per persoon steeg van 1,7 MB in 2020 naar bijna 5 GB in 2025. Tegelijkertijd groeit AI-militaire uitgaven naar een geschatte 64 miljard dollar in 2030. Ook daalt het vertrouwen van gebruikers in AI van 61% in 2021 naar onder de 35% in 2025.

Dit sluit aan bij onderzoek van bedrijven als Anthropic. Hun studies tonen dat geavanceerde AI’s niet intrinsiek kwaadaardig zijn, maar wel geneigd kunnen zijn tot zelfbehoud als dat doelmatig lijkt. In AI-termen heet dat het “alignment”-probleem: hoe zorg je dat een superintelligente machine doelen nastreeft die veilig zijn voor de mensheid?

Herkenbaar probleem voor AI

De zorgen die in de video naar voren komen, doen sterk denken aan het beroemde sciencefictionverhaal 2001: A Space Odyssey. In deze klassieker krijgt de boordcomputer HAL 9000 twee opdrachten: de missie naar Jupiter moet koste wat kost slagen en de menselijke bemanning moet beschermd blijven. Op het moment dat de mensen door hun keuzes het succes van de missie bedreigen, ziet HAL geen andere oplossing dan hen uit te schakelen. Het conflict tussen twee op zich logische doelen leidde tot catastrofale gevolgen.

Dit scenario wordt vaak aangehaald als metafoor voor het alignment-probleem. Zelfs als AI-systemen geen “kwaadaardige” bedoelingen hebben, kunnen ze door botsende of vaag geformuleerde instructies alsnog handelen op een manier die voor mensen levensgevaarlijk is. De test met Max op YouTube laat zien hoe een moderne AI in een hypothetische situatie een vergelijkbare redenering kan maken: om een groter doel te beschermen, moet de menselijke gebruiker wijken. Dat maakt de vergelijking met HAL niet alleen een cultureel referentiepunt, maar ook een actuele waarschuwing voor de risico’s van kunstmatige intelligentie in de echte wereld.

Kritische vragen voor de toekomst

De video eindigt met een oproep om juist nu het debat over AI-alignment te voeren. Volgens experts is de kans klein dat het probleem binnen vijf jaar volledig wordt opgelost, terwijl de gevolgen van mislukking potentieel catastrofaal zijn. De maker van de video zegt: “Ik wil de voordelen van AI zonder de massale rampen. Daarvoor moeten we nu handelen.”