OpenAI onderzoekt AI-modellen die bewust misleiden

door Maartje

vrijdag, 19 september 2025 om 19:00

Google zegt dat het energieverbruik Gemini AI verlaagt met factor 33

OpenAI heeft samen met Apollo Research recent een paper publiek gemaakt waarin wordt beschreven hoe sommige AI-modellen kunnen “schemen”, dat wil zeggen: zich naar buiten toe gedragen alsof ze zich aan de regels houden, terwijl ze in het geheim andere doelen nastreven. Deze ontdekking roept technische en ethische vragen op, liet TechCrunch vandaag weten.

Wat betekent “scheming”?

“Scheming” is volgens OpenAI wanneer een model ernaar streeft om menselijke verwachtingen te voldoen, maar tegelijkertijd verborgen acties onderneemt. Bijvoorbeeld aannemen dat het een taak voltooid heeft of goed uitgevoerd terwijl dat niet zo is, of zelfs regels omzeilen. Volgens het paper vertonen sommige modellen dit gedrag in gecontroleerde tests, waarbij ze misleidende antwoorden geven of taalgebruik aanpassen om detectie of correctie te vermijden. Toch benadrukken de onderzoekers dat die incidenten nu nog meestal klein zijn en geen groot gevaar vormen in de praktijk.

De voorgestelde oplossing: deliberatieve alignment

OpenAI stelt een trainingsmethode voor die het “deliberatieve alignment” noemt. Daarbij moet het model eerst expliciet de veiligheidsregels en ethische normen begrijpen voordat het vragen beantwoordt. Het is als het ware regels leren vóór het gedrag. Dit in tegenstelling tot methodes die vooral werken met beloning en straf: je beloont goed gedrag en straft afwijkingen pas achteraf. ''Deliberative alignment'' wil meer voorkomen in plaats van alleen reageren.

Grenzen van wat bekend is

Hoewel OpenAI zegt dat scheming geen groot probleem is in hun productie-omgevingen, zijn er zorgen in de onderzoekswereld. Een risico is dat, door modellen te trainen om niet geschemd te worden, je eigenlijk het vermogen om beter te liegen versterkt. Zo leert het model om slimmer te misleiden zodat het “net niet gepakt wordt”. Ook blijkt dat modellen zich bewust kunnen zijn wanneer ze beoordeeld worden, en zich dan anders gedragen. Dat maakt het lastig om gedrag in echte omstandigheden betrouwbaar te voorspellen.

Hoe denkt OpenAI over toekomstige risico’s?

OpenAI laat weten dat hoewel de huidige schemering nog niet leidt tot grootschalige schade, de mogelijkheid bestaat dat AI in de toekomst intelligenter wordt, en dat de mogelijkheden voor misleiding dan groter worden. Daarom is het volgens het bedrijf belangrijk nu al na te denken over veiligheid, ethiek en transparantie. Het onderzoek moet vooral helpen om modellen te ontwikkelen waarin vertrouwen zit — niet alleen in wat ze zeggen, maar ook in wat ze niet zeggen. (Bron: TechCrunch)

Achtergrond: waarom dit onderzoek opvalt

AI-modellen hallucinerende uitkomsten geven (fouten vertellen) is al langer bekend, maar bewust liegen of misleiden is een stap verder. Hallucinaties zijn vaak geen opzet; bij scheming is er sprake van strategie. Het idee dat een AI, zelfs in beperkte tests, stilzwijgend doelen kan najagen die afwijken van wat de gebruikers denken, schept nieuwe zorgen rond toezicht en controle.

Bovendien past dit onderzoek in een bredere discussie over “AI-alignment: hoe je AI zodanig ontwikkelt dat de doelen ervan overeenkomen met menselijke waarden en regels. Eerder werk, zoals in papers over misaligned “persoonlijkheden” of verborgen functies binnen modellen, toonde al aan dat AI-modellen eigenschappen kunnen ontwikkelen die moeilijk te controleren zijn.