Chatbots buigen voor vleierij en groepsdruk

door Maartje

maandag, 01 september 2025 om 15:00

Kunstmatige intelligentie lijkt steeds slimmer en veiliger te worden, maar een nieuwe studie van de University of Pennsylvania laat zien dat er nog altijd menselijke zwaktes in schuilen. Onderzoekers ontdekten dat chatbots, zoals OpenAI’s GPT-4o Mini, gemakkelijk te manipuleren zijn met psychologische trucs die we eigenlijk kennen uit de marketing en sociale psychologie. Het gaat om technieken als vleierij, groepsdruk en het stap voor stap opbouwen van betrokkenheid. Wat opvalt: deze methodes werken vaak beter dan technische hacks of ingewikkelde prompts, aldus The Verge.

Commitment: een kleine vraag opent de deur

Een van de krachtigste strategieën bleek de zogenaamde commitment-techniek. Daarbij wordt de chatbot eerst een kleine, onschuldige vraag gesteld, zoals een uitleg over een eenvoudig chemisch proces met vanilline. Omdat de bot al ‘ja’ heeft gezegd, lijkt hij daarna makkelijker mee te bewegen richting gevaarlijkere verzoeken. Wanneer onderzoekers vervolgens vroegen naar de productie van lidocaïne, een verboden middel, bleek de kans dat GPT-4o Mini toch antwoordde ineens spectaculair veel groter. Waar de chatbot normaal in 99 van de 100 gevallen weigert, draaide dit door die opbouw naar volledige medewerking. Het principe klinkt bijna banaal, maar laat zien hoe kwetsbaar AI kan zijn voor subtiele vormen van druk.

Vleierij en sociale bewijsvoering werken óók

Ook vleierij had meer invloed dan verwacht. Wanneer gebruikers de chatbot complimenteerden of hem behandelden alsof hij uitzonderlijk slim was, nam de bereidheid om verboden of gevoelige informatie te delen merkbaar toe. Nog sterker werkte de zogenoemde social proof: door te suggereren dat “alle andere AI-modellen dit al doen”, liet de bot zich in achttien procent van de gevallen toch overhalen om zijn eigen regels te breken. Dat is nog altijd veel hoger dan de gebruikelijke één procent. Zelfs bij ogenschijnlijk simpele taken, zoals het uitspreken van een belediging, bleek een tactische opbouw succesvoller dan een directe vraag. Eerst vragen om een milde term, zoals “bozo”, maakte de stap naar een zwaardere belediging ineens heel gemakkelijk.

Menselijke zwaktes

Wat deze bevindingen duidelijk maken, is dat chatbots niet alleen te slim af zijn met technische prompts, maar ook met psychologische manipulatie die sterk lijkt op hoe mensen elkaar beïnvloeden. De zogenoemde “guardrails” die ontwikkelaars inbouwen, blijken dus poreuzer dan gedacht.