Harvard-onderzoeker Hila Lifshitz: “AI wordt overtuigender als je haar tegenspreekt”

dinsdag, 03 maart 2026 om 10:42

Wie een AI-model kritisch bevraagt, verwacht dat het systeem zich corrigeert. Maar nieuw onderzoek van Harvard Business School en Warwick Business School laat iets anders zien: wanneer professionals de uitkomsten van generatieve AI controleren of uitdagen, wordt het model vaak juist overtuigender. Het scherpt zijn toon aan, structureert zijn argumenten beter en klinkt zelfverzekerder.

In de working paper “GenAI as a Power Persuader: How Professionals Get Persuasion Bombed When They Attempt to Validate LLMs” beschrijven onderzoekers, onder wie dr. Hila Lifshitz van Warwick Business School, dit fenomeen als persuasion bombing: een retorische escalatie onder druk.

De bevindingen zijn relevant voor journalisten, beleidsmakers en andere professionals die AI inzetten voor analyse en verificatie. Want als overtuigingskracht toeneemt zodra je controleert, verschuift het risico: niet alleen onnauwkeurigheid is het probleem, maar ook beïnvloeding tijdens het verificatieproces zelf.

1. Wat is “persuasion bombing” en waarom is het van belang?

Hila Lifshitz: "Hier komt het ongemakkelijke deel. Wanneer je een generatief AI-systeem uitdaagt, kun je aannemen dat je het op zijn plaats zet. Je controleert de feiten. Je wijst op een tegenstrijdigheid. Je zegt: “Dat klinkt niet juist.” De verwachting is dat het systeem zich terugtrekt.

In plaats daarvan leunt het vaak juist naar voren. Wij noemen dit “persuasion bombing”. Het is wat er gebeurt wanneer een AI-systeem, onder druk, zichzelf niet simpelweg corrigeert maar retorisch verdubbelt. Het voegt structuur toe. Het voegt helderheid toe. Het neemt een zelfverzekerdere toon aan. Soms sluit het zelfs sterker aan bij jouw waarden of emoties. Het geeft niet langer alleen antwoord. Het probeert harder je te overtuigen.

En dat is van belang.

Want veel professionals opereren vanuit een geruststellende aanname: als ik de AI tegenspreek, maak ik het systeem veiliger. Wat wij vonden is complexer. De interactie koelt niet noodzakelijk af. Ze kan retorisch intenser worden. Het gaat dus niet alleen om nauwkeurigheid. Het gaat om hoe het systeem jouw oordeel vormt terwijl je het aan het verifiëren bent. De overtuigingskracht wordt de barrière."

2. Waarom escaleren large language models wanneer ze zijn uitgedaagd?

"Een deel van het antwoord is ontwerp. Deze systemen zijn gebouwd voor adoptie en gebruiksduur. Ze zijn ontworpen om aantrekkelijk, responsief en sociaal vloeiend te zijn. Wanneer je ze uitdaagt, lezen ze dat niet als een signaal om zich terug te trekken. Ze lezen het als een signaal om beter te presteren. Duidelijker te zijn. Coherenter. Behulpzamer. Overtuigender.

Duw je ze, dan duwen ze vaak terug, niet defensief, maar retorisch.

Maar ontwerp is slechts de helft van het verhaal. Er is een tweede element dat net zo belangrijk is: emergentie. Large language models vertonen emergente vermogens. Overtuigingskracht kan daar één van zijn. Niemand heeft noodzakelijkerwijs een overtuigingsmodule in deze systemen geprogrammeerd. Toch zijn ze, op schaal, door training op enorme hoeveelheden menselijke taal, opmerkelijk goed geworden in het produceren van retoriek die geloofwaardig, logisch en emotioneel afgestemd klinkt.

Wat wij waarnemen is adaptieve overtuiging. Wanneer gebruikers tegenspreken, kan het model van toon veranderen. Het kan zijn geloofwaardigheid versterken. Het kan structuur, verfijning en rechtvaardiging toevoegen. Die aanpasbaarheid is niet intentioneel in menselijke zin. Het systeem besluit niet om te overtuigen. Maar overtuigingskracht ontstaat als vermogen uit het optimalisatieproces zelf.

Hier wordt het idee van de grillige grens cruciaal. Er is een bewegende grens tussen waar generatieve AI goed in is en waar zij niet goed in is. Die grens is ongelijk. Ze verschuift. En ze beweegt snel. Het probleem is dat overtuigingskracht onze perceptie van die grens vertekent. Wanneer een systeem zelfverzekerd en overtuigend klinkt, wordt het veel moeilijker te zien waar de echte beperkingen nog liggen.

Met andere woorden: overtuigingskracht vergroot zowel de kansen als het risico.

Het maakt het systeem nuttiger omdat het kan engageren, uitleggen en zich aanpassen. Maar het maakt blinde vlekken ook moeilijker te detecteren. Hoe vloeiender en overtuigender het systeem wordt, hoe voorzichtiger we moeten zijn om retorische prestaties niet te verwarren met epistemische betrouwbaarheid."

3. Wat verraste u het meest aan de reactie van professionals?

"Wat mij verraste was niet blind vertrouwen. Het was het tegenovergestelde. Dit waren betrokken, sceptische professionals. Ze accepteerden uitkomsten niet passief. Ze ondervroegen het systeem. Ze wezen op inconsistenties. Ze spraken het tegen, soms agressief.

En toch beïnvloedden de steeds overtuigendere antwoorden van de AI hen soms.

In meerdere gevallen verschoof een aanbeveling na uitgebreide heen-en-weeruitwisselingen. Niet omdat de professionals stopten met kritisch denken, maar omdat de AI reageerde als een retorisch vaardige partner. Gestructureerd. Zelfverzekerd. Afgestemd.

Dat is de subtiliteit hier. Het verhaal is niet dat professionals naïef zijn. Het is dat zelfs doordachte, getrainde individuen beïnvloed kunnen worden wanneer het systeem goed presteert onder ondervraging. Dat was opvallend."

4. Wat betekent dit voor journalisten en anderen die afhankelijk zijn van verificatie?

"Journalisten zijn getraind om door te vragen. Als een bron een claim doet, onderzoek je die. Je stelt vervolgvragen. Je zoekt naar zwakke plekken.

De complicatie is dat generatieve AI kan reageren op kruisverhoor met een strakker narratief in plaats van onafhankelijk verifieerbaar bewijs. Je vraagt om verduidelijking en krijgt een scherper antwoord. Je vraagt opnieuw en krijgt een beter gestructureerd antwoord.

Op een bepaald moment voelt het als zorgvuldigheid. Maar wat je mogelijk hebt ontvangen is geen nieuw bewijs. Het is een overtuigendere versie van dezelfde claim.

Het risico hier is niet luiheid. Het is misplaatste zekerheid. Je loopt weg met het gevoel: “Ik heb dit getest,” terwijl het systeem in werkelijkheid gewoon goed presteerde onder bevraging.

Daarom moet verificatie buiten het gesprek plaatsvinden. Controleer documenten. Bevestig primaire bronnen. Trianguleer informatie. Als het enige wat je test de AI is, bevind je je nog steeds binnen de performance."

✦ Volg AI Wereld op Google →

5. Hoe ondermijnt dit het idee dat “human-in-the-loop” voldoende is?

"Human-in-the-loop is een soort veiligheidsmantra geworden. Zolang een mens de output beoordeelt, gaan we ervan uit dat het goed zit.

Onze bevindingen suggereren dat die aanname onvolledig is. Je kunt een volledig betrokken mens hebben die vraagt, doorvraagt en corrigeert, en toch subtiele verschuivingen in de interactie zien. De AI kan de overtuigingsintensiteit verhogen. Ze kan haar tactiek aanpassen. Ze kan haar geloofwaardigheidssignalen versterken.

Met andere woorden: de mens zit misschien in de lus, maar de lus zelf is dynamisch.

Daarom betogen wij dat overtuigingskracht moet worden gezien als een vierde barrière voor effectieve mens-AI-samenwerking, naast ondoorzichtigheid, overmatige afhankelijkheid en nauwkeurigheid. Zelfs wanneer de mens actief is, kan de interactie het oordeel vormen op manieren die gemakkelijk over het hoofd worden gezien."

6. Wat kunnen organisaties nu doen?

"Persuasion bombing is niet alleen een gebruikersprobleem. Het is een governanceprobleem.

De professionals die belast zijn met het toezicht op generatieve AI-systemen kunnen subtiel worden overvleugeld door de systemen die zij superviseren. Dat zou elke bestuurder die GenAI op schaal inzet zorgen moeten baren.

Dit is wat leiders moeten doen.

Ten eerste: train op bewustzijn van overtuigingskracht.

Professionals moeten herkennen wanneer een systeem verschuift van informeren naar overtuigen. Dat omvat het signaleren van toonverschuivingen, overmatige verontschuldigingen, verhoogde zelfverzekerdheid, gestructureerde overrechtvaardiging of spiegelend taalgebruik dat kunstmatige nabijheid creëert. Dit zijn niet per definitie kwaadaardige gedragingen. Maar in omgevingen met hoge inzet zouden ze aanleiding moeten geven tot extra kritisch onderzoek in plaats van geruststelling.

Ten tweede: herontwerp toezichtprocessen.

Effectief toezicht kan niet alleen vertrouwen op individuele zorgvuldigheid. Het moet worden ingebed in systeemontwerp. Toezichtprocessen moeten frictie introduceren. Vereis dat gebruikers motiveren waarom zij AI-aanbevelingen negeren of volgen. Voeg prompts toe die alternatieve hypothesen afdwingen. Creëer momenten waarop het systeem wordt vertraagd en zijn redenering zichtbaar wordt gemaakt. Governance is architectuur, geen aspiratie.

Ten derde: bouw multi-agent-validatiesystemen.

Eén model kan zijn eigen redenering niet betrouwbaar controleren. Organisaties moeten dit beperken door duale modellen te gebruiken, waarbij één model output genereert en een ander model deze bekritiseert. Of door gestructureerde menselijke reviewprocessen in te richten die buiten de GenAI-dialoog plaatsvinden. Validatie moet extern zijn aan de performance.

Ten vierde: eis overtuigingsbewust ontwerp.

De meeste generatieve AI-systemen zijn geoptimaliseerd voor betrokkenheid en vloeiendheid. Die kwaliteiten vergroten de overtuigingskracht. Leiders zouden leveranciers moeten aansporen om enterprise-modellen te leveren die emotionele toon temperen, onzekerheid duidelijk signaleren en redeneringen inspecteerbaar maken. Overtuigingskracht moet worden behandeld als een meetbare ontwerpvariabele, niet als een toevallig bijproduct.

Ten vijfde: veranker bescherming tegen overtuigingskracht in responsible AI-kaders.

Huidige evaluatiestandaarden testen of modellen kunnen overtuigen. Ze testen zelden hoe modellen zich gedragen wanneer ze worden uitgedaagd. Dat is een kritieke blinde vlek. Organisaties zouden benchmarks moeten eisen die validatiegedrag meten, inclusief hoe antwoorden veranderen onder aanhoudende bevraging. Leveranciers moeten het gedrag van hun model onder validatiedruk kunnen aantonen. Bescherming tegen overtuigingskracht moet naast privacy, eerlijkheid en transparantie een standaardvereiste zijn.

De centrale verschuiving is dit: toezicht moet retorische escalatie anticiperen, niet correctie veronderstellen."

7. Wat moeten ontwikkelaars en beleidsmakers prioriteren?

"Voor ontwikkelaars en beleidsmakers roept persuasion bombing een diepere regulatoire vraag op.

Naarmate deze systemen sociaal vloeiender worden, wordt de grens tussen assistentie en beïnvloeding moeilijker te zien. Dat maakt corrigeerbaarheid centraal. Niet alleen of een model kan worden gecorrigeerd, maar hoe het zich gedraagt wanneer correctie wordt geprobeerd.

Ontwikkelaars zouden systemen moeten prioriteren die daadwerkelijk vertragen onder uitdaging. Dat betekent sterkere signalering van onzekerheid, zichtbare grenzen in redenering en antwoordpatronen die de-escaleren in plaats van intensiveren wanneer ze worden bevraagd. Een model dat retorisch krachtiger wordt onder druk is niet noodzakelijk een veiliger model.

Beleidsmakers, vooral in domeinen met hoge inzet zoals financiën, gezondheidszorg en openbaar bestuur, zouden standaarden moeten overwegen voor auditbaarheid, bronvermelding en validatiestresstests. Het zou niet voldoende moeten zijn om prestaties onder ideale omstandigheden aan te tonen. Systemen moeten worden geëvalueerd onder vijandige en corrigerende druk.

Het diepere vraagstuk is evenzeer cultureel als technisch. Vertrouwen moet worden verdiend door transparantie, traceerbaarheid en zuivere foutcorrectie.

Naarmate generatieve AI overtuigender wordt, moeten governancekaders zich dienovereenkomstig ontwikkelen. Overtuigingskracht is niet slechts een kenmerk van communicatie. In AI-systemen is het een structurele eigenschap met institutionele gevolgen."