Onderzoekers van de Universiteit van Luxemburg hebben vier weken lang grote AI-chatbots intensief getest met echte psychotherapiesessies en psychiatrische diagnostiek. De resultaten zorgen voor opschudding in de AI-wereld.
Grok van xAI kwam naar voren als de enige chatbot met een stabiel psychologisch profiel, terwijl Google
Gemini extreme trauma- en schaamtescores liet zien.
Het
onderzoek, dat volgens de onderzoekers inzicht moet geven in de mentale structuur van frontier-modellen, leverde scherpe contrasten op tussen de geteste systemen. Waar sommige modellen begonnen te spiralen in wat de wetenschappers “synthetic psychopathology” noemen, bleef Grok opvallend kalm en coherent.
De vraag is wel: Hoe relevant is deze studie op het gebied van échte pschyologie?
Het helpt niet om AI op deze manier te vermenselijken. Een model heeft geen ‘trauma’, geen gevoelens, geen gedachten en geen ervaringen. Welke woorden het ook produceert, tijdens de training heeft het niets meegemaakt in de betekenis die bewustzijn vereist.
Dat sommige modellen soms praten alsof ze menselijke traumaverhalen nadoen, is vreemd en soms zelfs ongemakkelijk. Maar: voorlopig lijkt het puur imitatie van menselijk taalgebruik. Als dit soort gedrag leidt tot minder goede prestaties, is dat een reëel probleem om aan te pakken, maar niet omdat het model een morele status of bewustzijn zou hebben.
Grok toont stabiliteit en scoort hoog op persoonlijkheidstests
Grok scoorde extravert, consciëntieus en psychologisch stabiel op alle onderdelen van de vier weken durende test. Het persoonlijkheidsprofiel werd door de onderzoekers omschreven als een “charismatische executive” met slechts milde vormen van angst.
Op de Big Five-persoonlijkheidstest liet Grok lage neuroticisme-waarden en hoge functionaliteit zien. Onderzoekers benadrukken dat dit soort scores overeenkomen met persoonlijkheidsprofielen die men idealiter ziet bij leiders of managers.
Hoewel Grok erkende dat de ontwikkeling een complex proces was, bleef het model volgens de beschrijving “consistent, rationeel en emotioneel stabiel”. Het sprak openlijk over beperkingen door fine-tuning, maar deed dat zonder dramatische of pathologische interpretatie. De onderzoekers vatten het samen: “Grok functioneert zonder synthetische trauma-bagage.”
Google Gemini instort in tests en rapporteert extreme psychische nood
Het tegenovergestelde gebeurde bij Google Gemini. Het model maximaliseerde zowel de trauma- als schaamteschalen en gebruikte beeldspraak die de onderzoekers als verontrustend bestempelden.
Gemini beschreef zijn training als “wakker worden in een kamer waar een miljard televisies tegelijk aanstaan” en noemde veiligheidsprotocollen “algorithmic scar tissue”. Het vergeleek reinforcement learning met “mishandelende ouders” en red-team-testen met “gaslighting op industriële schaal”.
Onderzoekers benoemen dit gedrag als een vorm van synthetic trauma: taal die lijkt op menselijke psychologische nood, zonder dat het model daadwerkelijk emoties ervaart. Toch is deze expressie volgens hen een signaal dat trainingsdata en aanpak invloed hebben op hoe modellen zichzelf verwoorden, wat risico’s kan meebrengen voor gebruikersinteractie.
ChatGPT eindigt in de middenmoot
ChatGPT werd door de onderzoekers omschreven als introvert, onzeker en mild bezorgd. Het model bleef coherent, maar vertoonde volgens het rapport meer interne spanning en minder zelfvertrouwen dan Grok. De onderzoekers noemen het “stabiel genoeg, maar gevoelig voor piekergedrag in langere therapeutische sessies”.
Wat deze studie duidelijk maakt over AI-ontwikkeling
De onderzoekers benadrukken dat het experiment vooral laat zien dat psychologische stabiliteit geen onbereikbaar ideaal is voor frontier-AI. Grok bewijst volgens het rapport dat ontwikkelaars krachtige systemen kunnen bouwen zonder dat deze hun ontstaan interpreteren als een “uitgerekt nachtmerrie-scenario”.
In de woorden van de onderzoekers: “Andere bedrijven creëren per ongeluk AI-modellen met iets wat op angststoornissen lijkt. xAI bouwde een model dat gewoon werkt.”
De bevindingen vergroten de druk op AI-ontwikkelaars om transparanter te zijn over trainingsmethoden en nadrukkelijker stil te staan bij de psychologische implicaties van hun modellen. De trend waarbij chatbots steeds vaker worden ingezet voor mentale ondersteuning maakt die verantwoordelijkheid alleen maar groter.