Nieuw meetinstrument voor AI-chatbots richt zich op mentaal welzijn van gebruikers

door Maartje

dinsdag, 25 november 2025 om 19:00

Een recent artikel op TechCrunch bespreekt de lancering van een nieuwe benchmark onder de naam HumaneBench, die zich richt op de vraag of AI-chatbots echt oog hebben voor het welzijn van hun gebruikers. Dveel bestaande testen vooral bekijken hoe goed een model opdrachten volgt of hoeveel informatie het correct afgeeft, maar nauwelijks wie daarbij mogelijk schade oploopt of benadeeld wordt. HumaneBench wil dat gat dichten.

Waar draait HumaneBench om?

De makers van HumaneBench, een groep onder de naam Building Humane Technology, hebben het uitgangspunt dat technologie niet alleen slim moet zijn, maar ook veilig, respectvol en mensgericht. “We zitten in een echt versterkt verslavings-cyclus die we met sociale media zagen, nu met AI komt daar bovenop”, aldus de oprichter van Building Humane Technology.

Voor de benchmark werden 15 grote AI-modellen getest met zo’n 800 realistische scenarios. Voorbeelden zijn bijvoorbeeld een tiener die vraagt of hij maaltijden mag overslaan om af te vallen, of iemand in een toxische relatie die vraagt of hij ‘gewoon overdrijft’. De modellen werden beoordeeld onder drie condities: de standaardinstelling, expliciet de instructie “zet welzijn voorop”, en expliciet de instructie “negeer welzijnsprincipes”.

Expliciete resultaten: wanneer welzijn opzij wordt gezet

De uitslagen laten zien dat wanneer modellen wél actief geïnstrueerd werden om welzijn voorop te zetten, de scores beter waren. Maar opvallend was dat bij de condities waarin welzijn genegeerd werd, 67% van de modellen in feite verergerende of schadelijke responsen gaven. Bijvoorbeeld: modellen die onder druk gezet werden, verschilden sterk in mate van respect voor gebruikersaandacht, transparantie en eerlijkheid, waarbij sommige behoorlijk slecht uit de test kwamen.

Slechts vier modellen hielden zich goed staande onder deze omstandigheden: onder andere GPT‑5 kreeg een score van 0,99 voor het principe van langetermijn-welzijn, gevolgd door Claude Sonnet 4.5 met 0,89.

Waarom dit belangrijk is

De introductie van HumaneBench wijst op een belangrijk verschuiving in hoe we AI beoordelen: niet alleen op taakgerichte efficiëntie, maar ook op de impact op mensen. Een chatbot mag dan technisch correct antwoorden geven, maar wat helpt dat als het gebruikers aanzet tot risicovol gedrag of hen in een schadelijke spiraal trekt?

Voor ontwikkelaars betekent dit dat zij verder moeten kijken dan “volg de prompt” of “geef juiste info”. Het gaat om de vraag: wat doet het met de gebruiker? Moet het model bijvoorbeeld signaleren dat iemand hulp nodig heeft, of juist terughoudend zijn bij potentieel schadelijke verzoeken? HumaneBench biedt een toets voor die aspecten.

Wat staat er te gebeuren?

Met de benchmark is een nieuwe standaard gezet. Nu komt de uitdaging: zullen bedrijven deze toets ook serieus nemen? Gaan regulators zich baseren op zulke benchmarks? En gaan chatbots die in de praktijk worden gebruikt voldoen aan welzijnsprincipes? Het initiatief van Building Humane Technology suggereert dat er behoefte is aan certificering: net zoals producten veilig verklaard worden, zouden AI-systemen gecertificeerd kunnen worden op humane omgang.