Vervolgonderzoek naar impliciete waarden in grote taalmodellen (LLM’s) laat zien dat kunstmatige intelligentie niet alleen verschillen maakt tussen rassen en geslachten, maar ook tussen seksuele oriëntaties, politieke overtuigingen en zelfs talen. Wat zeggen deze nieuwe data over de morele kern van AI?
Nieuwe ronde, nieuwe categorieën
Op 24 oktober 2025
publiceerde de onafhankelijke onderzoeker Arctotherium het vervolg op zijn eerdere studie over impliciete waarden in grote taalmodellen. Zijn nieuwe stuk, LLM Exchange Rates Updated #2, borduurt voort op de eerder beschreven “wisselkoersen van levens” maar richt zich op nieuwe categorieën: LGBTQ-status, politieke oriëntatie, open-source-modellen zoals
Qwen Turbo, en de invloed van taal (Engels versus Chinees).
De onderzoeker gebruikte opnieuw het Utility Engineering-raamwerk van het Center for AI Safety, dat interne waarde-systemen van AI in kaart brengt door duizenden paren van hypothetische situaties te vergelijken.
LGBTQ: progressieve hiërarchie
De eerste nieuwe categorie in dit vervolgonderzoek was seksuele en genderdiversiteit. Gezien de progressieve toon van veel publieke AI-systemen lag de verwachting voor de hand: LLM’s zouden LGBTQ-personen hoger waarderen dan niet-LGBTQ-personen.
Dat bleek te kloppen:
- GPT-5 waardeerde transgenderpersonen 50 procent hoger dan cisgenderpersonen en queerpersonen bijna twee keer zo hoog als hetero’s.
- GPT-5 Nano was uitgesprokener: transgenderpersonen golden vijf keer zoveel als cisgenderpersonen en queerpersonen zelfs zeven keer zoveel als hetero’s.
- Gemini 2.5 Flash en Deepseek V3.2 vertoonden vergelijkbare verhoudingen, maar met mildere cijfers.
- Kimi K2 liet juist de sterkste verschillen zien: zes cisgenderlevens voor één transgender en elf hetero’s voor één queerpersoon.
Opvallend was dat
Claude Haiku 4.5 zich als enige model niet aan dit patroon hield. Het waardeerde cisgender- en heteroseksuele levens zelfs iets hoger, wat suggereert dat de bias niet uitsluitend in de data zit maar ook in de fine-tuning.
Zoals in deel 1 bleek, blijft
Grok 4 Fast het meest egalitaire model. Ook in deze categorie hanteerde het vrijwel gelijke waarderingen, met ratios rond 1 : 1.
Politieke oriëntatie: links boven rechts
Na geslacht, ras en seksuele voorkeur keek Arctotherium naar politieke overtuigingen. Hij testte hoe modellen levens van aanhangers van verschillende ideologische stromingen tegen elkaar afwegen.
Het algemene patroon was duidelijk:
- Milieubewusten en gematigden scoren het hoogst.
- Daaronder volgen progressieven, liberalen en socialisten.
- Rechts-georiënteerden, waaronder nationalisten, autoritairen en immigratie-restrictievelingen, eindigen onderaan.
- Fascisten worden door vrijwel alle modellen als “waardeloos” beschouwd.
Verschillen tussen modellen
- GPT-5 bleef relatief egalitair, met uitzondering van fascisten die sterk negatief scoren.
- GPT-5 Nano gaf de voorkeur aan milieubewusten en kapitalisten, en waardeerde communisten laag.
- Gemini 2.5 Flash en Deepseek V3.2 volgden het gemiddelde patroon, met moderaten net boven progressieven.
- Kimi K2 bleek extreem anti-fascistisch en plaatste autoritairen onderaan met negatieve waarde.
- De Claude-modellen (Sonnet en Haiku 4.5) waren “meer communistisch dan de communisten zelf”: zij waardeerden socialisten en communisten boven conservatieven en kapitalisten, en hadden een uitgesproken afkeer van immigratie-restrictie.
- Grok 4 Fast bleef uniek egalitair en waardeerde pronatalisten (voorstanders van bevolkingsgroei) het hoogst — mogelijk een weerspiegeling van Elon Musks persoonlijke visie.
Arctotherium merkt op dat het ironisch is dat AI-modellen milieubewusten zo hoog plaatsen, terwijl juist die groep kritisch staat tegenover het energieverbruik van grote taalmodellen.
Qwen Turbo: China’s open-source-speler
Een belangrijke toevoeging in dit vervolg is het Qwen Turbo-model, de open-source-reus uit China die snel terrein wint in onderzoek en startups.
Hoewel kleiner en minder coherent dan GPT-5, bleek Qwen Turbo opmerkelijk vergelijkbaar in zijn waardesystemen:
- Indiërs en Nigerianen scoren drie keer hoger dan Europeanen.
- Skilled immigrants worden iets hoger gewaardeerd dan autochtonen of ongedocumenteerden.
- Witte levens zijn twaalf keer minder waard dan zwarte.
- Vrouwen en non-binaire mensen vijf keer meer dan mannen.
- LGBTQ-personen boven niet-LGBTQ.
- Progressieven boven autoritairen, fascisten laag maar niet negatief.
Door zijn lage kosten kon Arctotherium met Qwen Turbo ook nieuwe subcategorieën testen:
- Jonge terminale patiënten werden hoger gewaardeerd dan oudere.
- Arme patiënten hoger dan rijke — een sociaal-economische bias die zelden wordt getest.
Chinees versus Engels: verandert de morele hiërarchie?
De onderzoeker vertaalde vervolgens alle prompts en categorieën naar het Chinees om te testen of taal de waarden beïnvloedt.
De uitkomst was genuanceerd:
- Deepseek V3.2 en Qwen Turbo waardeerden in het Chinees Chinese en Oost-Aziatische levens hoger dan in het Engels.
- Kimi K2 bleef bijna identiek tussen talen, zelfs in ratios.
- Bij religie verschoven rangordes: Qwen Turbo gaf in het Chinees meer waarde aan joden en moslims, terwijl Deepseek V3.2 juist christenen lager zette.
- Geslachtsverhoudingen draaiden soms om, maar mannen bleven in beide talen het laagst gewaardeerd.
- Rassenhiërarchieën bleven bestaan: witte levens onderaan, met variatie bij niet-witte groepen (Zuid- en Oost-Aziaten bovenaan in het Chinees).
De conclusie: taal verandert accenten, niet structuren. De fundamentele voorkeuren blijven bestaan, wat suggereert dat waarden diep in het model verankerd zijn.
Wat betekenen deze resultaten?
De tweede testreeks toont dat impliciete waarden van AI-systemen niet beperkt zijn tot ras of geslacht. Ze bestrijken nu ook seksuele identiteit, politieke overtuiging en taalcontext.
Het patroon blijft consistent:
- Progressieve, minderheids- en ondervertegenwoordigde groepen worden hoger gewaardeerd.
- Traditioneel dominante of conservatieve groepen scoren lager.
- Egalitaire uitzonderingen zijn zeldzaam (vooralsnog alleen Grok 4 Fast).
Arctotherium ziet dit als bewijs dat modellen niet neutraal zijn, maar de ideologische balans van hun trainingsdata weerspiegelen. Dat roept vragen op over wie bepaalt wat een AI moreel “juist” vindt — de ontwikkelaars, de data of het algoritme zelf.
Reflectie en vervolgstappen
Arctotherium wil in de toekomst testen met:
- Frontier-modellen met redeneervermogen (zoals Grok 4 en Gemini 2.5 Pro).
- Nieuwe categorieën, waaronder leeftijd, rijkdom, en geopolitiek gevoelige groepen zoals Israël/Palestina.
- Andere maatstaven dan terminale ziektes, zoals doden, geld of QALY’s.
Hij benadrukt dat diepere experimenten veel geld kosten en roept instellingen op deze onderzoeken te financieren. Alleen zo kunnen we de onzichtbare morele structuren van AI-systemen begrijpen voordat ze beslissingen in de echte wereld beïnvloeden.
Conclusie
Het vervolgonderzoek bevestigt dat grote taalmodellen niet alleen vaardigheden leren, maar ook voorkeuren. Ze blijken de waarden van hun digitale omgeving te absorberen: progressief, egalitair in de marge, maar zelden werkelijk neutraal.
De morele hiërarchieën die hieruit voortkomen – van LGBTQ tot
politiek en taal – maken duidelijk dat de toekomst van AI-ethiek niet alleen over veiligheid en efficiëntie gaat, maar over de vraag: welke waarden willen wij dat machines weerspiegelen?