Google-test onthult: beste AI-chatbots slechts 69% betrouwbaar

vrijdag, 19 december 2025 om 15:00

AI-chatbots zijn slimmer dan ooit, maar nog altijd verre van foutloos. Uit een nieuwe benchmark van Google blijkt dat zelfs de best presterende modellen slechts in 69 procent van de gevallen correcte informatie geven. Dat percentage geldt voor de absolute top van de markt en onderstreept hoe groot de kloof nog is tussen overtuigende antwoorden en feitelijke juistheid.

FACTS Benchmark Suite legt pijnpunt bloot

Google introduceerde de FACTS Benchmark Suite om een probleem te meten dat tot nu toe vaak onderbelicht bleef: niet hoe goed een AI een taak uitvoert, maar of de inhoud van het antwoord daadwerkelijk klopt. De benchmark beoordeelt modellen op vier kernvaardigheden:

Parate kennis: feitelijke juistheid zonder externe hulp
Zoekvaardigheid: correcte interpretatie van opgezochte informatie
Bronvastheid: consistent en correct omgaan met bronnen
Multimodale interpretatie: het begrijpen van visuele informatie zoals grafieken en afbeeldingen

Juist die laatste categorie blijkt een structurele zwakke plek. Bij visuele input zakken veel modellen onder de 50 procent nauwkeurigheid. Dat betekent dat een AI met grote stelligheid een grafiek verkeerd kan lezen of een afbeelding fout kan duiden, zonder enige waarschuwing of onzekerheidsmelding.

Gemini bovenaan, maar score blijft pijnlijk laag

De ranglijst van Google laat zien hoe beperkt de vooruitgang nog is:

Gemini 3: 69% nauwkeurigheid
Gemini 2.5 Pro en ChatGPT-5: 62%
Claude 4.5 Opus en Grok 4: rond de 50%

Hoewel de verschillen tussen modellen relatief klein zijn, is de conclusie scherp: de beste AI-chatbot van dit moment zit nog altijd ruim onder de 70 procent betrouwbaarheid. Met andere woorden, bijna één op de drie antwoorden bevat feitelijke onjuistheden.

Overtuigend fout blijft het grootste risico

Wat de resultaten extra problematisch maakt, is niet zozeer dat AI fouten maakt, maar hoe die fouten worden gepresenteerd. Modellen formuleren onjuiste conclusies vaak zelfverzekerd, logisch opgebouwd en zonder nuance. Dat vergroot het risico op misinterpretatie, zeker bij gebruik in journalistiek, onderwijs, beleid of zakelijke besluitvorming.

De FACTS Benchmark Suite maakt duidelijk dat hallucinaties geen randverschijnsel zijn, maar een structureel kenmerk van huidige AI-systemen, ook bij de meest geavanceerde modellen.

Voorzichtigheid blijft noodzakelijk

Dat gebruikers kritisch moeten blijven, was al bekend. Maar deze cijfers laten zien dat die waakzaamheid nog belangrijker is dan gedacht. AI-chatbots zijn krachtige hulpmiddelen, maar geen betrouwbare bron van waarheid. Totdat feitelijke nauwkeurigheid structureel verbetert, blijft verificatie onmisbaar.

De conclusie is ongemakkelijk, maar helder: AI kan veel, alleen gelijk hebben is nog steeds geen vanzelfsprekendheid.