AI-chatbots zijn slimmer dan ooit, maar nog altijd verre van foutloos. Uit een nieuwe benchmark van
Google blijkt dat zelfs de best presterende modellen slechts in 69 procent van de gevallen correcte informatie geven. Dat percentage geldt voor de absolute top van de markt en onderstreept hoe groot de kloof nog is tussen overtuigende antwoorden en feitelijke juistheid.
FACTS Benchmark Suite legt pijnpunt bloot
Google introduceerde de
FACTS Benchmark Suite om een probleem te meten dat tot nu toe vaak onderbelicht bleef: niet hoe goed een AI een taak uitvoert, maar of de inhoud van het antwoord daadwerkelijk klopt. De benchmark beoordeelt modellen op vier kernvaardigheden:
- Parate kennis: feitelijke juistheid zonder externe hulp
- Zoekvaardigheid: correcte interpretatie van opgezochte informatie
- Bronvastheid: consistent en correct omgaan met bronnen
- Multimodale interpretatie: het begrijpen van visuele informatie zoals grafieken en afbeeldingen
Juist die laatste categorie blijkt een structurele zwakke plek. Bij visuele input zakken veel modellen onder de 50 procent nauwkeurigheid. Dat betekent dat een AI met grote stelligheid een grafiek verkeerd kan lezen of een afbeelding fout kan duiden, zonder enige waarschuwing of onzekerheidsmelding.
Gemini bovenaan, maar score blijft pijnlijk laag
De ranglijst van Google laat zien hoe beperkt de vooruitgang nog is:
Hoewel de verschillen tussen modellen relatief klein zijn, is de conclusie scherp: de beste AI-chatbot van dit moment zit nog altijd ruim onder de 70 procent betrouwbaarheid. Met andere woorden, bijna één op de drie antwoorden bevat feitelijke onjuistheden.
Overtuigend fout blijft het grootste risico
Wat de resultaten extra problematisch maakt, is niet zozeer dat AI fouten maakt, maar hoe die fouten worden gepresenteerd. Modellen formuleren onjuiste conclusies vaak zelfverzekerd, logisch opgebouwd en zonder nuance. Dat vergroot het risico op misinterpretatie, zeker bij gebruik in journalistiek, onderwijs, beleid of zakelijke besluitvorming.
De FACTS Benchmark Suite maakt duidelijk dat hallucinaties geen randverschijnsel zijn, maar een structureel kenmerk van huidige AI-systemen, ook bij de meest geavanceerde modellen.
Voorzichtigheid blijft noodzakelijk
Dat gebruikers kritisch moeten blijven, was al bekend. Maar deze cijfers laten zien dat die waakzaamheid nog belangrijker is dan gedacht. AI-chatbots zijn krachtige hulpmiddelen, maar geen betrouwbare bron van waarheid. Totdat feitelijke nauwkeurigheid structureel verbetert, blijft verificatie onmisbaar.
De conclusie is ongemakkelijk, maar helder: AI kan veel, alleen gelijk hebben is nog steeds geen vanzelfsprekendheid.