OpenAI introduceert SimpleQA, een nieuw benchmarkontwerp dat speciaal is ontwikkeld voor het testen van de feitelijke nauwkeurigheid van grote taalmodellen. SimpleQA richt zich op kortere, feitelijke vragen die één correct antwoord vereisen, waardoor het een nauwkeurige en efficiënte meetmethode biedt voor de betrouwbaarheid van AI-antwoorden.
Dat maakt het bedrijf bekend in een blogpost. SimpleQA moet het makkelijker maken om fouten te vermijden als je gebruikmaakt van ChatGPT, maar ook Claude en andere large language models.
SimpleQA bevat meer dan 4.300 vragen uit verschillende kennisdomeinen, waaronder wetenschap, geschiedenis, politiek, en entertainment. Deze brede opzet zorgt voor een divers testkader dat grondig meet hoe goed een AI-model feitelijke kennis beheerst in uiteenlopende onderwerpen. SimpleQA biedt onderzoekers hierdoor een waardevol hulpmiddel om AI-modellen te ontwikkelen die “weten wat ze weten”—en die zich onthouden van antwoorden wanneer er twijfel is.
OpenAI stelt SimpleQA beschikbaar via GitHub, zodat onderzoekers wereldwijd hiermee de prestaties van hun taalmodellen kunnen analyseren en verbeteren. Met deze open-source benadering streeft OpenAI naar een transparantere en betrouwbaardere AI-toepassing voor het grote publiek. Het is voor henzelf belangrijk dat er zoveel mogelijk bekend is en wordt over de werking van hun modellen.