OpenAI heeft een nieuw meetinstrument gepresenteerd, GDPval, om te onderzoeken hoe goed hun AI-modellen het doen in taken die waardevol zijn binnen de economie. Volgens de eerste resultaten zou GPT-5 in verschillende beroepen al op het niveau van mensen “staan of er dichtbij” zitten, aldus
TechCrunch.
De test omvat 44 beroepen verspreid over negen sectoren, zoals gezondheidszorg, financiën, productie en overheidsdiensten. AI-modellen moesten opdrachten uitvoeren zoals een analyse van een concurrerende markt, rapporten schrijven of beleidsvoorstellen maken. In de vergelijking tussen menselijke versies en AI-versies werd gevraagd welke opdracht beter of gelijkwaardig was. GPT-5 scoorde in deze benchmark een “win of gelijk” percentage van zo’n 40,6 %, terwijl een ander model, Claude Opus 4.1, 49% behaalde.
Wat zeggen de cijfers?
Met “win of gelijk” bedoelt
OpenAI: in ongeveer 40% van de testen vonden menselijke beoordelaars dat het output van GPT-5 beter was of ten minste niet slechter. Dat is geen bewijs dat GPT-5 op alle taken even goed is als mensen, de test bestrijkt slechts een deel van wat mensen in een werkdag doen.
OpenAI erkent zelf dat GDPval slechts een “eerste poging” is om te meten waar AI staat ten opzichte van menselijke prestaties. De test is beperkt in reikwijdte en oogst kritiek omdat niet alle soorten werk of contexten meetbaar zijn in benchmarks.
Waarom dit relevant is
Deze resultaten spelen in op de centrale ambitie van OpenAI om een model te ontwikkelen dat kan concurreren met menselijke arbeid op brede schaal, het streven naar AGI (artificial general intelligence). Als AI bepaalde taken op menselijk niveau kan uitvoeren, verandert dat de spelregels voor werk, bedrijven en beleid.
Voor ondernemers kan deze ontwikkeling betekenen dat bepaalde routinetaken (data-analyse, rapportage, standaardadvies) efficiënter uitgevoerd kunnen worden met AI-assistenten, waardoor menselijke tijd vrijkomt voor creatievere of sociale taken.
Kritische vragen en kanttekeningen
Er zijn echter belangrijke beperkingen. Ten eerste: modellen zoals GPT-5 kunnen ingrediënten combineren en patronen herkennen, maar missen vaak diep begrip, intuïtie of context die mensen wel zien. Fouten, ontbrekende nuance of “hallucinaties” blijven mogelijke zwakke plekken.
Ten tweede: GDPval test een beperkt aantal taken. Veel werk wordt gevormd door communicatie, relaties, onverwachte situaties en ethische afwegingen, aspecten die moeilijk te vatten zijn in benchmarks.
Ten derde: volgens evaluaties lopen AI-modellen soms sneller, goedkoper te draaien, maar dat zegt niets over betrouwbaarheid, verantwoordelijkheid of juridische aansprakelijkheid.
Tot slot: gebruik in de praktijk betekent dat bedrijven en gebruikers moeten nadenken over acceptatie, fouten, toezicht en correcties. Alleen omdat een AI in een test “gelijk” scoort, betekent dat nog niet dat je erop kunt vertrouwen in levensbelangrijke of complexe situaties.