De ultieme en laatste test voor AI: "Humanity’s Last Exam"

vrijdag, 24 januari 2025 om 10:00

grammarly ai engels leren kunstmatige intelligentie

Kunstmatige intelligentie (AI) ontwikkelt zich in razend tempo en wordt steeds slimmer. Zo slim zelfs, dat de testen die we gebruiken om deze modellen te evalueren niet langer uitdagend genoeg zijn. De AI’s weten ze met twee digitale vingers in de neus te halen. Daarom is er nu een nieuwe test ontwikkeld: "Humanity’s Last Exam". Deze beproeving, samengesteld door het Center for AI Safety en Scale AI, is ontworpen als de ultieme uitdaging voor kunstmatige intelligentie.

Voorheen konden we de prestaties van AI met simpele toetsen meten, zoals de S.A.T., een gestandaardiseerde toelatingstest voor Amerikaanse universiteiten. Deze beproevingen werden al snel te eenvoudig waardoor onderzoekers over gingen op de test van Ph.D.-niveau, maar ook die blijken inmiddels geen echte uitdaging meer te zijn.

De nieuwe “Humanity’s Last Exam" test bevat zo’n 3.000 complexe vragen over uiteenlopende onderwerpen zoals filosofie, raketwetenschap en geavanceerde wiskunde. Hoogleraren, prijswinnende wetenschappers en andere experts hebben bijgedragen om de vragen zo moeilijk mogelijk te maken.

AI faalt tot nog toe… maar voor hoe lang?

Het nieuwe examen werd afgenomen bij zes van de meest geavanceerde AI modellen, waaronder Google’s Gemini 1.5 Pro en Anthropic’s Claude 3.5 Sonnet. De resultaten? Slecht. OpenAI’s beste model scoorde slechts 8,3%. Toch verwachten onderzoekers dat deze scores binnen een jaar boven de 50% zullen uitkomen. Zodra dat gebeurt, zou kunstmatige intelligentie in staat kunnen zijn om menselijke experts op bijna elk gebied te overtreffen.

Wat moeten we doen na de "Humanity’s Last Exam"? Wat als A.I. ook deze ultieme test moeiteloos doorstaat? Het wordt er niet makkelijk op. Het zal in ieder geval cruciaal blijven om de impact van kunstmatige intelligentie te meten. In de toekomst zal dit wellicht niet langer gebeuren via examenvragen, maar eerder door het analyseren van economische trends, wetenschappelijke doorbraken en technologische innovaties. We zullen moeten kijken naar de mate waarin AI zelfstandig nieuwe kennis kan genereren, complexe problemen kan oplossen en daadwerkelijk bijdraagt aan vooruitgang in verschillende vakgebieden, want tot nog toe doen mensen dit.