Een nieuwe benchmark om de vooruitgang richting AGI (Artificial General Intelligence) te meten, heeft voor een reality check gezorgd. De onlangs gelanceerde ARC-AGI-2-test – ontworpen door de Arc Prize Foundation, mede opgericht door AI-onderzoeker François Chollet – legt de beperkingen van huidige AI-modellen genadeloos bloot. Waar mensen gemiddeld 60% scoren op deze test vol complexe visuele puzzels, blijven toonaangevende AI-modellen steken op ongeveer 1%.
Deze uitkomst onderstreept dat zelfs de krachtigste systemen van dit moment – zoals GPT-4.5, Claude 3.7 en Google Gemini 2.0 – nog ver verwijderd zijn van menselijke intelligentie. De resultaten temperen de groeiende hype rondom AGI en roepen belangrijke vragen op over hoe ver we werkelijk staan.
Chollet meldt dit in een blogpost.
De ARC-AGI-2-test bestaat uit visuele problemen waarin AI-systemen patronen moeten herkennen, redeneren en volledig nieuwe concepten moeten doorgronden. De test bevat géén voorbeelden, tips of feedback – wat het aanzienlijk moeilijker maakt dan conventionele AI-benchmarks.
Het doel is om te meten in hoeverre een AI-systeem creatief en adaptief kan denken, net zoals een mens dat zou doen in onbekende situaties. De makers noemen het een "zero-shot cognitieve test" die dichter bij echte algemene intelligentie komt dan eerdere benchmarks.
Topmodellen als OpenAI’s GPT-4.5 Turbo, Anthropic’s Claude 3.7 en Google’s Gemini 2.0 zijn geanalyseerd op deze nieuwe benchmark. De resultaten waren opvallend laag:
De test laat duidelijk zien dat deze systemen weliswaar indrukwekkende taalverwerking en probleemoplossing tonen in bekende contexten, maar niet overweg kunnen met volledig nieuwe of abstracte situaties. Dat is precies wat AGI in essentie zou moeten kunnen.
De resultaten vormen een krachtig tegengewicht tegen het dominante narratief dat AGI “vlak om de hoek” ligt. Hoewel AI-modellen vandaag al verbazingwekkende prestaties leveren in specifieke taken, blijkt uit deze test dat ze nog lang niet het flexibele, creatieve en situationeel aanpasbare denkvermogen van mensen bezitten.
François Chollet benadrukte in TechCrunch dat echte AGI “veel meer vraagt dan statistische patroonherkenning” en pleitte voor nieuw onderzoek naar cognitieve architecturen die beter kunnen generaliseren.
De ARC-AGI-2 is geen kleine horde, maar een bewuste poging om de lat voor AGI substantieel hoger te leggen. Voor AI-ontwikkelaars en onderzoekers is het een duidelijke boodschap: het pad naar échte algemene intelligentie is langer en complexer dan gedacht.
Bovendien roept de test vragen op over de evaluatiemethoden die tot nu toe werden gebruikt. Zijn bestaande benchmarks te eenvoudig? En moeten we als sector niet meer nadruk leggen op begrip, redenering en aanpassingsvermogen, in plaats van enkel schaalvergroting en rekencapaciteit?
De ARC-AGI-2-test is een mijlpaal in het debat over de toekomst van AI. Door aan te tonen dat de huidige modellen nauwelijks presteren waar mensen moeiteloos slagen, wordt duidelijk dat we nog ver verwijderd zijn van echte AGI. Voor wie zich afvroeg of machines al even slim zijn als mensen: het antwoord is voorlopig een duidelijke nee.