Onderzoekers van onder meer de University of California, Los Angeles en Amazon publiceren eind april 2026 een studie waarin zij aantonen dat moderne AI-systemen structureel tekortschieten in het toepassen van nieuw ontdekte kennis.
Hun
benchmark, gebaseerd op Minecraft, laat zien dat zelfs de meest geavanceerde modellen gemiddeld slechts 26 procent van de taken succesvol afronden.
De implicatie is direct relevant voor Nederland: AI-systemen die ogenschijnlijk goed redeneren, blijken moeite te hebben met de stap van inzicht naar praktische uitvoering. Dit raakt sectoren als industrie, onderwijs en beleid, waar juist die vertaalslag cruciaal is.
Wat onderzoekt deze studie precies?
De kernvraag is eenvoudig: kan AI zelf iets ontdekken én dat vervolgens toepassen? De onderzoekers noemen dit de “discovery-to-application loop”. Dit is het proces waarbij:
-
een systeem een kennisgat herkent
-
experimenten uitvoert
-
inzichten vastlegt
-
en die inzichten toepast in een werkende oplossing
Dit proces vormt de basis van menselijke innovatie, van wetenschap tot engineering. Volgens de studie ontbreekt juist deze samenhang nog grotendeels bij AI.
Waarom Minecraft als testomgeving?
De onderzoekers gebruiken Minecraft als experimentele omgeving omdat het een gecontroleerde maar complexe wereld biedt. In het spel kunnen agents elektrische circuits bouwen met zogenoemde “redstone”-mechanieken.
Deze omgeving heeft drie voordelen:
-
Controleerbare complexiteit: taken worden moeilijker door parameters aan te passen
-
Realistische causaliteit: systemen reageren volgens vaste regels
-
Geen voorkennis mogelijk: agents moeten echt ontdekken hoe het werkt
Een voorbeeldtaak: laat 64 lampen tegelijk aangaan binnen een beperkte ruimte. Dit vereist inzicht in signaalverlies, timing en circuitontwerp.
Hoe presteren huidige AI-modellen?
De onderzoekers testen onder meer:
-
GPT-5.2
-
Gemini-3-Pro
-
Claude-Opus-4.5
De uitkomst is opvallend consistent: alle modellen blijven steken rond de 26 procent succesratio.
Dit betekent dat driekwart van de taken mislukt, ondanks toegang tot tools, geheugen en meerdere pogingen.
Waar gaat het precies mis?
De studie identificeert vier fundamentele capaciteiten waarin AI tekortschiet:
1. Herkennen van kennisgaten
AI weet vaak niet wat het nog niet weet. Wanneer onderzoekers hints geven, verdubbelt de prestatie.
2. Experimenteren
Een aparte “scientist agent” die systematisch experimenten uitvoert, verhoogt succes verder tot circa 64 procent.
3. Kennis structureren
De manier waarop kennis wordt opgeslagen blijkt cruciaal. Gestructureerde formats werken aanzienlijk beter dan vrije samenvattingen.
4. Toepassen van kennis
De grootste bottleneck blijft echter uitvoering: het daadwerkelijk bouwen van een werkend systeem.
De onderzoekers concluderen dat vooral deze laatste stap nog zwaar onderontwikkeld is.
Belangrijk inzicht: AI stelt de verkeerde vragen
Een opvallende bevinding is dat bij de meest geavanceerde modellen het probleem verschuift. Niet het oplossen van problemen is de grootste uitdaging, maar het formuleren van de juiste vragen.
Dit sluit aan bij een klassiek inzicht van Albert Einstein: het correct definiëren van een probleem is vaak belangrijker dan het oplossen ervan.
Voor AI betekent dit dat systemen nog onvoldoende begrijpen waar ze moeten zoeken naar nieuwe kennis.
Wat betekent dit voor Nederland?
Deze bevindingen hebben directe implicaties voor Nederlandse AI-toepassingen:
Industrie en automatisering
Bedrijven die AI inzetten voor ontwerp of engineering kunnen tegen grenzen aanlopen. AI kan suggesties doen, maar faalt bij complexe implementaties.
Onderwijs en onderzoek
AI als “onderzoekspartner” is nog beperkt betrouwbaar. Studenten en onderzoekers moeten kritisch blijven op gegenereerde oplossingen.
Arbeidsmarkt
De rol van menselijke experts blijft cruciaal. Vooral in functies waar inzicht en toepassing samenkomen, zoals engineering en data science.
Beleidsvorming
Voor beleidsmakers betekent dit dat verwachtingen rond autonome AI-systemen moeten worden bijgesteld. Volledige automatisering van complexe besluitvorming is voorlopig niet realistisch.
Waarom dit onderzoek belangrijk is
Deze studie verschuift de discussie over AI-capaciteiten. Tot nu toe lag de focus op taalbegrip en redeneren. Dit
onderzoek laat zien dat:
-
redeneren ≠ toepassen
-
kennis ≠ begrip
-
output ≠ functionaliteit
Het benadrukt dat echte intelligentie niet alleen zit in antwoorden geven, maar in het bouwen van werkende oplossingen.
Conclusie: AI mist nog een cruciale schakel
De conclusie is helder: huidige AI-systemen missen een fundamentele schakel tussen denken en doen.
Hoewel modellen steeds beter worden in redeneren en experimenteren, blijft de praktische toepassing achter. Dit maakt AI voorlopig een hulpmiddel, geen autonome probleemoplosser.
Voor Nederland betekent dit dat de inzet van AI strategisch moet blijven: ondersteunend waar mogelijk, maar altijd onder menselijke regie bij complexe toepassingen.