Onderzoek in Minecraft legt probleem met AI agents bloot

dinsdag, 28 april 2026 om 17:00

Onderzoekers van onder meer de University of California, Los Angeles en Amazon publiceren eind april 2026 een studie waarin zij aantonen dat moderne AI-systemen structureel tekortschieten in het toepassen van nieuw ontdekte kennis.

Hun benchmark, gebaseerd op Minecraft, laat zien dat zelfs de meest geavanceerde modellen gemiddeld slechts 26 procent van de taken succesvol afronden.

De implicatie is direct relevant voor Nederland: AI-systemen die ogenschijnlijk goed redeneren, blijken moeite te hebben met de stap van inzicht naar praktische uitvoering. Dit raakt sectoren als industrie, onderwijs en beleid, waar juist die vertaalslag cruciaal is.

Wat onderzoekt deze studie precies?

De kernvraag is eenvoudig: kan AI zelf iets ontdekken én dat vervolgens toepassen? De onderzoekers noemen dit de “discovery-to-application loop”. Dit is het proces waarbij:

een systeem een kennisgat herkent
experimenten uitvoert
inzichten vastlegt
en die inzichten toepast in een werkende oplossing

Dit proces vormt de basis van menselijke innovatie, van wetenschap tot engineering. Volgens de studie ontbreekt juist deze samenhang nog grotendeels bij AI.

Waarom Minecraft als testomgeving?

De onderzoekers gebruiken Minecraft als experimentele omgeving omdat het een gecontroleerde maar complexe wereld biedt. In het spel kunnen agents elektrische circuits bouwen met zogenoemde “redstone”-mechanieken.

Deze omgeving heeft drie voordelen:

Controleerbare complexiteit: taken worden moeilijker door parameters aan te passen
Realistische causaliteit: systemen reageren volgens vaste regels
Geen voorkennis mogelijk: agents moeten echt ontdekken hoe het werkt

Een voorbeeldtaak: laat 64 lampen tegelijk aangaan binnen een beperkte ruimte. Dit vereist inzicht in signaalverlies, timing en circuitontwerp.

Hoe presteren huidige AI-modellen?

De onderzoekers testen onder meer:

GPT-5.2
Gemini-3-Pro
Claude-Opus-4.5

De uitkomst is opvallend consistent: alle modellen blijven steken rond de 26 procent succesratio.

Dit betekent dat driekwart van de taken mislukt, ondanks toegang tot tools, geheugen en meerdere pogingen.

Waar gaat het precies mis?

De studie identificeert vier fundamentele capaciteiten waarin AI tekortschiet:

1. Herkennen van kennisgaten

AI weet vaak niet wat het nog niet weet. Wanneer onderzoekers hints geven, verdubbelt de prestatie.

2. Experimenteren

Een aparte “scientist agent” die systematisch experimenten uitvoert, verhoogt succes verder tot circa 64 procent.

3. Kennis structureren

De manier waarop kennis wordt opgeslagen blijkt cruciaal. Gestructureerde formats werken aanzienlijk beter dan vrije samenvattingen.

4. Toepassen van kennis

De grootste bottleneck blijft echter uitvoering: het daadwerkelijk bouwen van een werkend systeem.

De onderzoekers concluderen dat vooral deze laatste stap nog zwaar onderontwikkeld is.

Belangrijk inzicht: AI stelt de verkeerde vragen

Een opvallende bevinding is dat bij de meest geavanceerde modellen het probleem verschuift. Niet het oplossen van problemen is de grootste uitdaging, maar het formuleren van de juiste vragen.

Dit sluit aan bij een klassiek inzicht van Albert Einstein: het correct definiëren van een probleem is vaak belangrijker dan het oplossen ervan.

Voor AI betekent dit dat systemen nog onvoldoende begrijpen waar ze moeten zoeken naar nieuwe kennis.

Wat betekent dit voor Nederland?

Deze bevindingen hebben directe implicaties voor Nederlandse AI-toepassingen:

Industrie en automatisering

Bedrijven die AI inzetten voor ontwerp of engineering kunnen tegen grenzen aanlopen. AI kan suggesties doen, maar faalt bij complexe implementaties.

Onderwijs en onderzoek

AI als “onderzoekspartner” is nog beperkt betrouwbaar. Studenten en onderzoekers moeten kritisch blijven op gegenereerde oplossingen.

Arbeidsmarkt

De rol van menselijke experts blijft cruciaal. Vooral in functies waar inzicht en toepassing samenkomen, zoals engineering en data science.

Beleidsvorming

Voor beleidsmakers betekent dit dat verwachtingen rond autonome AI-systemen moeten worden bijgesteld. Volledige automatisering van complexe besluitvorming is voorlopig niet realistisch.

Waarom dit onderzoek belangrijk is

Deze studie verschuift de discussie over AI-capaciteiten. Tot nu toe lag de focus op taalbegrip en redeneren. Dit onderzoek laat zien dat:

redeneren ≠ toepassen
kennis ≠ begrip
output ≠ functionaliteit

Het benadrukt dat echte intelligentie niet alleen zit in antwoorden geven, maar in het bouwen van werkende oplossingen.

Conclusie: AI mist nog een cruciale schakel

De conclusie is helder: huidige AI-systemen missen een fundamentele schakel tussen denken en doen.

Hoewel modellen steeds beter worden in redeneren en experimenteren, blijft de praktische toepassing achter. Dit maakt AI voorlopig een hulpmiddel, geen autonome probleemoplosser.

Voor Nederland betekent dit dat de inzet van AI strategisch moet blijven: ondersteunend waar mogelijk, maar altijd onder menselijke regie bij complexe toepassingen.