In een recente column op
The Verge wordt gepleit dat wereldmodellen (world models) wel eens de sleutel kunnen zijn naar een
AI die de echte wereld begrijpt, en niet alleen tekst. Volgens het artikel zijn wereldmodellen
AI-systemen die ruimtelijk begrip nabootsen: ze leren hoe objecten zich bewegen, hoe licht verandert, wat zwaartekracht doet, en hoe acties in de wereld uitpakken.
In deze visie kan een AI-agent niet alleen teksten genereren, maar ook anticiperen op de gevolgen van zijn acties in een 3D-omgeving. Bijvoorbeeld: een glas water omstoten? Zo’n model zou kunnen voorspellen dat het glas valt en het opvangen voordat het breekt.
Een opvallende start-up: General Intuition
Een recente speler in dit veld is de start-up General Intuition, opgericht door het team achter de gameplatformdienst Medal. Het bedrijf kondigde aan dat het honderddertig miljoen dollar seed-financiering ophaalde om te werken aan wereldmodellen gebaseerd op gaminggegevens. Medal verwerkt jaarlijks miljarden videofragmenten uit games, en het idee is dat die data waardevol is om AI te trainen in ruimtelijke logica, interactie en tijdsdynamiek.
De oprichter Pim de Witte wijst erop dat gamingomgevingen een gecontroleerde omgeving bieden om te leren wat “goede” acties zijn, en foutieve acties snel kunnen worden beoordeeld. In een spel kun je meten wat het effect is van elke stap, iets wat in de echte wereld veel ingewikkelder is.
General Intuition wil als eerste modellen bouwen die apparaten kunnen aansturen via invoer zoals toetsenbord, muis of controllers. Denk aan zoek- en reddingsrobots, drones, of zelfs autonome systemen die in de fysieke wereld werken.
De markt voor wereldmodellen groeit
Het artikel wijst erop dat meerdere technologiebedrijven en onderzoeksinstellingen al flink investeren in wereldmodellen. Google DeepMind is een uitgesproken voorstander, en heeft experimentele modellen laten zien die virtuele werelden genereren waarin AI kan opereren.
Ook andere start-ups en labs (zoals World Labs) experimenteren met modellen die interactieve video’s in real time kunnen creëren, of simulaties waarin AI leert bewegen, plannen en reageren op veranderingen.
De overtuiging is dat wereldmodellen kunnen dienen als brug tussen “taal-AI” en AI die écht kan handelen in de wereld: niet alleen op tekstniveau, maar op het niveau van waarneming, actie en gevolgen.
Kansen én uitdagingen
Eén van de beloften is dat wereldmodellen AI beter bestand maken tegen fouten in onbekende situaties, omdat ze een intern beeld van de wereld opbouwen. In plaats van blind te reageren op tekstpatronen, kunnen ze scenario’s simuleren en inschatten wat de best mogelijke actie is.
Toch zijn er flinke onzekerheden. Welke data is geschikt? Hoe schaal je modellen uit naar complexere, open werelden buiten games? En hoe voorkom je dat ze fouten maken bij onvoorspelbare omgevingen? Ook de technieken om modellen efficiënt en betrouwbaar te maken, qua geheugen, rekenkracht en veiligheid, moeten nog groeien.
Bovendien is het debat gaande welke datasetstructuren en leerprincipes werkelijk werken. Sommigen denken dat gamedata een goede start is, anderen betwijfelen of games voldoende representatief zijn voor de grimmige, onvoorspelbare realiteit.
Waarom dit relevant is
Als wereldmodellen effectief blijken, kunnen ze AI’s een fundamenteel nieuw soort begrip geven. AI kan dan niet alleen logisch redeneren met tekst, maar ook anticiperen op de fysieke wereld. Dat opent deuren voor geavanceerde robots, autonome systemen en AI die écht in onze omgeving kan navigeren.