In nog geen maand tijd bereikte de YouTube-video “AI Learns to Play Soccer (and breaks physics)” ruim 3,3 miljoen weergaven. In de video trainen twee zelflerende agenten – Albert en Kai – zichzelf tot volwaardige voetballers door middel van deep reinforcement learning. Hun groeipad onthult niet alleen hoe snel algoritmen nieuwe vaardigheden oppikken, maar toont ook de grenzen van de onderliggende fysica-engine.
Grote doelen, grote stappen
De makers starten met extra brede doelen en een simpele beloning: één punt per gescoorde treffer. Het resultaat is een klassiek voorbeeld van curriculum learning: door de taak eerst makkelijker te maken, ontdekt het algoritme sneller welke acties succes opleveren. Binnen 32 pogingen plaatst Kai al zijn eerste afstandsschot tussen de palen, terwijl Albert nog worstelt met eigen doelpunten.
Hier zie je hoe dat gaat:
Boetes en bugs
Naast beloningen krijgen de agenten strafpunten voor tegendoelpunten. Die negatieve feedback dwingt tot verdedigend gedrag: Albert ontwikkelt een eigen keeper. Wanneer een bug in de doelpaal gratis “teleport-goals” oplevert, gebruiken de agenten die exploït om de score op te krikken. Het incident illustreert hoe AI niet ethisch, maar opportunistisch leert: elke loophole in de simulatie wordt een kans om de beloning te maximaliseren.
Van 1-tegen-1 naar 11-tegen-11
Na 2000 simulatie-runs breiden de makers het spelveld uit naar 11-tegen-11. Team Albert pakt meteen een voordeel door spontaan een vaste doelman te houden; Team Kai laat dat na en krijgt meer tegengoals. Dit verschil bevestigt inzichten uit recente academische papers over multi-agent RL, waar vroege ontdekkingen van een “gouden” strategie de rest van het leerproces domineren.
Waarom dit relevant is voor robotvoetbal
- Complexiteit: 22 agenten communiceren tegelijk, wat schaalbare coördinatie vergt.
- Sim-to-real: De video gebruikt een cartooneske physics-engine; vertaling naar echte robotvoetbalteams vraagt nauwkeurigere modellen.
- Zelf-spelend leren: De aanpak sluit aan bij de groeiende onderzoekslijn waarin AI zichzelf verbetert zonder menselijke labels, vergelijkbaar met AlphaZero en Google DeepMind’s robotvoetbal-projecten.
Grenzen én kansen
Glitches, onrealistische massa-instellingen en beperkte botsingen benadrukken dat synthetische omgevingen snel “gebroken” worden. Toch levert juist die speelse aanpak bruikbare inzichten op: ontwikkelaars zien hoe beloningsfuncties tot onverwacht gedrag leiden en passen de simulatie aan voordat dure hardware kapotgaat.