Onderzoekers van Meta FAIR en meerdere universiteiten presenteren op 21 december 2025 een nieuwe trainingsmethode voor kunstmatige intelligentie die software-agents zelfstandig slimmer laat worden. Het onderzoek, geleid door Yuxiang Wei, introduceert Self-play SWE-RL. Dit is een aanpak waarbij één AI-agent zichzelf traint door softwarefouten te maken en die vervolgens weer op te lossen. Menselijke labels, GitHub-issues of handmatig geschreven tests zijn daarbij niet nodig.
Het
paper zet een fundamentele stap richting zelflerende en mogelijk superintelligente software-agents.
Waarom menselijke data een bottleneck vormt voor AI-agents
Huidige software-agents, vaak gebaseerd op grote taalmodellen zoals GPT-achtige systemen, verhogen al de productiviteit van programmeurs. Toch blijven ze sterk afhankelijk van door mensen gemaakte trainingsdata. Denk aan GitHub-issues, pull requests en zorgvuldig samengestelde testsets.
Volgens Wei vormt die afhankelijkheid een structurele beperking. Menselijke kennis is eindig, duur en vaak inconsistent. Daardoor leren AI-agents vooral bestaande oplossingen reproduceren in plaats van nieuwe softwareproblemen zelfstandig te ontdekken en op te lossen.
Self-play SWE-RL doorbreekt dit patroon.
Wat is Self-play SWE-RL precies?
Self-play SWE-RL, afgekort als SSR, traint één enkel large language model in twee rollen tegelijk:
- een agent die bewust softwarefouten injecteert
- dezelfde agent die deze fouten opspoort en repareert
Dit proces vindt plaats in echte, sandboxed software-repositories met bestaande code en afhankelijkheden. In plaats van natuurlijke taalbeschrijvingen gebruikt het systeem formele test-patches om bugs te definiëren. Een test faalt. De agent moet begrijpen waarom. Daarna schrijft hij een patch die de test weer laat slagen.
Na elke cyclus krijgt het model een beloningssignaal, vergelijkbaar met reinforcement learning in games. Naarmate de training vordert, worden de fouten complexer en abstracter.
Opvallende resultaten op SWE-bench
De onderzoekers testten SSR op twee bekende benchmarks voor AI-programmeeragents:
- SWE-bench Verified
- SWE-bench Pro
De resultaten springen eruit:
- +10,4 punten verbetering op SWE-bench Verified
- +7,8 punten verbetering op SWE-bench Pro
Opvallend is dat SSR tijdens de training geen natuurlijke taalissues ziet, maar tijdens evaluatie toch beter presteert dan modellen die wel met menselijke data zijn getraind.
Dit wijst erop dat zelfgegenereerde leerervaringen rijker en algemener kunnen zijn dan door mensen samengestelde voorbeelden.
Waarom dit belangrijk is voor de toekomst van AI?
Het onderzoek suggereert een fundamentele verschuiving in hoe software-agents kunnen leren. In plaats van afhankelijk te blijven van menselijke instructies, kunnen AI-systemen:
- zelfstandig complexe softwarestructuren begrijpen
- nieuwe programmeerproblemen ontdekken
- oplossingen ontwikkelen zonder voorbeelden
- volledig nieuwe software creëren
Dit brengt de ontwikkeling van autonome AI-agents dichter bij het niveau waarop ze menselijke programmeurs niet alleen ondersteunen, maar mogelijk overstijgen.
De auteurs benadrukken wel dat het onderzoek zich in een vroeg stadium bevindt. Toch zien zij SSR als een noodzakelijke bouwsteen richting algemene en superintelligente AI-systemen.
Wat is de volgende stap?
Self-play was eerder al succesvol in domeinen zoals schaken en Go. Met SSR laten de onderzoekers zien dat dit principe ook werkt in de rommelige, onvoorspelbare wereld van echte software-repositories.
Daarmee verschuift AI-ontwikkeling van taalbegrip naar systeembegrip. Dat verschil is cruciaal. Wie software kan bouwen, begrijpen en aanpassen zonder uitleg, heeft toegang tot een veel bredere vorm van intelligentie.