Meta onthult ‘Dr. Zero’ en laat AI zichzelf trainen zonder data

Nieuws
vrijdag, 16 januari 2026 om 20:04
Meta onthult ‘Dr. Zero’ en laat AI zichzelf trainen zonder data
Meta waarschuwt dat de strijd om hoogwaardige trainingsdata de ontwikkeling van kunstmatige intelligentie vertraagt. Onderzoekers van Meta Superintelligence Labs presenteren daarom Dr. Zero, een nieuw AI-framework dat zichzelf leert redeneren en zoeken zonder enige trainingsdata. Het onderzoek verscheen op arXiv en laat zien dat geavanceerde AI-capaciteiten kunnen ontstaan zonder menselijke labels, voorbeelden of datasets.
De doorbraak is relevant voor iedereen die de snelle vooruitgang van AI volgt. Grote taalmodellen lopen steeds vaker tegen datalimieten aan. Dr. Zero doorbreekt die grens door een volledig data-vrij leerproces te gebruiken. Het systeem traint zichzelf door vragen te bedenken, die vragen zelf op te lossen en de moeilijkheid automatisch op te schroeven.

Wat is Dr. Zero en waarom is het belangrijk?

Dr. Zero is een zogenoemde self-evolving search agent. Dat betekent dat het systeem niet alleen antwoorden zoekt, maar ook leert hoe het betere vragen stelt. Het framework bestaat uit twee AI-agenten die starten vanuit hetzelfde basismodel.
De eerste agent fungeert als “proposer”. Deze AI genereert vragen en taken. De tweede agent is de “solver”, die probeert deze vragen op te lossen via meerstapsredenering en zoekacties. Als de solver beter wordt, dwingt dit de proposer om complexere maar nog steeds oplosbare problemen te verzinnen.
Dit proces creëert automatisch een curriculum. De AI bepaalt zelf wat de volgende leerstap is. Volgens de onderzoekers is dit cruciaal, omdat menselijke curricula duur zijn, langzaam ontwikkelen en vaak beperkt blijven tot specifieke domeinen.

Zelflerende AI zonder trainingsdata

Het opvallendste aspect van Dr. Zero is dat het systeem geen gelabelde data gebruikt. Traditionele AI-modellen leren van enorme datasets met door mensen gemaakte voorbeelden. Dr. Zero gebruikt alleen een externe zoekmachine om antwoorden te verifiëren. Er is geen mens nodig die vragen opstelt of antwoorden controleert.
De onderzoekers noemen dit zero-data self-evolution. Het systeem leert volledig door interactie met zichzelf en met externe informatiebronnen. Daardoor kan het ook functioneren in open domeinen, waar vooraf gedefinieerde datasets ontbreken.
Volgens de paper vormt dit een antwoord op een groeiend probleem in AI-onderzoek. Hoogwaardige data wordt schaarser, duurder en juridisch gevoeliger. Zelflerende systemen zoals Dr. Zero omzeilen die beperkingen.

Minder rekenkracht door slimme optimalisatie

Meta introduceert naast het zelflerende mechanisme ook een nieuwe optimalisatietechniek. Deze methode heet hop-grouped relative policy optimization, afgekort HRPO.
HRPO groepeert vragen die qua structuur op elkaar lijken. In plaats van elke vraag afzonderlijk te evalueren, beoordeelt het systeem groepen tegelijk. Dat verlaagt de benodigde rekenkracht aanzienlijk.
De onderzoekers stellen dat HRPO het grootste knelpunt van zelflerende zoekagenten oplost. Multi-step redenering en toolgebruik kosten normaal veel compute. Met HRPO blijft de training stabiel, maar wordt deze wel efficiënter.

Prestaties op niveau van supervised AI

In experimenten vergelijken de onderzoekers Dr. Zero met volledig gesuperviseerde zoekagenten. Dat zijn systemen die wel getraind zijn met menselijke data. Dr. Zero presteert volgens de resultaten even goed of zelfs beter.
De paper concludeert dat complexe redeneer- en zoekvaardigheden spontaan kunnen ontstaan via zelf-evolutie. Dat ondermijnt de aanname dat hoogwaardige menselijke data altijd noodzakelijk is voor sterke AI-prestaties.
Voor Meta is dit een strategische stap. Het bedrijf investeert zwaar in AI en zoekt manieren om minder afhankelijk te worden van externe data. Dr. Zero past binnen die bredere visie.

Gevolgen voor de toekomst van AI

Dr. Zero laat zien dat AI-systemen zichzelf kunnen verbeteren zonder menselijke tussenkomst. Dat roept zowel enthousiasme als vragen op. Enerzijds opent het de deur naar schaalbare en goedkopere AI-training. Anderzijds groeit de discussie over controle, transparantie en veiligheid.
Voor nu markeert Dr. Zero vooral een technisch keerpunt. De resultaten suggereren dat de volgende generatie AI mogelijk leert zoals mensen dat doen. Niet door lesboeken, maar door zichzelf steeds uitdagendere vragen te stellen.
loading

Loading