OpenAI onthulde een opmerkelijke prestatie: hun experimentele redeneermodel behaalde een gouden medaille op de prestigieuze International Mathematical Olympiad (IMO). Daarmee zet het AI-onderzoek een nieuwe stap in menselijke denkkracht nabootsen.
OpenAI-model lost vijf IMO-vraagstukken op binnen officiële regels
Volgens AI-onderzoeker Alexander Wei, die de aankondiging
deelde via X, werd het model getest op de IMO 2025-vragen onder dezelfde voorwaarden als menselijke deelnemers. Dat betekent: twee sessies van 4,5 uur, zonder internet, hulpmiddelen of assistentie, en met handgeschreven bewijsteksten in natuurlijke taal.
Het model wist vijf van de zes opgaven succesvol op te lossen, goed voor een score van 35 op 42 punten. Daarmee voldoet het aan de criteria voor een gouden medaille volgens de IMO-standaard.
“We hebben het model laten beoordelen door drie voormalige IMO-medaillisten per opgave, en ze kwamen in volledige consensus tot deze score,” aldus Wei.
Waarom dit een doorbraak is in AI-redeneervermogen
IMO-opgaven staan bekend om hun extreme moeilijkheidsgraad en vereisen urenlang creatief redeneren, ver buiten het bereik van traditionele benchmarks zoals GSM8K of het MATH-benchmark. Waar eerdere tests AI-modellen uitdaagden op minuten-schaal, vereisen IMO-opgaven een denktraject van ruim anderhalf uur per vraag.
Het GitHub-project
openai-imo-2025-proofs toont de ingezonden oplossingen van het model voor de eerste vijf opgaven. Elk bestand bevat een natuurlijke, beknopte bewijsvoering die verrassend veel lijkt op hoe menselijke wiskundestudenten onderling argumenteren.
Strikte voorwaarden: geen hulpmiddelen, natuurlijke taal
De proefopstelling was zo opgezet dat het model niet kon terugvallen op eerder geleerde formules of rekenmodules. Alle bewijzen zijn geschreven in natuurlijke taal, zonder overmatige herhaling of "LLM-jargon". Deze stijl valt op:
“Het leest als een onderling conceptbewijs tussen mensen, niet als opgeblazen modeluitvoer,” aldus een veelgehoorde reactie op Hacker News.
Een veelbesproken punt is dat het model geen oplossing vond voor probleem 6, traditioneel het moeilijkste IMO-vraagstuk. Toch maakt het dat de prestatie des te realistischer. Ook menselijke deelnemers behalen zelden de volle score.
AI-revolutie in bewijsvoering: voorbij simpele beloningssystemen
Wei benadrukt dat deze vooruitgang niet voortkomt uit taakgerichte fine-tuning of klassieke reinforcement learning. In plaats daarvan werd gekozen voor een algemene, schaalbare benadering van redeneervermogen via versterkte rekenkracht tijdens inferentie (test-time compute scaling).
“De overgang van RL met duidelijk meetbare beloningen naar lange, moeilijk te controleren bewijsvoering is fundamenteel,” zegt Wei. “Hiermee breken we een nieuwe categorie open in AI-capaciteiten.”
Kritische stemmen en vervolgstappen
Hoewel de community grotendeels enthousiast reageert, klinken ook voorzichtige geluiden. Zo stelt discussieplatform LessWrong dat het model "net" boven de goudgrens scoorde, en dat externe validatie cruciaal blijft. Sommige experts vragen zich af of de opgaven van 2025 relatief eenvoudig waren, wat het resultaat deels zou verklaren.
Voor nu is het wachten op bredere validatie en open publicaties over de architectuur. OpenAI stelt voorlopig geen plannen te hebben om dit specifieke model vrij te geven, mede vanwege de gevoeligheid van geavanceerde wiskundige capaciteiten.
GPT-5 op komst, maar dit model blijft voorlopig intern
Tot slot laat Wei weten dat GPT-5 binnenkort wordt uitgebracht, maar benadrukt dat het IMO-model een losstaand experimenteel project is. OpenAI heeft geen directe plannen om deze redeneercapaciteiten publiek te maken.
De resultaten zetten de toon voor een toekomst waarin AI niet alleen vragen beantwoordt, maar ook menswaardige, logisch sluitende argumenten formuleert over complexe abstracte concepten. Een rekenkundige revolutie in wording.