AI lost Olympiade-wiskunde sneller op dan experts dachten

zondag, 20 juli 2025 om 20:02

AI lost Olympiade-wiskunde sneller dan experts dachten

In de wereld van kunstmatige intelligentie voltrekt zich een stille revolutie. Waar topexperts als Terence Tao nog dachten dat het jaren zou duren voordat AI zich kon meten met menselijke deelnemers aan de Internationale Wiskunde Olympiade (IMO), blijkt de realiteit hen inmiddels te hebben ingehaald. Niet alleen OpenAI, maar ook Anthropic zou met succes een AI-model hebben ontwikkeld dat IMO-achtige opgaven oplost binnen de officiële tijdslimieten én in natuurlijke taal.

Van toekomstvisie naar realiteit in maanden

In een podcastuitzending van amper een maand geleden speculeerden Lex Fridman en Terence Tao nog over de mogelijkheid van een "AI Math Olympiad". Tao gaf aan dat het hem onwaarschijnlijk leek dat een AI al in staat zou zijn om IMO-opgaven op natuurlijke wijze en onder tijdsdruk op te lossen. Toch gebeurt precies dat nu, sneller dan zelfs hij had verwacht.

Lewis Tunstall van OpenAI wees op sociale media op die ironie: “Zelfs Terence Tao dacht dat het nog jaren zou duren.” Wat volgde was een stroom aan reacties uit de AI-gemeenschap. AI-onderzoeker Archit Sharma liet weten dat OpenAI hen "voor was met de aankondiging", en suggereerde met een knipoog dat "P6" – het zesde IMO-probleem – de nieuwe benchmark is geworden.

Maar het nieuws beperkt zich niet tot OpenAI. Verschillende bronnen binnen de wiskundige AI-gemeenschap bevestigen dat ook Anthropic vergelijkbare prestaties heeft neergezet met hun eigen model. Dat zou niet alleen IMO-opgaven oplossen, maar ook overtuigende bewijsteksten in natuurlijke taal genereren, volgens beoordelaars “niet te onderscheiden van werk van topstudenten”.

Wat maakt 'P6' zo bijzonder?

Het beruchte Probleem 6 van IMO 2025 – afgekort P6 – is inmiddels uitgegroeid tot het nieuwe ijkpunt in AI-wiskunde. De opgave draaide om een gigantisch 2025×2025 raster waarin elk rij en kolom precies één onbedekt vakje moest bevatten, en de rest met rechthoekige tegels moest worden bedekt. Het probleem bleek zó lastig, dat geen enkel publiekelijk bekend AI-model – van OpenAI, Google, noch Anthropic – er punten op scoorde tijdens de eerste testrondes.

Op het forum Matharena.ai werd bevestigd dat zelfs de beste modellen op nul eindigden bij deze opgave. Dat onderstreept hoe uitzonderlijk het is dat AI überhaupt succesvol is bij de overige IMO-vraagstukken, die al decennia gelden als een van de ultieme uitdagingen in probleemgestuurd redeneren.

Nieuwe timing, nieuwe verwachtingen

De snelle vooruitgang in wiskundige AI zet druk op eerdere inschattingen. Waar eerder gedacht werd aan een tijdspad van vijf tot tien jaar voor volledig menselijke prestaties op dit vlak, schuift die verwachting nu richting “de komende edities”. Er zijn volgens insiders zelfs plannen om vanaf 2026 een officiële AI-deelnamecategorie aan de IMO te koppelen, waarin AI’s onder toezicht dezelfde opgaven krijgen als menselijke deelnemers.

Dit zou betekenen dat de oplossingen voortaan niet alleen correct moeten zijn, maar ook beoordeeld zullen worden door IMO-juryleden op menselijke begrijpelijkheid, helderheid en geldigheid — exact zoals bij scholieren gebeurt. En dat vereist uitwerkingen in natuurlijke taal, niet in symbolisch codeformaat.

OpenAI blijft koploper, maar Anthropic volgt op de voet

Hoewel OpenAI de eerste was met een publieke aankondiging over hun gouden score (35/42), lijkt Anthropic op de achtergrond net zo’n grote stap te hebben gezet. Beide teams werkten volgens dezelfde principes: geen hulpmiddelen, geen externe kennis, natuurlijke taalbewijzen, en strikte tijdslimieten.

Volgens bronnen binnen de AI-wiskundegemeenschap experimenteert ook Google DeepMind met een gelijkwaardig project, waarbij het model niet alleen de oplossing vindt, maar ook "vragen stelt aan zichzelf" tijdens het redeneren. Dit zou leiden tot meer robuuste, gecontroleerde bewijsteksten.