In een baanbrekende nieuwe studie tonen onderzoekers aan dat grote taalmodellen (LLM’s) zoals GPT-5 en
Gemini 2.5 Pro inmiddels op goudmedaille-niveau presteren bij de International Olympiad on Astronomy and Astrophysics (IOAA). Dat is een van de meest uitdagende wetenschappelijke competities ter wereld.
Het
onderzoek, uitgevoerd door een team van de Ohio State University, bewijst dat AI-systemen niet alleen meer feitelijke kennis reproduceren, maar ook complexe redeneringen, wiskundige afleidingen en multidimensionale analyses kunnen uitvoeren.
AI scoort op niveau van topstudenten
De onderzoekers
testten verschillende AI-modellen op de officiële IOAA-theorie- en data-analyse-examens tussen 2022 en 2025. Deze examens zijn ontworpen voor de slimste middelbare scholieren ter wereld en vereisen diep inzicht in sterrenkunde, astrofysica en wiskundig redeneren.
Uit de resultaten blijkt dat GPT-5 en Gemini 2.5 Pro gemiddeld boven de 85% scoorden – vergelijkbaar met of beter dan menselijke deelnemers die een gouden medaille behaalden. GPT-5 behaalde zelfs een gemiddelde van 88,5%, waarmee het model tot de top 10 van menselijke deelnemers wereldwijd zou behoren.
In vergelijking hiermee scoorden andere modellen zoals Claude Sonnet 4 en OpenAI o3-mini tussen de 48% en 76%, wat neerkomt op zilver- of bronzeniveau.
Wat is de IOAA precies?
De International Olympiad on Astronomy and Astrophysics (IOAA) is een jaarlijkse internationale competitie voor de beste jonge wetenschappers (leeftijd 16–19 jaar) uit meer dan 50 landen. De deelnemers lossen uiterst complexe problemen op over onderwerpen als:
- Sterrenstructuren en evolutie
- Zwaartekracht, baanmechanica en relativiteit
- Waarnemingsanalyse en datareductie
- Neutronensterren, zwarte gaten en accretieschijven
De opgave die in de studie wordt getoond – over een neutronenster-binaire – vraagt deelnemers om massa’s, snelheden en magnetische velden af te leiden met behulp van formules uit de astrofysica.
Waarom dit belangrijk is
Tot nu toe werd vaak gedacht dat AI vooral goed was in het beantwoorden van feitelijke vragen of het genereren van tekst, maar niet in multistep-redenering of wetenschappelijke probleemoplossing. Deze resultaten laten zien dat de nieuwste generaties LLM’s niet alleen kennis begrijpen, maar ook kunnen redeneren als een menselijk expert.
Toch waarschuwen de onderzoekers voor overhaaste conclusies. Hoewel GPT-5 en Gemini 2.5 Pro indrukwekkend presteren op theorie-examens, tonen ze nog zwakkere prestaties bij ruimtelijk inzicht en visualisatie – cruciale vaardigheden voor astronomisch onderzoek.
De volgende stap: AI als onderzoeksassistent
De auteurs van de paper concluderen dat AI-modellen binnenkort bruikbare autonome onderzoeksagenten kunnen worden. Dat zou betekenen dat AI niet alleen meer vragen beantwoordt, maar ook actief nieuwe ontdekkingen kan helpen doen in de astronomie.
“Hoewel taalmodellen nu al menselijke topprestaties evenaren bij redeneringsproblemen, moeten we voorzichtig zijn,” schrijven de onderzoekers. “Ze begrijpen nog niet waarom hun berekeningen kloppen, en dat onderscheidt een onderzoeker van een rekenmachine.”