Nieuwe benchmark onthult opvallende resultaten: Kimi K2 Thinking en GPT-OSS-120B verrassen

zondag, 09 november 2025 om 15:24

Het onafhankelijke onderzoeksplatform Artificial Analysis heeft een uitgebreid nieuw overzicht gepubliceerd van de prestaties van toonaangevende AI-modellen, waaronder Kimi K2 Thinking, GPT-5 Pro, Claude 3.5 Sonnet, Gemini 1.5 Pro en diverse open-source modellen. De benchmark vergelijkt de modellen op uiteenlopende taken zoals redeneren, coderen en wetenschappelijke kennis.

Kimi K2 Thinking scoort sterk op redenering

Volgens de nieuwe cijfers behoort Kimi K2 Thinking tot de hoogst scorende modellen in redeneringstests zoals AA-LCR (Long Context Reasoning) en Humanity’s Last Exam. Het model behaalt scores tussen de 70 en 80 procent en laat daarmee gevestigde namen als Claude 3.5 Sonnet en Gemini 1.5 Pro achter zich op specifieke onderdelen.

Artificial Analysis beschrijft deze tests als maatstaven voor “intelligentie en redeneervermogen op menselijk niveau”. In de grafieken is te zien dat de topmodellen van Anthropic, OpenAI en Moonshot AI (de maker van Kimi) dicht bij elkaar liggen, wat wijst op een hevige concurrentiestrijd aan de top van de AI-industrie.

GPT-OSS-120B opvallend goed in codering

Wat vooral de aandacht trekt, is de positie van GPT-OSS-120B, een open-source model dat volgens de LiveCodeBench-test momenteel het best presterende coderingsmodel ter wereld zou zijn. Het model scoort hoger dan commerciële giganten als GPT-4o, Claude 3.5 Sonnet en Gemini 1.5 Pro.

Die uitkomst zorgt voor verbazing in de online community. Een Reddit-gebruiker reageerde met humor: “So GPT-OSS-120B is the best coder in the world now?” Een ander merkte op dat het model weliswaar goedkoop is, maar dat bijna niemand het daadwerkelijk gebruikt voor programmeertaken.

Twijfels over betrouwbaarheid van benchmarks

Niet iedereen neemt de resultaten voor waar aan. Meerdere reacties plaatsen vraagtekens bij de methodologie van Artificial Analysis. Een gebruiker schreef: “Their scores have been really disconnected from user sentiment and real-world results.”

Een ander vermoedt dat de hoge score van GPT-OSS-120B het gevolg is van specifieke training: “Trained heavy on that dataset, I bet.” Daarmee wordt gesuggereerd dat het model mogelijk is geoptimaliseerd voor de exacte taken waarop het wordt getest.

GPT-5 Pro en Claude 3.5 blijven consistent

Hoewel de open-source modellen opvallend presteren in sommige categorieën, blijven GPT-5 Pro en Claude 3.5 Sonnet gemiddeld gezien de meest consistente modellen. Ze scoren stabiel boven de 80 procent op vrijwel alle benchmarks, waaronder MMLU-Pro (kennis en redenering) en GPOA Diamond (wetenschappelijke logica).

Opvallend is dat OpenAI’s GPT-5 Pro de hoogste score haalt op AIME 2025 (Competition Math), een benchmark gebaseerd op wiskundige olympiades, met bijna 100 procent accuraatheid.

Toenemende diversiteit in AI-modellen

De publicatie van Artificial Analysis benadrukt hoe breed het veld van geavanceerde taalmodellen inmiddels is geworden. Waar voorheen OpenAI de standaard bepaalde, laten de resultaten zien dat Chinese bedrijven zoals Moonshot AI (Kimi), maar ook open-source initiatieven, steeds dichter bij de top komen.

Het feit dat er nu tientallen modellen worden vergeleken op verschillende domeinen – van codering tot wetenschappelijke redenering – toont aan dat de AI-markt snel volwassen wordt.