Nederlandse LLM-benchmark: GPT-5 Mini even nauwkeurig als GPT-5, maar 165× goedkoper

Nieuws
dinsdag, 02 september 2025 om 12:30
AI onderzoek
De Nederlandse AI-expert Maarten Sukel presenteert een grootschalige benchmark van 16 toonaangevende taalmodellen op duizenden echte Nederlandse eindexamenvragen. Doel: vaststellen welke modellen in de praktijk het best werken voor Nederlandstalige toepassingen. De uitkomst is opvallend. Sommige modellen zijn tot 165 keer duurder dan andere bij gelijke nauwkeurigheid, terwijl meerdere open-source alternatieven de gevestigde namen uitdagen.
Dat meldt Sukel in een post op Linkedin. Hoe ging hij te werk? Sukel verwerkte 23.297 officiële examenbestanden uit 1999 tot 2025, verdeeld over VMBO, havo en vwo. Met Claude-4 Sonnet extraheerde hij vragen en attachments, waarna elk model dezelfde context kreeg. Automatische beoordeling gebeurde met GPT-4o Mini aan de hand van officiële correctiemodellen. In totaal leverde dit 26.738 beoordeelde antwoorden op in 12 vakdomeinen, van Nederlands en geschiedenis tot biologie, wiskunde en filosofie.

Topprestaties en kostenplaatje

De GPT-5-familie voert de ranglijst aan: GPT-5 en GPT-5 Mini behalen beide 79,5% nauwkeurigheid, maar Mini doet dit voor een fractie van de kosten. Waar GPT-5 in de testrun op 29,30 dollar uitkomt, kost GPT-5 Mini slechts 5,48 dollar bij identieke score. Daarmee is Mini de praktische keuze voor hoogwaardige Nederlandstalige verwerking.
DeepSeek-R1 (open source) volgt met 78,7%, sterk in economie, Arabisch en maatschappijleer, en biedt uitstekende prijs-prestatie. Grok-3 haalt 76,8%, maar tegen relatief hoge kosten. Gemini 2.5 Pro scoort 76,7% en blinkt uit in wiskunde en Engels. Opvallende tegenvaller is Claude Opus 4.1: hoge prijs, 73,1% nauwkeurigheid en daarmee zwakke waarde voor dit Nederlandstalige benchmarkprofiel.

Vakspecifieke patronen

De prestaties verschillen per vak. Filosofie blijkt het “makkelijkst” met scores boven 95% voor de toppers. Taalzware vakken zoals Nederlands literatuur en Arabisch zijn het lastigst. Hier speelt de behoefte aan langere, genuanceerde antwoorden en culturele context mee. Engels profiteert van trainingsbias in datasets, waardoor bijna alle modellen hoger scoren. Wiskunde laat logische, gestructureerde problemen zien waar onder meer Gemini uitblinkt.

Snelheid, outputlengte en betrouwbaarheid

De test toont duidelijke trade-offs. Snelle modellen leveren vaak lagere accuratesse. GPT-5 Mini vormt een uitzondering met hoge score en acceptabele responstijd. Outputlengte verschilt sterk: GPT-5 en DeepSeek-R1 zijn verbose en dus duurder in outputtokens, terwijl Gemini-modellen extreem beknopt antwoorden, wat kosten voorspelbaar houdt. In API-betrouwbaarheid was Google het meest stabiel. Open-source op Azure liet wisselende latency zien. Sommige providers blokkeerden educatieve content met te strikte safety filters, wat operationele frictie opleverde.

Praktische aanbevelingen

  • Kies per domein. Laat overall-scores niet leidend zijn. Voor wiskunde kan Gemini beter passen, voor filosofie of algemene taken GPT-5(Mini).
  • Open source overwegen bij privacy-kritische use-cases: DeepSeek-R1 biedt bijna state-of-the-art prestaties met datacontrole.
  • Total cost of ownership telt: kosten per token, responstijd, stabiliteit en migratiegemak.
  • Bouw vendor-agnostisch. De prestatie- en prijsdynamiek verandert snel.

Conclusie

Twee van de top-5 zijn open source. Dat ondermijnt het idee dat Europese organisaties afhankelijk zijn van Big Tech voor cutting-edge AI. De kloof tussen proprietary en open source sluit snel. Met identieke nauwkeurigheid die dollars 1,64 of 270,74 kan kosten, is de markt nog verre van stabiel. Voor Nederlandse toepassingen loont gericht testen en slim sourcen meer dan ooit.
Plaats reactie