Bij de lancering van Nova Forge, een nieuwe dienst van
Amazon Web Services (AWS), distantieert
Amazon zich van de algemene race om de hoogste scores op AI-benchmarks. Volgens Rohit Prasad, verantwoordelijk voor AI bij Amazon, geven die openbare ranglijsten een vertekend beeld van hoe goed een model écht presteert, aldus
The Verge.
Waarom Amazon afstand neemt van benchmarks
Benchmarks voor AI-modellen bestaan uit gestandaardiseerde tests, en worden vaak gezien als maatstaf voor vooruitgang. Maar Prasad stelt dat de huidige benchmarks “noisy” zijn en niet de reële capaciteiten van modellen aantonen. “De enige manier om echt te benchmarken is als iedereen dezelfde trainingsdata gebruikt en alle testen worden gehouden voor evaluatie. Dat gebeurt niet.”
Het opmerkelijke daaraan is dat Amazon deze koers vaart op het moment dat concurrenten juist pronken met topnoteringen. Volgens de kritiek op benchmarks leidt de focus op scores tot dat modellen geoptimaliseerd worden om de test zelf te halen, in plaats van om goed te presteren in echte toepassingen.
De nieuwe gok: maatwerk met Nova Forge
In plaats van te mikken op generieke prestaties kiest Amazon voor maatwerk. Nova Forge geeft bedrijven de mogelijkheid om modellen te trainen met eigen data, op hun specifieke taken en domein. Dat geldt niet alleen voor “fine tuning”, maar ook voor integratie op eerdere fases.
Als voorbeeld gebruikt Amazon Reddit. Die site gebruikt Forge om een model te maken dat getraind is op decennia aan moderatiedata. Het doel is niet om benchmark-scores te domineren, maar om een model te krijgen dat “de Reddit-cultuur begrijpt” en snel en veilig kan modereren.
Specialisatie boven algemeen talent
De visie van Amazon benadrukt dat AI niet per se moet excelleren in algemene intelligentie, maar in bruikbaarheid voor concrete toepassingen. Waar public benchmarks vaak draaien om “IQ-achtige” prestaties, wil Amazon controle, aanpasbaarheid en relevantie voor de taak. Voor veel bedrijven is dat waardevoller dan indrukwekkende scores op tests.
Deze ommezwaai weerspiegelt een bredere kritiek op benchmark-obsessie. Recente analyses tonen aan dat veel gangbare AI-tests tekortschieten: ze missen solide methodologie, houden onvoldoende rekening met meetfouten of replicatie, en geven een vertekend beeld van veiligheid, betrouwbaarheid of maatschappelijke impact.
Wat dit betekent voor de toekomst van AI
Met deze koerswijziging probeert Amazon de maatstaf van succes te verleggen. Niet de positie op een publieke leaderboard telt, maar of AI-modellen functioneren in echte situaties: of ze geschikt zijn voor de taak waarvoor ze bedoeld zijn. Als Amazon gelijk heeft, verandert de tellende meetlat in de industrie: wins wordt niet langer gemeten in benchmarkpunten maar in concrete prestaties, aanpasbaarheid en controle.
Of dit model van “praktische AI boven benchmark-AI” zich doorzet zal afhangen van de adoptie. Als genoeg bedrijven kiezen voor maatwerk en resultaten leveren, kan de benchmark-obsessie verschuiven naar real-world relevantie. Maar dat vraagt om een fundamenteel ander begrip van wat “goed presteren” is in AI.