Amazon onthult: kleine AI-modellen verslaan grote modellen bij tool calling voor bedrijven

woensdag, 11 maart 2026 om 21:00

bijgewerkt om donderdag, 12 maart 2026 om 8:38

Kleine AI-modellen verslaan grote modellen bij tool calling voor bedrijven

De opvallendste les uit de studie is niet dat grote taalmodellen ineens “klaar” zijn. De echte les is dat een kleine specialist soms beter presteert dan een grote generalist als de taak smal, herhaalbaar en sterk gestructureerd is.

In dit geval gaat het om tool calling: het moment waarop een model niet alleen tekst produceert, maar ook API’s, dus softwarekoppelingen tussen systemen, kiest en de juiste parameters invult om een actie uit te voeren. ToolBench, de benchmark waarop dit resultaat is gemeten, komt voort uit ToolLLM en gebruikt 16.464 echte API’s uit 49 categorieën om toolgebruik te testen.

De AWS-onderzoekers Polaris Jhandi, Owais Kazi, Shreyas Subramanian en Neel Sendas bouwden daarvoor geen nieuw megamodel. Zij finetuneden Meta’s OPT-350M één epoch met Hugging Face TRL op 187.542 getransformeerde ToolBench-voorbeelden en draaiden die training op Amazon SageMaker.

Dat is belangrijk, omdat het resultaat dus niet voortkomt uit nóg meer schaal, maar uit gerichte afstemming op één taak: correct tools kiezen, correcte argumenten meegeven en fouten netjes afhandelen.

Wat dit betekent voor Nederlandse bedrijven

Voor Nederlandse bedrijven raakt dit een actuele vraag. Het Centraal Bureau voor de Statistiek meldde eind 2025 dat 17 procent van de bedrijven met twee of meer werkzame personen AI gebruikt, tegen 8 procent in 2023.

Bij bedrijven met 50 tot 250 werknemers steeg dat aandeel zelfs van 20 naar 45 procent. Van de bedrijven die AI inzetten, gebruikt 35 procent dat voor marketing of verkoop, 32 procent voor bedrijfsadministratie of bestuurstaken en 25 procent voor R&D of innovatie. Juist in die processen duiken steeds vaker AI-agents op die software moeten aanroepen in plaats van alleen tekst te schrijven.

Daar zit ook de Nederlandse invalshoek waar veel CIO’s, CTO’s en IT-inkopers nu mee worstelen. Wie een agent bouwt voor agenda’s, formulieren, CRM-systemen, interne zoekmachines of goedkeuringsflows, heeft niet per se het grootste model nodig.

De paper zet de hoge kosten, privacyrisico’s, latency en afhankelijkheid van gesloten grote modellen expliciet tegenover specialistische alternatieven. Dat sluit goed aan op het kabinetsbeleid, dat inzet op verantwoorde generatieve AI én op een AI-fabriek in Groningen om de Nederlandse digitale onafhankelijkheid te versterken.

Als afleiding uit die twee lijnen is de boodschap helder: kleiner en gerichter kan voor een deel van de zakelijke AI-stack een verstandiger keuze zijn dan blind opschalen.

Waarom dit nieuws groter is dan één benchmark

De paper ondergraaft een hardnekkige aanname in de markt, namelijk dat “meer parameters” automatisch “meer waarde” betekent. Volgens de auteurs is tool calling juist een taak waarin een model baat heeft bij sterke taakuitlijning.

Zij noemen 350 miljoen parameters zelfs een mogelijke sweet spot voor dit soort werk, omdat het model genoeg capaciteit heeft voor API-patronen en foutafhandeling, zonder de extra complexiteit die grotere generalisten volgens hen minder consistent kan maken.

Voor bedrijven is dat een zakelijke les, geen academische voetnoot. AI-budgetten verschuiven daarmee van modelgrootte naar architectuurkeuze: welk model doet welke stap in het proces.

Voor Nederland is dat extra relevant omdat de infrastructuurvraag hier steeds luider wordt. De Rijksoverheid noemt AI een strategische technologie voor economische kracht en digitale onafhankelijkheid, en ziet de AI-fabriek in Groningen als plek waar ondernemers, onderzoekers en overheden kunnen experimenteren met AI-toepassingen en rekenkracht.

In zo’n context ligt een mix van modellen voor de hand: een groter model voor complexe gesprekken en beleidsafwegingen, en een kleiner specialistisch model voor repetitieve tooltaken. Dat is nog geen bewezen eindmodel voor elke organisatie, maar het is wel een logische route voor bedrijven die prestaties, kosten en controle tegelijk willen verbeteren.

De benchmark heeft duidelijke grenzen

Toch verdient dit verhaal meer nuance dan veel jubelposts op sociale media nu suggereren. Dit is een workshoppaper, geen definitief bewijs dat een 350M-model in elke productieomgeving beter is dan moderne frontier-modellen.

De auteurs schrijven zelf dat hun model specifiek voor ToolBench is geoptimaliseerd en mogelijk minder goed generaliseert naar andere tool-ecosystemen, ambigue gebruikersvragen of complexere omgevingen met veel onderlinge afhankelijkheden tussen tools. Ze waarschuwen ook dat zo’n specialistisch model vaker opnieuw getraind moet worden wanneer API’s veranderen.

Bovendien laten andere benchmarks zien dat het bredere beeld ingewikkelder ligt. StableToolBench concludeerde al in 2024 dat nieuwere GPT-modellen beter gingen presteren naarmate function calling verbeterde, wat aangeeft dat toolgebruik sterk afhangt van modelversie en evaluatie-opzet.

Tau-bench liet daarna zien dat zelfs state-of-the-art function-calling agents in realistischer, meerregelige omgevingen nog steeds minder dan de helft van de taken halen. ToolScan voegde daar een ander ongemakkelijk punt aan toe: prominente modellen blijven terugkerende fouten maken bij toolgebruik. Wie uit de AWS-paper dus de conclusie trekt dat “klein altijd groot verslaat”, leest te veel in één benchmarkresultaat.

Waarom is dit belangrijk?

Dit nieuws is vooral belangrijk omdat het de kooplogica rond AI-agents verandert. Nederlandse bedrijven hoeven niet automatisch de grootste modellen te kopen als hun use case vooral draait om het betrouwbaar aanroepen van software.

De slimste vraag wordt nu niet meer: welk model is het grootst? De slimste vraag wordt: welk model is het best afgestemd op deze stap in mijn workflow? Voor ondernemers en IT-beslissers is dat goed nieuws, omdat het de deur opent naar goedkopere, beter controleerbare en mogelijk lokaal beter te beheren AI-oplossingen. Maar de praktische regel blijft simpel: test niet op marketingclaims, test op je eigen processen, je eigen foutafhandeling en je eigen governance-eisen.

Robin HeesterOprichter

Robin Heester is mede-oprichter van AI Wereld en heeft door de jaren heen meerdere websites, nieuwsbrieven en magazines opgericht. Hij schrijft over technologie, innovatie en de maatschappelijke impact van nieuwe digitale ontwikkelingen.