Onderzoekers publiceerden op 11 maart 2026 een nieuw evaluatiekader voor AI-agents dat een opvallende conclusie trekt. Het succes van agent-systemen hangt niet alleen af van het gekozen taalmodel, maar net zo sterk van het systeemontwerp en het gebruikte framework.
Het
onderzoek, MASEval, analyseert complete AI-agent systemen in plaats van alleen individuele modellen. Volgens de auteurs kan de keuze voor architectuur, orkestratie en foutafhandeling net zoveel invloed hebben op prestaties als de keuze van het model zelf.
Dat inzicht verandert mogelijk hoe bedrijven, consultants en CTO’s AI-agents bouwen en evalueren.
Nieuwe benchmark voor AI-agent systemen
Veel bestaande benchmarks vergelijken alleen de prestaties van een model. In de praktijk draaien AI-agents echter nooit losstaand. Ze functioneren binnen een software-ecosysteem met tools, workflows en meerdere agents.
MASEval probeert precies dat probleem te adresseren.
Het framework evalueert:
- het gebruikte AI-model
- het agent-framework
- de systeemarchitectuur
- de coördinatie tussen agents
- foutafhandeling en orkestratie
De onderzoekers noemen dit een verschuiving van model-centric benchmarking naar system-level evaluation.
Het framework is daarnaast framework-agnostisch, waardoor verschillende agent-platformen direct met elkaar kunnen worden vergeleken.
Voor organisaties die agent-architecturen bouwen betekent dit dat benchmarks dichter bij de realiteit van productie-systemen komen.
Frameworkkeuze blijkt even belangrijk als modelkeuze
Een van de opvallendste conclusies uit het
onderzoek: de keuze van het agent-framework kan net zoveel verschil maken als het gekozen model.
De onderzoekers testten meerdere combinaties van:
- drie AI-modellen
- drie agent-frameworks
- drie benchmarks
Uit die experimenten blijkt dat prestaties sterk variëren afhankelijk van hoe het systeem is opgebouwd.
Dat betekent dat een sterk model niet automatisch leidt tot een goed werkend agent-systeem.
Voor bedrijven heeft dat belangrijke gevolgen:
- Het wisselen van framework kan prestaties verbeteren zonder modelupgrade
- Architectuurkeuzes bepalen betrouwbaarheid en fouttolerantie
- Orkestratie tussen agents beïnvloedt taakresultaten
Met andere woorden: AI-engineering wordt belangrijker dan modelselectie alleen.
Groei van agent-ecosystemen
De publicatie verschijnt op een moment waarop het ecosysteem rond AI-agents snel groeit.
In de afgelopen twee jaar verschenen tientallen frameworks, waaronder:
- LangGraph
- AutoGen
- CAMEL
- LlamaIndex
- Smolagents
Deze tools maken het mogelijk om meerdere AI-agents samen te laten werken aan complexe taken zoals onderzoek, softwareontwikkeling of bedrijfsprocessen.
Maar precies die complexiteit maakt evaluatie lastig.
Traditionele benchmarks meten bijvoorbeeld alleen tekstkwaliteit of redeneercapaciteit, terwijl agent-systemen vaak bestaan uit:
- meerdere agents
- toolgebruik
- geheugen
- planningslogica
- API-integraties
Volgens de onderzoekers maakt MASEval het mogelijk om deze volledige stack systematisch te testen.
Nieuwe realiteit voor enterprise-AI
Voor bedrijven die AI-agents inzetten, verschuift de focus daardoor van modelkeuze naar systeemarchitectuur.
Dat sluit aan bij een bredere trend in enterprise-AI:
Steeds meer organisaties bouwen agent-gebaseerde workflows waarin meerdere modellen samenwerken met databases, tools en interne systemen.
In zo’n omgeving bepalen factoren zoals:
- workflow-logica
- foutafhandeling
- contextbeheer
- samenwerking tussen agents
of een systeem daadwerkelijk betrouwbaar werkt.
MASEval geeft ontwikkelaars een instrument om die complexiteit te meten.
Waarom dit belangrijk is voor AI-bouwers
De kernboodschap van het onderzoek is eenvoudig maar fundamenteel:
De prestaties van AI-agents worden niet alleen bepaald door het model, maar door het hele systeem.
Voor ontwikkelaars en AI-teams betekent dat:
- AI-architectuur wordt een kerncompetentie
- benchmarks moeten systemen testen in plaats van losse modellen
- frameworkkeuze kan strategisch voordeel opleveren
In de komende jaren kan dit leiden tot een nieuwe categorie tooling: system benchmarks voor agent-architecturen.
Net zoals cloudarchitectuur ooit een eigen discipline werd, lijkt nu hetzelfde te gebeuren met agent engineering.