De Chinese computerwetenschapper Qixing Zhou en zijn academische collega's hebben FeatureBench
onthuld. Dat is een nieuwe benchmark die “agentic coding” test op end-to-end feature development. De makers stellen dat bestaande benchmarks te vaak focussen op bugfixes binnen één pull request. FeatureBench wil juist meten of een AI-agent een volledige feature kan opleveren die ook echt runt en tests haalt.
Waarom deze benchmark opvalt
FeatureBench claimt een executie-gebaseerde evaluatie. Dat betekent dat de uitkomst niet alleen een tekstscore is, maar dat de omgeving daadwerkelijk draait en testcases controleert of de feature werkt.
De benchmark start met:
- 200 uitdagende taken
- 3.825 uitvoerbare omgevingen
- afkomstig uit 24 open-source repositories
Dat is een duidelijke poging om dichter bij echte software engineering te komen. Veel teams merken namelijk dat “een snippet genereren” iets anders is dan “een feature shippen”.
Wat is er schokkend?
De paper noemt een opvallend resultaat: een state-of-the-art
agentic model dat op SWE-bench 74,4 procent haalt, scoort op FeatureBench slechts 11,0 procent “resolved”.
- Feature development is veel breder dan bugfixing.
- Agenten missen vaak vaardigheden buiten pure codegeneratie, zoals repository navigatie, dependency begrip en regressiepreventie.
Hoe FeatureBench taken maakt
De makers beschrijven een test-driven methode die taken automatisch afleidt uit repositories. Ze “tracen” vanaf unit tests over een dependency graph om feature-level coding tasks te isoleren. Daarbij checken ze ook dat andere features blijven werken.
Die aanpak is interessant voor de lange termijn. Benchmarks verouderen snel, zeker als trainingsdata lekt. FeatureBench wil makkelijker schaalbaar en updatabel zijn, zodat de dekking kan groeien en data leakage minder kans krijgt.
Wat dit betekent voor bedrijven die agents inzetten
Als jouw team “vibe coding” of agentic workflows test, dan is de belangrijkste les simpel: je moet je KPI’s aanpassen.
Veel organisaties meten succes nog met:
- aantal gegenereerde regels code
- snelheid van prototype oplevering
- aantal tickets dat “aangeraakt” is
FeatureBench wijst erop dat de echte bottleneck vaak zit in:
- correctheid over meerdere commits en PR’s
- integratie met bestaande code
- testdiscipline en regressie
- behoud van andere functionaliteit
Daarom past het beter om agents te evalueren met:
- end-to-end tests die je al in CI hebt
- “time to green CI”
- aantal regressies na merge
- maintainability en reviewlast