Computerwetenschapper onthult FeatureBench en prikt door de hype: “AI faalt op echte features”

donderdag, 12 februari 2026 om 10:00

De Chinese computerwetenschapper Qixing Zhou en zijn academische collega's hebben FeatureBench onthuld. Dat is een nieuwe benchmark die “agentic coding” test op end-to-end feature development. De makers stellen dat bestaande benchmarks te vaak focussen op bugfixes binnen één pull request. FeatureBench wil juist meten of een AI-agent een volledige feature kan opleveren die ook echt runt en tests haalt.

Waarom deze benchmark opvalt

FeatureBench claimt een executie-gebaseerde evaluatie. Dat betekent dat de uitkomst niet alleen een tekstscore is, maar dat de omgeving daadwerkelijk draait en testcases controleert of de feature werkt.

De benchmark start met:

200 uitdagende taken
3.825 uitvoerbare omgevingen
afkomstig uit 24 open-source repositories

Dat is een duidelijke poging om dichter bij echte software engineering te komen. Veel teams merken namelijk dat “een snippet genereren” iets anders is dan “een feature shippen”.

Wat is er schokkend?

De paper noemt een opvallend resultaat: een state-of-the-art agentic model dat op SWE-bench 74,4 procent haalt, scoort op FeatureBench slechts 11,0 procent “resolved”.

Feature development is veel breder dan bugfixing.
Agenten missen vaak vaardigheden buiten pure codegeneratie, zoals repository navigatie, dependency begrip en regressiepreventie.

Hoe FeatureBench taken maakt

De makers beschrijven een test-driven methode die taken automatisch afleidt uit repositories. Ze “tracen” vanaf unit tests over een dependency graph om feature-level coding tasks te isoleren. Daarbij checken ze ook dat andere features blijven werken.

Die aanpak is interessant voor de lange termijn. Benchmarks verouderen snel, zeker als trainingsdata lekt. FeatureBench wil makkelijker schaalbaar en updatabel zijn, zodat de dekking kan groeien en data leakage minder kans krijgt.