Een nieuwe wetenschappelijke benchmark laat zien dat de meest geavanceerde AI-agenten nog grote moeite hebben met complete zorgprocessen. Zelfs Codex GPT-5.5, de best presterende AI in de test, rondt slechts ongeveer 42 procent van de medische taken succesvol af. Daarmee onderstrepen de onderzoekers dat AI weliswaar steeds beter wordt, maar nog ver verwijderd is van volledig autonome inzet in de
gezondheidszorg.
De benchmark, HealthAgentBench, werd op 30 juni gepubliceerd op
arXiv door onderzoekers van onder meer
Microsoft Research en diverse internationale onderzoeksinstellingen. In plaats van AI te testen met losse medische vragen of meerkeuze-examens, richt de benchmark zich op realistische klinische workflows waarin AI-agenten zelfstandig meerdere stappen moeten uitvoeren.
Dat maakt de resultaten veel relevanter voor de praktijk.
Waarom deze benchmark anders is
De meeste AI-tests meten hoe goed een taalmodel antwoord geeft op afzonderlijke vragen.
HealthAgentBench kiest juist voor een compleet andere aanpak.
De benchmark bestaat uit 54 realistische zorgtaken, verdeeld over zeven verschillende categorieën. AI-agenten moeten werken met echte zorgomgevingen, uiteenlopende databronnen en complexe software. Daarbij krijgen ze slechts beperkte instructies en moeten ze zelfstandig bepalen welke stappen nodig zijn om een taak succesvol af te ronden.
De onderzoekers testen onder meer:
- elektronische patiëntendossiers (EPD's)
- medische beeldvorming
- klinische planning
- wetenschappelijk onderzoek
- data-analyse
- diagnostische workflows
- complexe besluitvorming over meerdere stappen
Het gaat dus niet om een chatbot die een vraag beantwoordt, maar om een AI-agent die een volledige medische workflow probeert uit te voeren.
Zelfs GPT-5.5 blijft steken op ongeveer 42 procent
Juist daar blijken de huidige AI-systemen nog grote beperkingen te hebben.
Volgens de onderzoekers behaalt Codex GPT-5.5 de hoogste totaalscore van alle onderzochte modellen, maar voltooit het slechts ongeveer 42 procent van de volledige taken succesvol.
Andere frontier-modellen presteren nog lager.
Dat betekent niet dat AI in 58 procent van de gevallen medische fouten maakt. De benchmark beoordeelt alleen een taak als geslaagd wanneer de volledige workflow correct wordt afgerond. Zodra een AI-agent ergens in het proces vastloopt of een cruciale stap overslaat, telt de opdracht als mislukt.
Juist daardoor ontstaat een realistischer beeld van wat AI vandaag daadwerkelijk zelfstandig kan.
Medische beeldvorming blijft een groot struikelblok
De onderzoekers zien duidelijke verschillen tussen verschillende soorten medische werkzaamheden.
AI-agenten blijken relatief goed in het automatisch opzetten van onderzoekspijplijnen voor gegevens uit elektronische patiëntendossiers.
Veel moeilijker wordt het wanneer meerdere vaardigheden tegelijk nodig zijn.
Vooral medische beeldvorming blijkt een hardnekkig probleem. AI moet daarbij niet alleen beelden interpreteren, maar ook informatie combineren, vervolgacties plannen en beslissingen nemen binnen een complexe klinische context.
Ook taken waarbij grote hoeveelheden informatie moeten worden doorzocht of waarbij meerdere redeneerstappen achter elkaar nodig zijn, blijven voor alle huidige modellen uitdagend.
Waarom dit belangrijk is voor de AI-sector
De resultaten komen op een opvallend moment.
Steeds meer technologiebedrijven presenteren AI-agenten als de volgende grote stap in kunstmatige intelligentie. In plaats van alleen tekst te genereren, moeten deze systemen zelfstandig complete processen uitvoeren, software bedienen en beslissingen nemen.
Juist de zorg geldt daarbij als een van de meest veelbelovende toepassingsgebieden.
Deze benchmark laat echter zien dat de stap van een slimme chatbot naar een betrouwbare digitale collega aanzienlijk groter is dan vaak wordt gesuggereerd.
Een AI-agent moet niet alleen medische kennis bezitten, maar ook omgaan met verschillende databronnen, softwareomgevingen, uitzonderingssituaties en complexe besluitvorming. Dat blijkt voorlopig een veel moeilijkere uitdaging.
Ook buiten de zorg is de boodschap relevant
Hoewel HealthAgentBench specifiek voor de gezondheidszorg is ontwikkeld, reiken de conclusies verder dan ziekenhuizen alleen.
Vrijwel iedere sector experimenteert momenteel met AI-agenten die zelfstandig administratieve processen, analyses of bedrijfsworkflows moeten uitvoeren.
De benchmark laat zien dat juist die lange ketens van handelingen nog een zwakke plek vormen. Een model kan uitstekend afzonderlijke opdrachten uitvoeren, maar raakt sneller de draad kwijt zodra tientallen beslissingen achter elkaar genomen moeten worden.
Dat is een belangrijk inzicht voor bedrijven die verwachten dat AI-agenten op korte termijn volledige bedrijfsprocessen kunnen overnemen.
Een realistischer meetlat voor de volgende generatie AI
Volgens de onderzoekers is HealthAgentBench bedoeld als een nieuwe standaard om de vooruitgang van AI-agenten te meten.
Waar bestaande benchmarks steeds vaker verzadigd raken doordat moderne modellen vrijwel perfecte scores behalen, legt deze nieuwe test juist bloot waar de grootste uitdagingen nog liggen.
Dat maakt de benchmark waardevol voor ontwikkelaars, zorginstellingen en beleidsmakers die willen beoordelen wanneer AI werkelijk klaar is voor grootschalige inzet in kritieke omgevingen.
De uitkomst is duidelijk: ondanks de snelle vooruitgang beschikken de beste AI-agenten van dit moment nog niet over de betrouwbaarheid die nodig is om zelfstandig complexe medische workflows uit te voeren. Er is nog aanzienlijke ruimte voor verbetering voordat AI een volwaardige digitale collega in de zorg kan worden.