Medische AI blijkt nog niet zo goed als soms wordt aangenomen. Dat blijkt uit onderzoek van wetenschapper Zhiling Yan en haar collega’s LiveMedBench.
Ze introduceren deze nieuwe medische AI benchmark 2026 om twee fundamentele problemen aan te pakken: testset-contaminatie en verouderde medische kennis. De dataset bevat 2.756 echte klinische cases en laat zien dat zelfs de beste large language models slechts 39,2 procent scoren.
De introductie van
LiveMedBench raakt een gevoelige snaar in de wereld van medische kunstmatige intelligentie. Large language models, ook wel
LLM’s genoemd, belanden steeds vaker in zorgprocessen zoals triage, samenvattingen, differentiaaldiagnose en patiëntcommunicatie. In die context is een bijna goed antwoord niet voldoende. Een kleine fout kan klinische gevolgen hebben.
Wat is het probleem met bestaande medische benchmarks?
Veel bestaande benchmarks voor medische AI kampen met drie structurele zwaktes.
Ten eerste is er testset-contaminatie. Testvragen lekken naar trainingsdata, waardoor modellen de antwoorden feitelijk al hebben gezien. Scores ogen dan indrukwekkend, maar meten geen echte generalisatie.
Ten tweede speelt temporal misalignment. Medische kennis verandert snel. Nieuwe richtlijnen, medicatie en inzichten volgen elkaar in hoog tempo op. Toch blijven veel benchmarks statisch en verouderen ze.
Ten derde zijn de meetmethoden vaak zwak. Open antwoorden worden beoordeeld met automatische metrics zoals ROUGE, of via een zogenoemde LLM-as-a-Judge aanpak. Deze methoden meten tekstuele overlap of laten een ander model oordelen, maar garanderen geen klinische correctheid.
LiveMedBench wil precies deze drie pijnpunten aanpakken.
Hoe werkt LiveMedBench anders?
LiveMedBench rust op twee kernprincipes: continu geüpdatete cases en rubric-based evaluatie.
Het team verzamelt wekelijks echte klinische cases uit online medische communities. Die aanpak creëert een strikte tijdscheiding tussen training en test. Modellen kunnen moeilijker vooruit leren op toekomstige testvragen.
Deze dynamische opzet maakt de benchmark minder gevoelig voor veroudering. Nieuwe medische ontwikkelingen komen automatisch in de testset terecht.
In plaats van globale beoordeling breekt LiveMedBench artsantwoorden op in kleine, case-specifieke criteria. Elk antwoord wordt getoetst aan een gedetailleerde rubric met concrete eisen.
De eerste release bevat in totaal 16.702 unieke evaluatiecriteria. Volgens de paper sluit deze methode beter aan op menselijke experts dan een LLM-as-a-Judge aanpak. De focus verschuift van tekstuele gelijkenis naar klinische relevantie en veiligheid.
Wat laten de eerste cijfers zien?
De eerste versie van LiveMedBench bevat:
- 2.756 real-world klinische cases
- 38 medische specialismen
- meerdere talen
- 16.702 unieke evaluatiecriteria
Het team test vervolgens 38 verschillende large language models. De hoogste score blijft steken op 39,2 procent.
Daarnaast vertoont 84 procent van de modellen prestatieverlies op zogeheten post-cutoff cases. Dat zijn cases die dateren van na de vermoedelijke trainingsperiode van het model. Dit wijst op beperkte actualiteit en zwakke generalisatie.
Opvallend is waar het misgaat. Het grootste knelpunt blijkt niet het kennen van losse medische feiten. Het probleem zit in contextuele toepassing. Volgens de onderzoekers hangt 35 tot 48 procent van de fouten samen met het niet goed meenemen van patiënt-specifieke beperkingen.
Waarom medische besluitvorming moeilijker is dan kennis reproduceren
LiveMedBench onderstreept een cruciaal onderscheid: medische kennis is niet hetzelfde als medische besluitvorming.
Een model kan symptomen correct herkennen en richtlijnen reproduceren. Toch kan het advies onveilig zijn als het geen rekening houdt met:
- comorbiditeit en medicatie-interacties
- leeftijd, zwangerschap en allergieën
- beschikbare middelen in een zorgsetting
- contra-indicaties en rode vlaggen
In de praktijk vereist goede zorg contextbewustzijn, prioritering en risicomanagement. Dat zijn precies de gebieden waar veel modellen volgens LiveMedBench tekortschieten.
Wat betekent dit voor medische AI in de praktijk?
Voor zorginstellingen en AI-teams heeft LiveMedBench vooral waarde als meetlat voor implementatie. De benchmark helpt bij het testen of een model:
- relevante vervolgvragen stelt
- veilig omgaat met onzekerheid
- adviezen aanpast aan beperkingen
- consistent blijft naarmate kennis evolueert
Het nieuwswaardige element zit niet alleen in een nieuwe dataset. De bredere boodschap is dat bestaande medische AI-scores mogelijk te rooskleurig zijn. Vertrouwen op hoge benchmark-scores zonder inzicht in testset-contaminatie of actualiteit kan riskant zijn.
Voor beleidsmakers, productontwikkelaars en zorginstellingen opent dit een nieuwe discussie. Hoe meten we klinische veiligheid? En hoe zorgen we dat AI-systemen meebewegen met actuele medische kennis?
LiveMedBench geeft die discussie nu concrete cijfers en methodologie.