AI voert doktersgesprekken en verandert medische evaluatie

maandag, 30 maart 2026 om 8:20

AI voert realistische doktersgesprekken en verandert medische evaluatie

Onderzoekers van Cornell University presenteerden op 26 maart 2026 een nieuwe medische AI-benchmark die de manier waarop kunstmatige intelligentie in de zorg wordt getest fundamenteel verandert. Het systeem, Doctorina MedBench, simuleert volledige gesprekken tussen arts en patiënt en biedt daarmee een realistischer beeld van klinische vaardigheden dan traditionele toetsen.

De studie, gepubliceerd via arXiv, introduceert een evaluatiemethode waarbij AI-systemen niet langer alleen meerkeuzevragen beantwoorden. In plaats daarvan moeten ze actief medische gesprekken voeren, diagnoses stellen en behandeladviezen formuleren.

Deze aanpak sluit direct aan op een groeiende behoefte binnen de Nederlandse zorgsector, waar personeelstekorten en toenemende werkdruk innovatie versnellen.

Van multiplechoice naar echte patiëntinteractie

Traditionele medische AI-tests meten vooral theoretische kennis. Doctorina MedBench gaat een stap verder. Het model bootst realistische klinische situaties na waarin een AI zich gedraagt als een arts.

De AI moet onder andere:

Medische voorgeschiedenis verzamelen
Laboratoriumresultaten analyseren
Diagnoses overwegen en prioriteren
Persoonlijke behandelplannen voorstellen

Deze interactieve aanpak maakt zichtbaar hoe goed een AI daadwerkelijk kan redeneren in complexe situaties.

Volgens de onderzoekers is dit cruciaal. In de praktijk draait geneeskunde namelijk niet om losse antwoorden, maar om samenhangende besluitvorming over meerdere stappen.

Nieuwe meetlat legt zwakke plekken bloot

De prestaties van AI-systemen worden beoordeeld via de zogeheten D.O.T.S.-score. Deze bestaat uit vier onderdelen:

Diagnose
Observaties en onderzoeken
Behandeling
Aantal stappen

Deze combinatie meet niet alleen juistheid, maar ook efficiëntie. Dat is belangrijk, omdat een goede arts niet alleen correcte beslissingen neemt, maar dit ook snel en logisch doet.

De onderzoekers ontdekten dat veel AI-modellen moeite hebben met:

Het structureren van gesprekken
Het stellen van de juiste vervolgvragen
Het combineren van informatie uit verschillende bronnen

Dat zijn precies de vaardigheden die in echte zorgsituaties essentieel zijn.

Meer dan 1.000 medische cases

Doctorina MedBench bevat inmiddels meer dan 1.000 klinische scenario’s en ruim 750 verschillende diagnoses. Het systeem test AI’s op verschillende niveaus, inclusief zogeheten ‘trap cases’. Dit zijn scenario’s die speciaal zijn ontworpen om fouten of onveilig gedrag te detecteren.

Daarnaast bevat het framework:

Continue kwaliteitscontrole tijdens gebruik
Automatische regressietests
Willekeurige scenarioselectie per categorie

Hiermee kunnen ontwikkelaars zien of een AI-systeem in de loop van de tijd slechter gaat presteren, een bekend probleem binnen machine learning.

Impact op Nederlandse zorg en opleiding

De implicaties voor Nederland zijn aanzienlijk. De zorgsector kampt al jaren met personeelstekorten en stijgende kosten. Tegelijk groeit de interesse in AI-ondersteuning voor huisartsen en specialisten.

Deze nieuwe benchmark kan helpen bij:

Het beoordelen van medische AI-tools voordat ze worden ingezet
Het trainen van artsen in klinisch redeneren
Het vergelijken van menselijke en AI-prestaties

Voor Nederlandse ziekenhuizen en opleidingsinstituten biedt dit een kans om AI veiliger en effectiever te integreren.

AI verschuift van hulpmiddel naar autonome zorgpartner

De studie bevestigt een bredere trend: AI ontwikkelt zich van passieve tool naar actieve deelnemer in besluitvorming. Waar eerdere systemen vooral ondersteuning boden, nemen nieuwe modellen steeds vaker initiatief in gesprekken en diagnoses.

Dat roept ook vragen op over verantwoordelijkheid, regelgeving en vertrouwen.

Als een AI een fout maakt in een diagnose, wie is dan aansprakelijk? En hoe transparant moet zo’n systeem zijn richting patiënten?

Realistische simulatie als nieuwe standaard

De onderzoekers concluderen dat simulaties van klinische dialogen een veel realistischer beeld geven van medische competentie dan traditionele examens.

Dat maakt Doctorina MedBench niet alleen relevant voor AI-ontwikkeling, maar ook voor medische opleidingen en kwaliteitscontrole.

De verwachting is dat dit type benchmark snel de nieuwe standaard wordt binnen medische AI-evaluatie.