OpenAI lanceert HealthBench: Nieuwe stap voor AI in de gezondheidszorg

donderdag, 15 mei 2025 om 9:20

OpenAI heeft een nieuwe stap gezet in de richting van veilige en betrouwbare AI in de gezondheidszorg. Het bedrijf heeft namelijk HealthBench gelanceerd, een groot dataset dat speciaal is ontwikkeld om AI modellen te testen op hun vermogen om medische vragen accuraat te beantwoorden. Het beschikbaar maken van deze data kan een belangrijke rol spelen voor verdere innovatie in de gezondheidssector.

OpenAI test AI-modellen met 5.000 medische gesprekken

De dataset van OpenAI bevat maar liefst 5.000 realistische gezondheids conversaties, bijvoorbeeld tussen arts en patiënt, samengesteld door 262 artsen uit 60 verschillende landen. Deze medische experts hebben hun kennis en ervaring ingezet om nauwkeurige beoordelingscriteria te ontwikkelen. Het doel? Eerlijke en objectieve vergelijkingen mogelijk maken tussen verschillende AI modellen en deze trainen om bijvoorbeeld diagnoses te kunnen stellen op basis van de input van een patiënt.

Naast de standaard conversaties bevat HealthBench ook 1.000 extra uitdagende voorbeelden waarin AI modellen eerder moeite hadden om correcte antwoorden te geven. Deze complexe casussen leggen de zwakke punten van AI bloot en helpen ontwikkelaars om de modellen verder te verbeteren doordat ze beter weten waar de valkuilen liggen.

Kritiek op AI in gezondheidszorg

Hoewel het beschikbaar maken van deze data een goede stap is in het verbeteren van AI modellen in de gezondheidszorg, blijft er ook kritiek. Zo wijzen experts op gevoeligheden in OpenAI’s model, o3. Zo beoordeelt OpenAI zijn eigen modellen, wat kan leiden tot verschillende vooroordelen. Vooral als AI tools gebruikt worden in kritieke situaties, zoals in de gezondheidszorg, kan dat grote risico’s met zich meebrengen.

Desondanks wordt verwacht dat de lancering van HealthBench een stap in de goede richting is voor de gezondheidszorg. Door de data publiekelijk beschikbaar te maken kunnen meerdere AI modellen getraind worden op deze data en kunnen vooroordelen van verschillende Large Language Models (LLMs) met elkaar vergeleken worden.