Een belangrijke oorzaak achter de bias ligt in de data waarop AI’s zijn getraind. Datasets met een scheve verdeling leiden vaak tot slechte prestaties voor ondervertegenwoordigde groepen. De techniek van de MIT onderzoekers richt zich op het identificeren en verwijderen van specifieke datapunten die het meeste bijdragen aan fouten voor minderheidsgroepen. In tegenstelling tot conventionele methoden, waarbij vaak grote delen van de dataset worden verwijderd, beperkt de aanpak zich tot alleen de problematische voorbeelden. Dit zorgt ervoor dat het model betere prestaties levert voor ondervertegenwoordigde groepen, terwijl het tegelijkertijd zijn nauwkeurigheid behoudt.
Wat de innovatie uniek maakt, is dat het ook kan worden toegepast op datasets zonder labels voor subgroepen. Dit is cruciaal, aangezien veel datasets die in machine learning worden gebruikt geen duidelijke labels hebben. Door de datapunten te analyseren die de meeste invloed hebben op voorspellingen, kunnen ontwikkelaars verborgen bias opsporen en aanpakken. Bovendien helpt het ontwikkelaars om patronen te herkennen die anders over het hoofd zouden worden gezien
Succesvolle test
De voordelen van deze techniek zijn al zichtbaar in tests. Het MIT team wist bijvoorbeeld de prestaties voor minderheidsgroepen te verbeteren door aanzienlijk minder datapunten te verwijderen dan traditionele methoden. Daarnaast vereist deze aanpak geen wijzigingen in het model zelf, wat de bruikbaarheid vergroot voor ontwikkelaars in uiteenlopende sectoren. De tests tonen aan dat met dit soort tools AI modellen eerlijker, betrouwbaarder en ethischer kunnen worden gemaakt.