Wetenschappers hebben de betrouwbaarheid onderzocht van honderden tests die worden gebruikt om de veiligheid, effectiviteit en betrouwbaarheid van
AI te beoordelen. Volgens resultaten die onder meer door AI Security Institute en wetenschappers van universiteiten als de universiteit van Oxford, Stanford University en University of California, Berkeley tot stand kwamen, bevatten meer dan 440 verschillende veiligheids- en prestatietests ernstige tekortkomingen. Het rapport werd
gepubliceerd door Tweakers.
Wat valt op aan de tests?
Bij de analyse kwam naar voren dat vrijwel al deze tests op zijn minst één significant probleem hadden. Voorbeelden hiervan zijn vaagheid in de definitie van wat er precies getest wordt. Termen zoals “onschadelijk” of “ethisch verantwoord” werden verschillend ingevuld, en er is een gebrek aan statistische onderbouwing. Zo bleek slechts 16% van de tests te beschikken over materiale validatiemethoden zoals onzekerheidsschatting of statistische betrouwbaarheid.
Een andere gevonden kink in de kabel is dat sommige testscenario’s weinig realistische of weinig relevante omstandigheden modeleren. Als de meetomgeving geen reële praktijk weerspiegelt, is de uitslag van een test weinigzeggend. Experts waarschuwen dat zulke tests bedrijven of toezichthouders een vals gevoel van zekerheid kunnen geven.
Waarom is dit belangrijk?
Veiligheidstests vormen vaak een belangrijk onderdeel van de publieke claims rond
AI-modellen: bedrijven tonen dat hun modellen ‘getest’ zijn, toezichthouders accepteren dat sfeerbeeld en investeerders baseren beslissingen erop. Wanneer die tests echter niet deugen, betekent dit dat de beloften rond AI-veiligheid en prestaties mogelijk gebaseerd zijn op wankele grond. In een tijd waarin AI-modellen steeds krachtiger worden en op grotere schaal worden uitgedraaid, is het risico dat een onvoldoende geteste technologie in de praktijk fouten maakt groter.
Daarnaast staat vast dat veel landen nog geen uitgebreide AI-regelgeving hebben, waardoor tests en benchmarks een belangrijke rol spelen als virtuele controlemechanismen. Als die controleren zelf gebrekkig zijn, ontbreekt een cruciaal veiligheidsnet.
Gevolgen voor bedrijven en gebruikers
Voor bedrijven die AI-systemen ontwikkelen, betekent dit dat het onvoldoende is om simpelweg te zeggen dat een model ‘geslaagd’ is voor een standaardtest. De kwaliteit en relevantie van de test moeten worden herbeoordeeld. Voor gebruikers en organisaties die AI-producten inzetten geldt dat zij zich bewust moeten zijn van de grenswaarden van deze tests: een goed geteste technologie is geen garantie voor veiligheid of betrouwbaarheid in alle omstandigheden.
Wat moet er gebeuren?
Volgens de onderzoekers is er een duidelijke noodzaak voor een gemeenschappelijke set van standaarden voor testontwerp, transparantie over wat een test meet en welke aannames eraan ten grondslag liggen, en onafhankelijk toezicht op de betrouwbaarheid van AI-evaluatie. De suggestie is dat zonder die verbeteringen het vertrouwen in AI-veiligheidsmaatregelen ondermijnd wordt.