Onderzoekers hebben deze week een nieuwe
AI Act benchmark dataset gepubliceerd die het eenvoudiger moet maken om AI-systemen automatisch te controleren op naleving van Europese regelgeving.
De dataset, beschreven in een
recente studie, richt zich vooral op taalmodellen en Retrieval Augmented Generation-systemen, vaak afgekort als
RAG.
De publicatie komt op een moment waarop de Europese AI Act steeds dichter bij volledige implementatie komt. Bedrijven, overheden en ontwikkelaars zoeken naar manieren om hun systemen aantoonbaar compliant te maken met de nieuwe regels.
Tot nu toe bestond daar nauwelijks gestandaardiseerde tooling voor.
De nieuwe benchmark probeert dat probleem op te lossen door een open en reproduceerbare dataset te introduceren die AI-systemen kan testen op hun interpretatie van de AI Act.
Volgens de onderzoekers maakt dit het mogelijk om compliance-tests gedeeltelijk te automatiseren.
Waarom de AI Act benchmark belangrijk is voor AI-ontwikkeling
De Europese AI Act vormt het eerste grootschalige regelgevingskader ter wereld voor kunstmatige intelligentie. Het systeem deelt AI-toepassingen in verschillende risiconiveaus in, zoals:
- verboden AI-toepassingen
- hoog risico
- beperkt risico
- minimaal risico
Voor ontwikkelaars is het vaak lastig om te bepalen in welke categorie een AI-toepassing valt. Veel bepalingen in de wet zijn abstract geformuleerd en vereisen interpretatie.
Daar ontstaat een probleem.
Handmatige beoordeling van AI-systemen kost veel tijd en leidt vaak tot inconsistenties.
De nieuwe benchmarkdataset probeert dit gat te vullen.
De dataset bevat meerdere soorten taken waarmee AI-modellen kunnen worden getest, waaronder:
- classificatie van AI-risiconiveaus
- ophalen van relevante artikelen uit de AI Act
- genereren van wettelijke verplichtingen
- beantwoorden van vragen over regelgeving
Door deze taken te combineren ontstaat een evaluatieomgeving waarmee onderzoekers kunnen meten hoe goed AI-systemen Europese regelgeving begrijpen.
Hoe de dataset werkt met RAG-systemen
Een belangrijk onderdeel van het
onderzoek richt zich op zogenaamde RAG-systemen. RAG staat voor Retrieval Augmented Generation.
Dit type AI combineert twee technieken:
- informatie ophalen uit documenten
- tekst genereren met een taalmodel
In plaats van alleen te vertrouwen op het geheugen van een model kan een RAG-systeem actuele documenten raadplegen. Bijvoorbeeld wetgeving of beleidsdocumenten.
Voor regelgeving zoals de AI Act is dat cruciaal.
De dataset bevat daarom scenario’s waarin AI-systemen relevante wetsartikelen moeten ophalen voordat ze een antwoord formuleren.
De onderzoekers gebruikten grote taalmodellen om realistische scenario’s te genereren. Daarbij combineerden ze juridische kennis met AI-gegenereerde voorbeelden.
Het resultaat is een dataset die machine-leesbaar is en eenvoudig kan worden geïntegreerd in evaluatiepijplijnen.
Resultaten tonen hoge nauwkeurigheid bij AI-evaluatie
De onderzoekers testten de dataset met een RAG-gebaseerde AI-oplossing. De resultaten laten zien dat het systeem relatief goed presteert bij het herkennen van bepaalde categorieën.
Voor verboden AI-toepassingen behaalde het systeem een F1-score van 0,87. Voor hoog-risico scenario’s kwam de score uit op 0,85.
Een F1-score combineert precisie en recall en wordt vaak gebruikt om AI-prestaties te meten.
Deze scores suggereren dat de dataset geschikt is om AI-systemen systematisch te testen op juridische interpretatie.
Volgens de onderzoekers helpt de methode ook bij een ander probleem binnen de AI Act.
Sommige risiconiveaus in de wet zijn namelijk niet volledig scherp gedefinieerd. Vooral de grens tussen minimale en beperkte risico’s blijft onderwerp van discussie.
De dataset probeert die grijze zones te modelleren via concrete scenario’s.