AI Act zet druk op ontwikkelaars: nieuwe benchmark moet compliance meetbaar maken

woensdag, 11 maart 2026 om 17:16

Onderzoekers hebben deze week een nieuwe AI Act benchmark dataset gepubliceerd die het eenvoudiger moet maken om AI-systemen automatisch te controleren op naleving van Europese regelgeving.

De dataset, beschreven in een recente studie, richt zich vooral op taalmodellen en Retrieval Augmented Generation-systemen, vaak afgekort als RAG.

De publicatie komt op een moment waarop de Europese AI Act steeds dichter bij volledige implementatie komt. Bedrijven, overheden en ontwikkelaars zoeken naar manieren om hun systemen aantoonbaar compliant te maken met de nieuwe regels.

Tot nu toe bestond daar nauwelijks gestandaardiseerde tooling voor.

De nieuwe benchmark probeert dat probleem op te lossen door een open en reproduceerbare dataset te introduceren die AI-systemen kan testen op hun interpretatie van de AI Act.

Volgens de onderzoekers maakt dit het mogelijk om compliance-tests gedeeltelijk te automatiseren.

Waarom de AI Act benchmark belangrijk is voor AI-ontwikkeling

De Europese AI Act vormt het eerste grootschalige regelgevingskader ter wereld voor kunstmatige intelligentie. Het systeem deelt AI-toepassingen in verschillende risiconiveaus in, zoals:

verboden AI-toepassingen
hoog risico
beperkt risico
minimaal risico

Voor ontwikkelaars is het vaak lastig om te bepalen in welke categorie een AI-toepassing valt. Veel bepalingen in de wet zijn abstract geformuleerd en vereisen interpretatie.

Daar ontstaat een probleem.

Handmatige beoordeling van AI-systemen kost veel tijd en leidt vaak tot inconsistenties.

De nieuwe benchmarkdataset probeert dit gat te vullen.

De dataset bevat meerdere soorten taken waarmee AI-modellen kunnen worden getest, waaronder:

classificatie van AI-risiconiveaus
ophalen van relevante artikelen uit de AI Act
genereren van wettelijke verplichtingen
beantwoorden van vragen over regelgeving

Door deze taken te combineren ontstaat een evaluatieomgeving waarmee onderzoekers kunnen meten hoe goed AI-systemen Europese regelgeving begrijpen.

Hoe de dataset werkt met RAG-systemen

Een belangrijk onderdeel van het onderzoek richt zich op zogenaamde RAG-systemen. RAG staat voor Retrieval Augmented Generation.

Dit type AI combineert twee technieken:

informatie ophalen uit documenten
tekst genereren met een taalmodel

In plaats van alleen te vertrouwen op het geheugen van een model kan een RAG-systeem actuele documenten raadplegen. Bijvoorbeeld wetgeving of beleidsdocumenten.

Voor regelgeving zoals de AI Act is dat cruciaal.

De dataset bevat daarom scenario’s waarin AI-systemen relevante wetsartikelen moeten ophalen voordat ze een antwoord formuleren.

De onderzoekers gebruikten grote taalmodellen om realistische scenario’s te genereren. Daarbij combineerden ze juridische kennis met AI-gegenereerde voorbeelden.

Het resultaat is een dataset die machine-leesbaar is en eenvoudig kan worden geïntegreerd in evaluatiepijplijnen.

Resultaten tonen hoge nauwkeurigheid bij AI-evaluatie

De onderzoekers testten de dataset met een RAG-gebaseerde AI-oplossing. De resultaten laten zien dat het systeem relatief goed presteert bij het herkennen van bepaalde categorieën.

Voor verboden AI-toepassingen behaalde het systeem een F1-score van 0,87. Voor hoog-risico scenario’s kwam de score uit op 0,85.

Een F1-score combineert precisie en recall en wordt vaak gebruikt om AI-prestaties te meten.

Deze scores suggereren dat de dataset geschikt is om AI-systemen systematisch te testen op juridische interpretatie.

Volgens de onderzoekers helpt de methode ook bij een ander probleem binnen de AI Act.

Sommige risiconiveaus in de wet zijn namelijk niet volledig scherp gedefinieerd. Vooral de grens tussen minimale en beperkte risico’s blijft onderwerp van discussie.

De dataset probeert die grijze zones te modelleren via concrete scenario’s.