OpenAI lanceert BrowseComp: benchmark voor AI-agents die écht goed kunnen browsen

donderdag, 10 april 2025 om 20:38

Op 10 april 2025 deelde Sam Altman, CEO van OpenAI, een opgetogen tweet waarin hij aankondigde dat een van de spannendste AI-features van het jaar zou worden gelanceerd. Inmiddels weten we waar het over gaat: BrowseComp, een nieuwe en extreem uitdagende benchmark die de grenzen test van AI-modellen die informatie zoeken op het internet.

Wat is BrowseComp?

BrowseComp staat voor "Browsing Competition" en is een open-source benchmark bestaande uit 1.266 extreem moeilijke zoekopdrachten. Het doel: meten in hoeverre AI-agenten in staat zijn complexe, moeilijk te vinden informatie op te sporen via het internet.

In tegenstelling tot eerdere benchmarks zoals SimpleQA, richt BrowseComp zich niet op simpele feitjes die snel vindbaar zijn, maar op diep verweven informatie waarvoor tientallen websites geraadpleegd moeten worden.

Korte beschrijving BrowseComp

BrowseComp is een nieuwe benchmark voor AI-modellen die via internet browsen. Het bevat 1.266 complexe vragen waarvoor modellen meerdere websites moeten doorzoeken om korte, feitelijke antwoorden te vinden. Deze benchmark test niet alleen toegang tot informatie, maar ook slimme zoekstrategieën, volharding en redenerend vermogen. OpenAI stelt BrowseComp gratis beschikbaar via hun GitHub-repository. Dat zegt OpenAI in hun bekendmaking.

Waarom is BrowseComp belangrijk?

AI-agents worden steeds vaker ingezet om complexe vragen op te lossen of onderzoek te doen op basis van live webdata. Denk aan toepassingen als:

Ondersteunen bij journalistiek onderzoek
Automatiseren van juridische of academische zoekopdrachten
Analyseren van actuele gebeurtenissen met online bronnen

BrowseComp is ontworpen met het oog op deze taken. De benchmark legt de lat hoog:

70% van de vragen werd als onsolveerbaar gemarkeerd door menselijke trainers binnen 2 uur zoektijd.
Slechts 29,2% werd succesvol opgelost door mensen.
OpenAI's nieuwste modellen zonder gespecialiseerde training haalden <2% accuraatheid.
Alleen het gespecialiseerde Deep Research-model haalde 51,5% score.

Wat maakt BrowseComp uniek?

Extreem moeilijke vragen: zoals obscure tv-series met <50 afleveringen, historische trivia, of papers met specifieke auteursachtergronden.
Focus op korte, verifieerbare antwoorden: ideaal voor automatische evaluatie.
Creatieve zoekopdrachten nodig: brute force werkt niet, modellen moeten strategisch denken.

Voorbeeldvraag uit BrowseComp:

“Wat is de titel van een wetenschappelijk artikel uit EMNLP (2018–2023), waarvan de eerste auteur aan Dartmouth studeerde en de vierde aan UPenn?” Antwoord: "Frequency Effects on Syntactic Rule Learning in Transformers"

De conclusie? Browsing alleen is niet genoeg. AI moet kunnen redeneren, zoeken en combineren.

Wat betekent dit voor de toekomst?

BrowseComp is geen benchmark voor alledaagse zoekvragen, maar een cruciale stap richting AI die écht zelfstandig online informatie kan vinden, filteren en beoordelen. Denk aan AI-onderzoekers, juridische assistenten of datajournalisten in de toekomst.

Met BrowseComp zet OpenAI een nieuwe standaard voor AI-browsing. Deze benchmark biedt niet alleen een meetlat voor AI-capaciteiten, maar stimuleert ook onderzoek naar meer betrouwbare, creatieve en volhardende AI-agents.