BrowseComp staat voor "Browsing Competition" en is een open-source benchmark bestaande uit 1.266 extreem moeilijke zoekopdrachten.
Het doel: meten in hoeverre AI-agenten in staat zijn complexe, moeilijk te vinden informatie op te sporen via het internet.