PACT (Pairwise Auction Conversation Testbed) simuleert tweerichtingsgesprekken waarin AI-agenten onderhandelen als koper en verkoper, met verborgen waardes en openbare interacties. De benchmark, gebaseerd op meer dan vijfduizend onderhandelingsrondes tussen dertig modellen, toont overtuigend aan dat GPT-5 (medium reasoning) de meest capabele onderhandelaar is, met een samengestelde score van 72 procent.
Wat maakt PACT uniek?
PACT bestaat uit gestructureerde onderhandelingsrondes:
- Elke sessie bevat twintig rondes waarin beide agenten beurtelings een korte boodschap versturen en daarna een bod of vraagprijs plaatsen.
- Een transactie vindt plaats zodra het bod van de koper gelijk is aan of hoger ligt dan de vraagprijs van de verkoper. De uiteindelijke prijs wordt dan het gemiddelde van beide waarden, ook wel de midpoint genoemd.
- Het scoresysteem combineert twee factoren: Opponent-Balanced Share (billijkheid van de deal) en Surplus Share (totale behaalde winst). Deze worden samengevoegd in de Composite Model Score (CMS).
- Alle resultaten worden openbaar gemaakt in logbestanden, waardoor onderzoekers kunnen analyseren welke strategieën modellen hanteren.
De top 5 best presterende AI-onderhandelaars
Uit de benchmark komt de volgende ranglijst naar voren:
- GPT-5 (medium reasoning) – 72% samengestelde score, gemiddeld 29.8 winst per sessie
- Gemini 2.5 Pro – 66%, gemiddeld 28.9 winst
- o3 (medium reasoning) – 64%, gemiddeld 28.8 winst
- Gemini 2.5 Flash – 62%, gemiddeld 21.3 winst
- o4-mini (medium reasoning) – 60%, gemiddeld 21.3 winst
GPT-5 springt er niet alleen uit met de hoogste totale score, maar ook met de meest consistente balans tussen efficiëntie en eerlijkheid in onderhandelingen.
Wetenschappelijke context
PACT sluit aan bij bredere onderzoeken naar AI-onderhandeling. Eerdere studies lieten zien dat
LLM’s tactieken kunnen toepassen zoals het simuleren van empathie, het strategisch doen van concessies en zelfs bluffen. Onderzoekers ontdekten dat “warmte” in communicatie de kans op een deal vergroot, terwijl dominante tactieken meer waarde opleveren bij een geslaagde overeenkomst. Andere benchmarks toonden aan dat de rol van koper vaak uitdagender is dan die van verkoper, en dat instructietuning de prestaties drastisch kan verbeteren.
PACT maakt het nu mogelijk om al deze inzichten systematisch te vergelijken in een uniforme setting. Het framework legt bloot welke modellen werkelijk strategisch kunnen handelen en welke vooral afhankelijk zijn van taalvaardigheid zonder diepere onderhandelingslogica.
Waarom is PACT belangrijk?
- Onderhandelen is een cruciaal element in economie en samenleving, van marktplaatsen tot diplomatie.
- PACT test vaardigheden die verder gaan dan taalbegrip, zoals strategische redenering, concessiebeheer en adaptief gedrag over meerdere rondes.
- Het benchmarkresultaat geeft richting aan de ontwikkeling van AI-agenten die in de praktijk kunnen worden ingezet voor verkoop, bemiddeling of klantenservice.
Conclusie
GPT-5 blijkt de overtuigende winnaar in de eerste editie van de PACT-benchmark. Het model laat zien dat het zowel efficiënt als eerlijk kan onderhandelen en zet daarmee de toon voor de toekomst van AI-onderhandelingssystemen. PACT vormt samen met andere initiatieven een belangrijke stap in het testen van meer mensachtige intelligentie bij AI.
Je vindt de GitHub van Pact
hier.