Dit AI-model van Google breekt records

woensdag, 07 mei 2025 om 1:28

Google heeft met zijn nieuwste AI-model Gemini 2.5 Pro (preview van 6 mei) de toppositie veroverd op de invloedrijke AI-ranglijst van LMArena. Deze ranglijst is gebaseerd op duizenden stemrondes van echte gebruikers die AI-antwoorden direct met elkaar vergelijken.

Het model behaalde een indrukwekkende Arena Score van 1420, waarmee het concurrenten als Claude 3.7 Sonnet (Anthropic) en eerdere versies van Gemini achter zich liet.

Google op kop in AI-benchmark

De nieuwe versie van Gemini 2.5 Pro scoort hoog op uiteenlopende taken, zoals coderen, redeneren en het volgen van instructies. Uit de benchmark blijkt dat dit model momenteel het meest gewaardeerd wordt door gebruikers wereldwijd.

De top 5 van dit moment:

Gemini 2.5 Pro Preview (2025-05-06) – 1420 punten
Claude 3.7 Sonnet (20250219) – 1357 punten
Gemini 2.5 Pro Exp (2025-03-25) – 1273 punten
GPT-4.1 (OpenAI, 2025-04-14) – 1261 punten
Claude 3.5 Sonnet (20241022) – 1238 punten

Wat is LMArena?

LMArena (voorheen LMSYS) is een open-source benchmarkplatform ontwikkeld door UC Berkeley. Het stelt gebruikers in staat AI-modellen anoniem te vergelijken door te stemmen op het beste antwoord in zogeheten Chatbot Arena-duels. Deze crowdsourced methode biedt een unieke, democratische kijk op welke modellen echt het best presteren volgens het publiek.

Sinds april 2025 is LMArena omgevormd tot een bedrijf, Arena Intelligence Inc., met meer dan een miljoen maandelijkse gebruikers. Het platform blijft inzetten op neutraliteit, transparantie en heeft recent een mobiele versie en gepersonaliseerde functies gelanceerd.

Kritiek op de methodiek

Ondanks het succes is er ook kritiek. Een recente studie stelt dat bedrijven als Google, Meta en OpenAI mogelijk meerdere varianten van hun modellen testen en alleen de beste inzenden voor publicatie. LMArena zou zo een vertekend beeld geven van de werkelijke prestaties.

De oprichter van LMArena, Ion Stoica, ontkent de aantijgingen en stelt dat het platform zich juist inzet voor open en eerlijke evaluatie, waarbij het publiek centraal staat.

Conclusie: Gemini 2.5 zet nieuwe standaard

Ondanks de kritiek blijft LMArena dé plek voor onafhankelijke AI-benchmarking. Met Gemini 2.5 aan kop verstevigt Google zijn positie in de AI-race en laat het zien dat het serieus meespeelt op het hoogste niveau. De strijd tussen techgiganten als Google, OpenAI en Anthropic wordt daarmee alleen maar spannender.