Het nieuwe "o1" model van OpenAI heeft de kroon overgenomen van Anthropic’s Claude op LiveBench, een benchmark die ontworpen is om Large Language Models (LLM’s) te testen op objectieve en onbevooroordeelde wijze.
Programmeren met AI is steeds interessanter, omdat de modellen er steeds beter in worden.
LiveBench-2024-11-25 toont dat o1 een gemiddelde score behaalt van 73,50, met een indrukwekkende 91,58 in redeneercapaciteiten en 69,69 in programmeertaken. Hiermee verslaat het net Claude 3.5, dat een programmeerscore van 67,13 noteert.
LiveBench is een benchmark die specifiek is ontworpen om vervuiling van testdata te voorkomen. Het platform vernieuwt elke maand de vragen, gebaseerd op recente datasets, wetenschappelijke publicaties en actuele gebeurtenissen.
De meest recente update, LiveBench-2024-11-25, introduceerde 300 nieuwe vragen, waaronder complexe programmeerproblemen en vernieuwde wiskundige uitdagingen. Dankzij deze aanpak biedt LiveBench een betrouwbaarder beeld van de werkelijke prestaties van LLM's.
Het o1-model van OpenAI behaalde vooral hoge scores op redeneervaardigheden (91,58) en instruction-following (81,55). Met een coderingsgemiddelde van 69,69 laat het Claude, Google’s Gemini en andere modellen achter zich. Het succes van o1 lijkt te liggen in de combinatie van sterke redeneer- en programmeermogelijkheden, waarmee het veelzijdiger is dan veel van zijn concurrenten.
Anthropic’s Claude, de eerdere favoriet, scoorde relatief goed in programmeertaken (67,13) maar bleef achter in algemene redeneercapaciteiten. Google’s Gemini-modellen, waaronder Gemini 2.0 Flash, scoren aanzienlijk lager in codering, maar blinken soms uit in specifieke subcategorieën zoals taalverwerking.
De LiveBench-resultaten benadrukken het belang van benchmarks met verversende datasets, zoals LiveBench, die beter inzicht geven in hoe LLM's presteren in complexe en dynamische scenario’s. Modellen zoals o1 kunnen in de toekomst een sleutelrol spelen in toepassingen die zowel sterke programmeer- als redeneercapaciteiten vereisen, zoals softwareontwikkeling en data-analyse.
De race tussen AI-leiders blijft spannend, met OpenAI, Anthropic, en Google als dominante spelers. Het is slechts een kwestie van tijd voordat nieuwe innovaties de ranglijst opnieuw opschudden.