OpenAI lanceert o3: Nieuw AI-model breekt records op meerdere benchmarks

vrijdag, 20 december 2024 om 18:37

OpenAI heeft o3 aangekondigd, een baanbrekend AI-model dat op diverse benchmarks beter presteert dan eerdere modellen. Deze prestaties benadrukken de vooruitgang in kunstmatige intelligentie en laten zien dat o3 op specifieke gebieden menselijke experts overtreft.

Hieronder een overzicht van de belangrijkste benchmarks waarop o3 is geëvalueerd, inclusief wat ze meten en impliceren:

1. ARC-AGI (Artificial Reasoning Challenge - Artificial General Intelligence)

o3 behaalde een score van meer dan 87% en verdrievoudigde daarmee de score van zijn voorganger o1. Deze benchmark test het vermogen van een AI-model om complexe problemen op te lossen met minimale rekenkracht. Dit maakt o3 geschikt voor toepassingen in omgevingen met beperkte bronnen, zoals edge computing.

2. EpochAI Frontier Math

Bij het oplossen van complexe wiskundige problemen zette o3 een record neer door 25,2% van de vraagstukken op te lossen, terwijl andere modellen niet verder kwamen dan 2%. Dit onderstreept het potentieel van o3 voor toepassingen in wetenschap en techniek.

3. SWE-Bench Verified

In deze benchmark, gericht op software-engineering, presteerde o3 22,8 procentpunten beter dan o1. Dit suggereert dat het model betrouwbaarder en nauwkeuriger is in programmeeroplossingen, wat belangrijk is voor geautomatiseerde softwareontwikkeling.

4. Codeforces

Op Codeforces, een platform voor competitief programmeren, behaalde o3 een rating van 2727, wat OpenAI’s Chief Scientist (2665) overtreft. Dit betekent dat o3 nu kan concurreren met menselijke programmeerexperts op hoog niveau.

5. AIME 2024 (American Invitational Mathematics Examination)

Met een score van 96,7% miste o3 slechts één vraag in deze prestigieuze wiskundetoets. Dit laat zien dat het model presteert op het niveau van topstudenten in de wiskunde.

6. GPQA Diamond (General-Purpose Question Answering)

Op deze benchmark, gericht op vraag-en-antwoordmogelijkheden, behaalde o3 87,7%, ruim boven menselijke expertprestaties. Dit maakt het model geschikt voor toepassingen in onderwijs en professionele training.

OpenAI

@OpenAI

·Follow

Today, we shared evals for an early version of the next model in our o-model reasoning series: OpenAI o3

Watch on X

7:16 PM · Dec 20, 2024

9.7K

Read 565 replies

Implicaties en toekomstperspectieven

De indrukwekkende prestaties van o3 benadrukken de toenemende kracht van AI-systemen. Hoewel de exacte technische details van o3 niet zijn vrijgegeven, is duidelijk dat het model een nieuwe standaard zet in redeneren, wiskunde en programmeerkennis. Dit biedt talrijke kansen, maar roept ook vragen op over de regulering en het ethische gebruik van dergelijke geavanceerde technologie.

De lancering van o3 komt in een periode van intense concurrentie in de AI-sector, waarbij OpenAI naar verluidt in december 2024 een nieuw model genaamd ‘Orion’ wil introduceren. Hoe o3 zich verhoudt tot toekomstige ontwikkelingen blijft een belangrijk punt van interesse.

Lees ook

Robin HeesterOprichter

Robin Heester is mede-oprichter van AI Wereld en heeft door de jaren heen meerdere websites, nieuwsbrieven en magazines opgericht. Hij schrijft over technologie, innovatie en de maatschappelijke impact van nieuwe digitale ontwikkelingen.