OpenAI o1 is het nieuwe model voor ChatGPT

donderdag, 12 september 2024 om 19:36

OpenAI komt met een nieuw model genaamd OpenAI o1. Het model is momenteel als preview beschikbaar voor ChatGPT.

OpenAI o1 is getraind met behulp van reinforcement learning om complexere redeneringsvragen aan te kunnen. Dit nieuwe model maakt gebruik van een zogeheten chain-of-thought-aanpak, waarbij het model stapsgewijs een interne gedachtegang ontwikkelt voordat het een antwoord formuleert. Hierdoor kan het model vragen nauwkeuriger en meer onderbouwd beantwoorden.

Belangrijkste verbeteringen van OpenAI o1

Prestatie op programmeervragen: OpenAI o1 scoort in de 89e percentiel op vragen van Codeforces, een populaire competitieve programmeerplatform. Hiermee presteert het model beter dan veel menselijke programmeurs.
Mathematica Olympiade: In een voorronde voor de USA Math Olympiad (AIME) wist OpenAI o1 zich te plaatsen bij de top 500 Amerikaanse studenten, wat een indrukwekkende prestatie is voor een AI-model.
Wetenschappelijke benchmarks: Het model overtrof de nauwkeurigheid van PhD-niveau wetenschappers op het gebied van natuurkunde, biologie en chemie bij het beantwoorden van complexe vragen uit de General Physics, Chemistry, and Biology Problem Sets (GPQA).

Ondanks deze resultaten, benadrukt OpenAI dat er nog werk aan de winkel is om het model net zo toegankelijk te maken als eerdere versies, zoals GPT-4. Een preview-versie van het model is inmiddels beschikbaar voor ChatGPT-gebruikers en geselecteerde API-gebruikers.

Verbeterde leerprocessen en rekencapaciteit

OpenAI o1 is uniek in zijn leerproces. Het model leert om productief na te denken dankzij een zeer efficiënte training die zich richt op stapsgewijze redenering. De prestaties van het model verbeteren voortdurend naarmate het meer tijd krijgt om te denken en met toenemende rekencapaciteit zowel tijdens de training als in de testfase. Dit verschilt aanzienlijk van eerdere methoden van LLM-voortraining.

Belangrijkste bevinding: OpenAI o1 presteert beter met meer rekentijd in zowel de trainings- als de testfase, wat betekent dat de aanpak van het opschalen van deze methoden anders is dan voor eerdere modellen.

Veiligheid en alignment

Een andere belangrijke verbetering in OpenAI o1 is de verhoogde veiligheid en betere afstemming op menselijke waarden. OpenAI hecht veel waarde aan de manier waarop hun modellen reageren op 'verboden prompts'. Het model presteerde opmerkelijk goed bij het afhandelen van schadelijke prompts en grensgevallen, zoals pogingen tot jailbreaks. Dankzij de chain-of-thought-aanpak kan het model redeneren over veiligheidsregels en ethische kwesties, waardoor het veiliger en betrouwbaarder is in gebruik. Dit betekent dat OpenAI o1 betere resultaten levert in situaties waarin ethische afwegingen en veiligheid cruciaal zijn.

Menselijke voorkeur en evaluaties

In vergelijking met eerdere modellen, zoals GPT-4o, wordt OpenAI o1 beter gewaardeerd door menselijke trainers op gebieden die veel redeneervermogen vereisen, zoals coderen, data-analyse en wiskunde. In uitgebreide evaluaties bleek dat OpenAI o1 vaker werd verkozen boven GPT-4o in deze domeinen, wat erop wijst dat het model beter is uitgerust om complexe problemen op te lossen waar diepgaand redeneren essentieel is.

Toekomstige mogelijkheden voor AI-toepassingen

De verbetering van het redeneringsvermogen in OpenAI o1 opent nieuwe mogelijkheden voor AI in diverse vakgebieden. Het model kan van grote waarde zijn in complexe wetenschappelijke berekeningen, programmeeromgevingen, wiskundige vraagstukken en meer.

OpenAI plant om toekomstige versies van o1 uit te brengen en blijft het model verder verfijnen. Dankzij de verbeterde capaciteiten in redenering en veiligheid, biedt OpenAI o1 niet alleen betere prestaties, maar ook verhoogde mogelijkheden om AI-modellen beter af te stemmen op menselijke waarden en normen.