OpenAI komt met een nieuw model genaamd OpenAI o1. Het model is momenteel als preview beschikbaar voor ChatGPT.
OpenAI o1 is getraind met behulp van reinforcement learning om complexere redeneringsvragen aan te kunnen. Dit nieuwe model maakt gebruik van een zogeheten chain-of-thought-aanpak, waarbij het model stapsgewijs een interne gedachtegang ontwikkelt voordat het een antwoord formuleert. Hierdoor kan het model vragen nauwkeuriger en meer onderbouwd beantwoorden.
Ondanks deze resultaten, benadrukt OpenAI dat er nog werk aan de winkel is om het model net zo toegankelijk te maken als eerdere versies, zoals GPT-4. Een preview-versie van het model is inmiddels beschikbaar voor ChatGPT-gebruikers en geselecteerde API-gebruikers.
OpenAI o1 is uniek in zijn leerproces. Het model leert om productief na te denken dankzij een zeer efficiënte training die zich richt op stapsgewijze redenering. De prestaties van het model verbeteren voortdurend naarmate het meer tijd krijgt om te denken en met toenemende rekencapaciteit zowel tijdens de training als in de testfase. Dit verschilt aanzienlijk van eerdere methoden van LLM-voortraining.
Belangrijkste bevinding: OpenAI o1 presteert beter met meer rekentijd in zowel de trainings- als de testfase, wat betekent dat de aanpak van het opschalen van deze methoden anders is dan voor eerdere modellen.
Een andere belangrijke verbetering in OpenAI o1 is de verhoogde veiligheid en betere afstemming op menselijke waarden. OpenAI hecht veel waarde aan de manier waarop hun modellen reageren op 'verboden prompts'. Het model presteerde opmerkelijk goed bij het afhandelen van schadelijke prompts en grensgevallen, zoals pogingen tot jailbreaks. Dankzij de chain-of-thought-aanpak kan het model redeneren over veiligheidsregels en ethische kwesties, waardoor het veiliger en betrouwbaarder is in gebruik. Dit betekent dat OpenAI o1 betere resultaten levert in situaties waarin ethische afwegingen en veiligheid cruciaal zijn.
In vergelijking met eerdere modellen, zoals GPT-4o, wordt OpenAI o1 beter gewaardeerd door menselijke trainers op gebieden die veel redeneervermogen vereisen, zoals coderen, data-analyse en wiskunde. In uitgebreide evaluaties bleek dat OpenAI o1 vaker werd verkozen boven GPT-4o in deze domeinen, wat erop wijst dat het model beter is uitgerust om complexe problemen op te lossen waar diepgaand redeneren essentieel is.
De verbetering van het redeneringsvermogen in OpenAI o1 opent nieuwe mogelijkheden voor AI in diverse vakgebieden. Het model kan van grote waarde zijn in complexe wetenschappelijke berekeningen, programmeeromgevingen, wiskundige vraagstukken en meer.
OpenAI plant om toekomstige versies van o1 uit te brengen en blijft het model verder verfijnen. Dankzij de verbeterde capaciteiten in redenering en veiligheid, biedt OpenAI o1 niet alleen betere prestaties, maar ook verhoogde mogelijkheden om AI-modellen beter af te stemmen op menselijke waarden en normen.