Nieuwe onderzoeksmethoden voor OpenAI om slimmere AI te ontwikkelen

Nieuws
door Thomas
dinsdag, 12 november 2024 om 10:00
sam altman ceo van openai
In de wereld van AI hebben grote bedrijven zoals OpenAI en andere AI-ondernemingen te maken met een belangrijk probleem, de traditionele aanpak voor het verbeteren van taalmodellen levert niet langer de gewenste resultaten op. Het vergroten van taalmodellen door simpelweg meer data en rekenkracht toe te voegen blijkt zijn effectiviteit te verliezen. Hierdoor is er dringend behoefte aan nieuwe trainingsmethoden om slimmere kunstmatige intelligentie te kunnen bouwen. 
Ilya Sutskever, mede-oprichter van OpenAI, benadrukt dat de traditionele strategie van "bigger is better" (groter is beter) zijn effect heeft verloren. Het opschalen van AI training door het gebruik van steeds grotere hoeveelheden ongestructureerde data heeft geleid tot afvlakkende prestaties. In plaats van te blijven investeren in meer data, is het tijd voor nieuwe benaderingen die verder gaan dan enkel omvang.

Uitdagingen AI ontwikkeling

Een van de uitdagingen bij het trainen van grote taalmodellen is de enorme hoeveelheid data en energie die nodig is. Dit zorgt niet alleen voor vertragingen in het ontwikkelingsproces, maar verhoogt ook de kosten. Het trainen van deze modellen vereist geavanceerde hardware die vaak complex is en gevoelig voor storingen, wat leidt tot nog meer vertragingen.
Om deze problemen het hoofd te bieden, onderzoeken onderzoekers nieuwe technieken zoals "test-time compute". Bij deze methode genereert het AI model meerdere mogelijkheden tijdens de “inference-fase” (de fase waarin het model beslissingen maakt), waarna het real-time evalueert welke optie het beste is. Dit zou kunnen helpen om betere en snellere besluitvorming mogelijk te maken.

Nieuw O1 model van OpenAI

Een andere interessante ontwikkeling is het nieuwe model "O1" van OpenAI. Dit model maakt gebruik van meerdere stappen om problemen op te lossen, vergelijkbaar met menselijke redenering. O1 is getraind op de basisversie van GPT-4, maar bevat ook extra data van experts en PhD’s, waardoor het in staat is om complexere vraagstukken aan te pakken.