In de wereld van AI hebben grote bedrijven zoals OpenAI en andere AI-ondernemingen te maken met een belangrijk probleem, de traditionele aanpak voor het verbeteren van taalmodellen levert niet langer de gewenste resultaten op. Het vergroten van taalmodellen door simpelweg meer data en rekenkracht toe te voegen blijkt zijn effectiviteit te verliezen. Hierdoor is er dringend behoefte aan nieuwe trainingsmethoden om slimmere kunstmatige intelligentie te kunnen bouwen.
Ilya Sutskever, mede-oprichter van OpenAI, benadrukt dat de traditionele strategie van "bigger is better" (groter is beter) zijn effect heeft verloren. Het opschalen van AI training door het gebruik van steeds grotere hoeveelheden ongestructureerde data heeft geleid tot afvlakkende prestaties. In plaats van te blijven investeren in meer data, is het tijd voor nieuwe benaderingen die verder gaan dan enkel omvang.
Een van de uitdagingen bij het trainen van grote taalmodellen is de enorme hoeveelheid data en energie die nodig is. Dit zorgt niet alleen voor vertragingen in het ontwikkelingsproces, maar verhoogt ook de kosten. Het trainen van deze modellen vereist geavanceerde hardware die vaak complex is en gevoelig voor storingen, wat leidt tot nog meer vertragingen.
Om deze problemen het hoofd te bieden, onderzoeken onderzoekers nieuwe technieken zoals "test-time compute". Bij deze methode genereert het AI model meerdere mogelijkheden tijdens de “inference-fase” (de fase waarin het model beslissingen maakt), waarna het real-time evalueert welke optie het beste is. Dit zou kunnen helpen om betere en snellere besluitvorming mogelijk te maken.
Een andere interessante ontwikkeling is het nieuwe model "O1" van OpenAI. Dit model maakt gebruik van meerdere stappen om problemen op te lossen, vergelijkbaar met menselijke redenering. O1 is getraind op de basisversie van GPT-4, maar bevat ook extra data van experts en PhD’s, waardoor het in staat is om complexere vraagstukken aan te pakken.