Grote
AI-ontwikkelaars lijken tegen een grens aan te lopen bij het verbeteren van hun modellen. Volgens recente berichten, gedeeld door AI-onderzoeker Yam Peleg, zouden de grootste spelers in AI—mogelijk inclusief
OpenAI—afnemende meeropbrengsten ervaren bij pogingen om hun modellen verder te verbeteren met meer data en langere trainingen.
De zogeheten “wall of diminishing returns” dwingt de AI-gemeenschap nu om hun aanpak te herzien: kwaliteit van data en innovatieve structuren worden cruciaal voor verdere vooruitgang.
Grenzen van brute force: meer data en rekenkracht bieden weinig verbetering
Peleg meldt dat er aanwijzingen zijn dat toonaangevende labs onverwacht sterke grenzen ondervinden bij het verhogen van prestaties met brute force-methoden, zoals het verlengen van trainingstijd en het toevoegen van meer data. De nieuwe Orion-update van OpenAI, die binnenkort wordt verwacht, zou indicaties geven dat schaalbare oplossingen hun maximale effect hebben bereikt.
Journalist Amir Efrati merkte op dat OpenAI voor Orion overweegt om complexe verbeteringen, zoals betere redeneercapaciteiten, pas na de eerste trainingsfase toe te voegen. Deze keuze duidt erop dat structurele verbeteringen moeilijker te behalen zijn binnen de bestaande trainingsoplossingen.
Focus verschuift naar datakwaliteit
Nu brute kracht zijn grenzen lijkt te bereiken, groeit het besef dat datakwaliteit doorslaggevend wordt. Dit vereist tijd en zorgvuldigheid, omdat de data niet alleen groter, maar vooral relevanter en diverser moet zijn om een effectief leereffect te garanderen.
Dit maakt het selectieproces van trainingsdata steeds belangrijker, en kan daarmee ook de toekomst van grote taalmodellen bepalen.
Nieuwe benaderingen: shortcuts in NanoGPT
Naast de focus op betere data onderzoekt de AI-gemeenschap nieuwe netwerkstructuren, zoals shortcut-verbindingen in modellen zoals NanoGPT. NanoGPT, een compactere versie van het GPT-model, maakt gebruik van shortcut-verbindingen die elke laag direct verbinden met de eerste laag.
Deze techniek zorgt ervoor dat iedere laag sneller toegang heeft tot cruciale informatie, wat de trainingsduur verkort en de efficiëntie verhoogt. NanoGPT behaalde hierdoor onlangs snelheidsrecords en heeft bewezen dat dergelijke interne optimalisaties de prestaties aanzienlijk kunnen verbeteren zonder grotere rekenkracht te eisen.
Conclusie: toekomst ligt in slimme benaderingen en hoogwaardige data
De recente geruchten en ontwikkelingen onderstrepen een belangrijke trend in de AI-wereld: brute-force benaderingen zijn niet meer toereikend voor echte doorbraken.
De nadruk verschuift naar kwaliteitsvolle data en innovatieve structuren, zoals de shortcut-verbindingen in NanoGPT, om met minder krachtiger te worden. Hiermee lijkt de toekomst van AI-ontwikkeling af te hangen van slimme ontwerpen en hoogwaardige data in plaats van pure opschaling.