Wat kunnen AI-modellen? Wordt er nagedacht of is het allemaal een kwestie van herhaling? Een nieuwe studie denkt dat het meer is dan alleen kopiëren.
Een recent onderzoek getiteld "Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning" onderzoekt of grote taalmodellen (LLM’s) zoals GPT-4, Claude 3 en Llama 3.1 écht kunnen redeneren of slechts geleerd materiaal herhalen.
Dit onderzoek, uitgevoerd door Akshara Prabhakar, Thomas L. Griffiths en R. Thomas McCoy, richt zich op het zogeheten Chain-of-Thought (CoT) prompting, waarbij AI-modellen worden gestimuleerd om hun denkproces stap voor stap te expliciteren.
Chain-of-Thought (CoT) prompting is een methode waarbij AI-modellen hun redenering expliciet in stappen verwoorden voordat ze tot een eindantwoord komen. Dit kan bijvoorbeeld helpen bij complexe taken zoals wiskundige problemen of het decoderen van codes. De vraag blijft echter of LLM's met CoT daadwerkelijk logisch redeneren of dat ze simpelweg vooraf aangeleerde patronen volgen.
Om deze vraag te beantwoorden, analyseerden de onderzoekers een specifieke redeneringstaak: het ontcijferen van shift-codes, waarbij letters in het alfabet een bepaald aantal posities worden verschoven. Door zich te concentreren op deze relatief eenvoudige taak, konden ze drie factoren onderscheiden die de prestaties van CoT beïnvloeden:
Het onderzoek concludeert dat CoT-prestaties zowel elementen van memorisatie als van probabilistisch redeneren weerspiegelen. Hoewel de modellen soms oppervlakkige heuristieken gebruiken, vertonen ze ook kenmerken van echte redenering—zij het in een vorm die beïnvloed wordt door de waarschijnlijkheid van mogelijke uitkomsten. Dit betekent dat CoT prompting niet louter neerkomt op simpele herhaling, maar ook een vorm van 'denkend' gedrag in zich heeft.
Deze bevindingen dragen bij aan een genuanceerder begrip van hoe AI-modellen omgaan met complexe taken. Het laat zien dat er een middenweg is tussen volledige redenering en puur herhalen van voorafgaande data. Dit biedt nieuwe inzichten in hoe we AI-modellen kunnen verbeteren, zodat ze in de toekomst nog beter kunnen omgaan met complexe en ongeziene problemen.
De resultaten van deze studie suggereren dat LLM’s in staat zijn om verder te gaan dan alleen het reproduceren van aangeleerde informatie. Het gebruik van CoT kan hun vermogen om complexe vraagstukken op te lossen aanzienlijk verbeteren. Toch blijft het essentieel om de beperkingen te erkennen, zoals hun gevoeligheid voor ruis en de afhankelijkheid van waarschijnlijkheid. Dit benadrukt de noodzaak om toekomstige modellen zo te trainen dat ze robuuster worden en minder snel terugvallen op memorisatie.
Kortom, dit onderzoek biedt een gebalanceerde kijk op de capaciteiten van grote taalmodellen: ze kunnen zeker redeneren, maar doen dit op een manier die sterk beïnvloed wordt door hun trainingsdata en de probabilistische aard van hun berekeningen. Hierdoor kunnen we AI beter begrijpen en inzetten voor complexe toepassingen in de toekomst.