Wat kunnen AI-modellen? Wordt er nagedacht of is het allemaal een kwestie van herhaling? Een nieuwe studie denkt dat het meer is dan alleen kopiëren.
Een recent onderzoek getiteld
"Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning" onderzoekt of grote taalmodellen (LLM’s) zoals GPT-4,
Claude 3 en
Llama 3.1 écht kunnen redeneren of slechts geleerd materiaal herhalen.
Dit onderzoek, uitgevoerd door Akshara Prabhakar, Thomas L. Griffiths en R. Thomas McCoy, richt zich op het zogeheten Chain-of-Thought (CoT) prompting, waarbij AI-modellen worden gestimuleerd om hun denkproces stap voor stap te expliciteren.
Wat is Chain-of-Thought prompting?
Chain-of-Thought (CoT) prompting is een methode waarbij AI-modellen hun redenering expliciet in stappen verwoorden voordat ze tot een eindantwoord komen. Dit kan bijvoorbeeld helpen bij complexe taken zoals wiskundige problemen of het decoderen van codes. De vraag blijft echter of
LLM's met CoT daadwerkelijk logisch redeneren of dat ze simpelweg vooraf aangeleerde patronen volgen.
Symbolisch redeneren of herhalen?
Om deze vraag te beantwoorden, analyseerden de onderzoekers een specifieke redeneringstaak: het ontcijferen van shift-codes, waarbij letters in het alfabet een bepaald aantal posities worden verschoven. Door zich te concentreren op deze relatief eenvoudige taak, konden ze drie factoren onderscheiden die de prestaties van CoT beïnvloeden:
- Waarschijnlijkheid van de Uitkomst: Hoe waarschijnlijker het juiste antwoord is op basis van wat het model heeft geleerd, hoe beter het presteert. Bij GPT-4 varieerde de nauwkeurigheid bijvoorbeeld van 26% tot 70% afhankelijk van de waarschijnlijkheid van het juiste antwoord.
- Memorisatie: Modellen zoals GPT-4 blijken vaak eerder geziene patronen te herkennen, vooral bij vaker voorkomende codes. Dit is een indicatie dat het model niet alleen redeneert, maar ook leunt op wat het tijdens de training heeft opgeslagen.
- Noisy Reasoning (Ongestructureerde Redenering): Bij complexere taken waarbij meerdere tussenstappen nodig zijn, maken de modellen vaker fouten. Dit wijst op een ruis in het redeneringsproces. Hoe meer stappen een taak vereist, hoe groter de kans dat er onderweg iets misgaat.
Wat betekenen deze bevindingen?
Het onderzoek concludeert dat CoT-prestaties zowel elementen van memorisatie als van probabilistisch redeneren weerspiegelen. Hoewel de modellen soms oppervlakkige heuristieken gebruiken, vertonen ze ook kenmerken van echte redenering—zij het in een vorm die beïnvloed wordt door de waarschijnlijkheid van mogelijke uitkomsten. Dit betekent dat CoT prompting niet louter neerkomt op simpele herhaling, maar ook een vorm van 'denkend' gedrag in zich heeft.
Deze bevindingen dragen bij aan een genuanceerder begrip van hoe AI-modellen omgaan met complexe taken. Het laat zien dat er een middenweg is tussen volledige redenering en puur herhalen van voorafgaande data. Dit biedt nieuwe inzichten in hoe we AI-modellen kunnen verbeteren, zodat ze in de toekomst nog beter kunnen omgaan met complexe en ongeziene problemen.
Wat betekent dit voor de toekomst van AI?
De resultaten van deze studie suggereren dat LLM’s in staat zijn om verder te gaan dan alleen het reproduceren van aangeleerde informatie. Het gebruik van CoT kan hun vermogen om complexe vraagstukken op te lossen aanzienlijk verbeteren. Toch blijft het essentieel om de beperkingen te erkennen, zoals hun gevoeligheid voor ruis en de afhankelijkheid van waarschijnlijkheid. Dit benadrukt de noodzaak om toekomstige modellen zo te trainen dat ze robuuster worden en minder snel terugvallen op memorisatie.
Kortom, dit onderzoek biedt een gebalanceerde kijk op de capaciteiten van grote taalmodellen: ze kunnen zeker redeneren, maar doen dit op een manier die sterk beïnvloed wordt door hun trainingsdata en de probabilistische aard van hun berekeningen. Hierdoor kunnen we AI beter begrijpen en inzetten voor complexe toepassingen in de toekomst.