Apple onthult beperkingen van AI: grote taalmodellen kunnen niet redeneren

maandag, 14 oktober 2024 om 17:05

Het onderzoek suggereert dat deze modellen, die vaak worden gezien als geavanceerde AI-systemen, niet in staat zijn tot echte logische redenering.

Patronen herkennen

In plaats daarvan zouden ze voornamelijk statistische patronen herkennen in plaats van daadwerkelijk problemen te doorgronden, wat grote implicaties kan hebben voor het gebruik van AI in complexe domeinen zoals gezondheidszorg en besluitvorming.

Het onderzoek, getiteld "GSM Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models", richt zich op het vermogen van LLM's om wiskundige problemen op te lossen.

De studie toont aan dat, hoewel de prestaties van modellen op benchmarks zoals GSM-8K (een wiskundetest op basisschoolniveau) aanzienlijk zijn verbeterd, deze verbeteringen grotendeels te wijten zijn aan patroonherkenning en niet aan een toename van daadwerkelijk redeneervermogen.

Beperkingen in redenering

De kern van het onderzoek is dat LLM's zoals GPT-4 en andere geavanceerde AI-modellen geen echte logische stappen uitvoeren. In plaats daarvan herkennen ze patronen in de data waarmee ze zijn getraind. Dit zou betekenen dat de modellen slechts nabootsen wat ze eerder hebben gezien, zonder echt te begrijpen wat er gebeurt.

Apple toonde dit aan door kleine wijzigingen aan te brengen in standaard wiskundige problemen, zoals het veranderen van namen en getallen. Verrassend genoeg leidden deze minimale veranderingen tot aanzienlijke prestatieverliezen bij de modellen, wat erop wijst dat ze de onderliggende structuur van de problemen niet begrijpen.

Lees ook

Het onderzoek onthulde dat modellen zoals GPT-4 slecht presteren wanneer irrelevante of misleidende informatie wordt toegevoegd aan wiskundige vragen. In sommige gevallen resulteerde dit in een prestatieafname van 30 tot 40%, zelfs wanneer de toegevoegde informatie geen invloed had op de oplossing van het probleem. Dit duidt op een gebrek aan vermogen om irrelevante informatie te negeren, een eigenschap die cruciaal is voor effectief redeneren.

Gevolgen voor AI-toepassingen

Dit onderzoek heeft grote gevolgen voor de toekomst van AI. Als LLM's niet in staat zijn om betrouwbaar te redeneren, roept dit vragen op over hun geschiktheid voor toepassingen in kritieke sectoren zoals gezondheidszorg, onderwijs en besluitvorming. In deze gebieden is nauwkeurigheid essentieel en kunnen fouten grote gevolgen hebben.

De bevindingen werpen ook een schaduw over de ambitie om generatieve AI-modellen te gebruiken voor geavanceerde besluitvorming of zelfs het ontwikkelen van algemene kunstmatige intelligentie (AGI).

De studie benadrukt dat het opschalen van de huidige modellen – door bijvoorbeeld meer data of parameters toe te voegen – dit fundamentele probleem waarschijnlijk niet zal oplossen. Dit suggereert dat er een nieuwe benadering nodig is om AI-systemen echt te laten redeneren, in plaats van enkel patronen te herkennen.