De illusie van denken: Waarom 'reasoning' AI-modellen volgens Apple falen bij complexe problemen

Nieuws
zondag, 08 juni 2025 om 15:35
de illusie van denken waarom reasoning ai modellen volgens apple falen bij complexe problemen
AI-modellen lijken steeds beter te worden in redeneren. Maar een nieuwe studie van Apple onthult iets opmerkelijks: zogenaamde Large Reasoning Models (LRMs) storten volledig in zodra de taak echt complex wordt. Hoe slim is "slimme AI" dan écht? En wat betekent dit voor de toekomst van AI?

AI die denkt, of denkt dat hij denkt?

De laatste generatie taalmodellen – zoals ChatGPT, Claude en Gemini – pronkt met indrukwekkende redeneervaardigheden. Dankzij technieken zoals Chain-of-Thought (CoT) en zelfreflectie kunnen deze AI’s hun denkproces verwoorden alsof ze “begrijpen” wat ze doen.
Apple’s recente onderzoek, getiteld The Illusion of Thinking, werpt echter een kritisch licht op deze ontwikkeling. Door complexe puzzelomgevingen te gebruiken, laat het onderzoek zien dat de schijn van intelligentie bij deze AI-modellen juist het tegenovergestelde verbergt: een fundamentele limiet in hun redeneervermogen. Dat is te lezen op de website van Apple.

De opzet: hoe test je of AI écht kan redeneren?

In plaats van gebruik te maken van bestaande benchmarks (zoals wiskundige vraagstukken of codeproblemen), kozen de onderzoekers voor vier controleerbare puzzelomgevingen:
  1. Tower of Hanoi – een klassiek planningsprobleem
  2. Checker Jumping – een sequentieel wisselspel
  3. River Crossing – een constraints-gebaseerde transportsituatie
  4. Blocks World – stapelproblemen met blokken in een gespecificeerd patroon
Waarom puzzels? Omdat ze:
  • Volledig controleerbaar zijn qua moeilijkheidsgraad
  • Geen risico op data contamination hebben
  • Duidelijke regels en logische structuren vereisen
  • Algoritmisch, niet encyclopedisch, redeneren stimuleren
Zo konden de onderzoekers exact meten hoe goed (of slecht) modellen redeneren, en wáár ze de fout in gaan.

De drie redeneringsregimes van AI-modellen

De onderzoekers testten zowel reasoning-modellen (zoals Claude 3.7 Thinking, DeepSeek-R1) als hun standaard-tegenhangers, met identiek rekenvermogen. Daaruit bleek een opvallend patroon: drie duidelijke prestatieniveaus.

1. Lage complexiteit

  • Standaard LLMs (zonder “denken”) presteren beter dan reasoning-modellen.
  • Ze geven snellere, kortere en accuratere antwoorden.
  • Reasoning-modellen verspillen hier onnodig tokens aan overbodige stappen.

2. Middelmatige complexiteit

  • Hier tonen LRMs hun kracht: CoT-gedrag zorgt voor betere prestaties.
  • Extra denkstappen leiden tot betere planning en foutcorrectie.
  • Een significant verschil ontstaat tussen reasoning- en non-reasoning modellen.

3. Hoge complexiteit

  • Alles stort in: zowel LLMs als LRMs falen volledig.
  • Verrassend: reasoning-modellen gaan minder nadenken naarmate het moeilijker wordt.
  • Dit gebeurt ondanks voldoende tokenruimte, wat wijst op een structurele beperking in het denkvermogen van deze AI’s.

Wat zit er in het hoofd van een reasoning-AI?

De onderzoekers analyseerden niet alleen de eindantwoorden, maar ook de denksporen binnenin het model. Dit leverde intrigerende inzichten op:

Overdenken bij simpele taken

Bij eenvoudige puzzels vinden LRMs snel het juiste antwoord, maar blijven ze doorgaan met overbodige denkstappen. Dit veroorzaakt:
  • Lange reasoning-traces
  • Hogere kosten qua tokens
  • Onnodige foutkansen

Zelfcorrectie bij gemiddelde moeilijkheid

Bij matige complexiteit lijken LRMs effectief:
  • Eerst foute paden verkennen
  • Dan langzaam naar correcte oplossing convergeren
  • Redelijk robuust, maar nog steeds inefficiënt

Volledige instorting bij complexiteit

Bij hogere niveaus is het game over:
  • Geen enkele correcte tussenoplossing meer
  • Denksporen worden korter in plaats van langer
  • Redeneren stopt juist waar het nodig is

Verrassende resultaten

1. Algoritme meegeven helpt niet

Zelfs als de oplossing (bijvoorbeeld voor Tower of Hanoi) als algoritme wordt meegegeven, kunnen modellen het nog steeds niet correct uitvoeren. Dit suggereert:
  • Een gebrek aan exacte uitvoering van logische stappen
  • Geen robuust geheugen of contextbeheer

2. Puzzels met weinig stappen zijn soms moeilijker

Een puzzel met 100 stappen (zoals Hanoi N=10) wordt goed opgelost, terwijl eentje met 11 stappen (zoals River Crossing N=3) volledig faalt. Dit duidt op:
  • Kennisbias: modellen presteren beter op taken die vaker op het internet voorkomen
  • Trainingsdata-overeenkomst: ze herkennen patronen, maar begrijpen ze niet

Fundamentele beperkingen in 'AI die denkt'

De grote vraag: denken AI-modellen écht, of bootsen ze slechts denken na? De conclusie van Apple’s onderzoek is hard maar eerlijk:
"Deze modellen vertonen kenmerken van redeneren, maar missen structurele consistentie, schaalbaarheid en algoritmisch begrip."

Belangrijkste implicaties:

  • Chain-of-Thought werkt... tot een bepaald punt
  • Reinforcement Learning voor 'denken' levert beperkte winst
  • Bestaande evaluatiemethoden meten slechts output, niet het denkproces zelf
  • Fundamenteel: reasoning blijft nog steeds grotendeels patroonherkenning

Conclusie: De schijn van intelligentie

Hoewel LRMs indrukwekkend ogen met hun uitgebreide denkprocessen, blijkt uit deze studie dat het merendeels een illusie van denken is. Zodra de taak te complex wordt, stoppen deze modellen met echt redeneren — ondanks dat ze daarvoor zijn getraind.
De volgende generatie AI zal deze kloof moeten overbruggen. Niet alleen slimmer praten, maar echt kunnen denken, plannen en corrigeren. Tot die tijd geldt: Een AI die denkt, denkt minder dan je denkt.

Populair nieuws