CircuChain benchmark onthult fundamentele zwakte in grote taalmodellen bij technische instructies

Nieuws
woensdag, 18 februari 2026 om 11:46
LLM
Onderzoekers hebben met CircuChain een nieuwe AI-benchmark ontwikkeld die laat zien dat krachtige taalmodellen moeite hebben met technische instructies, zelfs wanneer hun berekeningen correct zijn.
De studie richt zich op elektrische circuitanalyse. In dit domein is niet alleen de uitkomst belangrijk, maar ook de methode. Als een model een stroomrichting verkeerd definieert of polariteit omdraait, kan dat in echte systemen tot fouten leiden.
CircuChain test daarom twee aspecten tegelijk:
  • Competence: fysisch correct redeneren
  • Compliance: expliciete instructies volgen
De resultaten tonen een opvallend patroon. Sterkere modellen behalen bijna perfecte natuurkundige berekeningen, maar negeren vaker opgelegde conventies wanneer die afwijken van standaard aannames. Zwakkere modellen volgen instructies beter, maar maken vaker inhoudelijke fouten.

Relevant voor Nederlandse technische sector

Voor Nederland is dit belangrijk. Technische universiteiten zoals TU Delft en TU Eindhoven experimenteren met AI in engineering-onderwijs. Ook hightechbedrijven gebruiken taalmodellen voor ontwerpdocumentatie en simulaties.
Het onderzoek suggereert dat hogere modelcapaciteit niet automatisch leidt tot betere instructietrouw. Dit raakt direct aan AI alignment. Alignment betekent dat een model zich gedraagt volgens menselijke intenties en regels.
In veiligheidskritische sectoren zoals energie, infrastructuur en halfgeleiderindustrie kan dit verschil cruciaal zijn.

Nieuwe evaluatiekaders nodig

CircuChain introduceert een verificatieproces met symbolische oplossers en SPICE-simulaties. Hiermee onderscheiden onderzoekers vier fouttypen:
  • Conventiefouten
  • Fysicafouten
  • Rekenfouten
  • Hallucinaties
De studie onderstreept dat AI-evaluatie verder moet gaan dan benchmark-scores. Vooral in mathematisch rigide domeinen is naleving van instructies essentieel.
Voor beleidsmakers en onderwijsinstellingen betekent dit dat toetsing van AI-systemen specifieker moet worden ingericht. Betrouwbaarheid vraagt om meer dan alleen hoge accuraatheid.
loading

Populair nieuws

Loading