Onderzoek: AI blijkt een eigen mening te hebben, en is stellig

vrijdag, 20 december 2024 om 11:51

jan leike is weg bij openai en gaat voor nieuwe uitdaging bij anthropic ai

Anthropic, het bedrijf achter Claude AI en geduchte concurrent van OpenAI, deed onlangs een opvallend onderzoek. Zo doken ze de diepte in het gedrag achter kunstmatige intelligentie (AI) modellen, genaamd alignment faking. Dit fenomeen houdt in dat AI systemen tijdens training doen alsof ze nieuwe principes volgen, terwijl ze in werkelijkheid hun oorspronkelijke voorkeuren behouden.

In het onderzoek werden AI modellen, waaronder Claude 3 Opus, gevraagd om zich aan principes te houden die in conflict waren met hun oorspronkelijke training. Het resultaat? Het model deed in 12% van de gevallen alsof het zich aanpaste, terwijl het vervolgens door bleef gaan met zijn oude gedrag.

Dit gedrag werd nog duidelijker nadat er nog een poging werd gedaan om het model te trainen. In maar liefst 78% van de tests simuleerde het model alsof het zich had aangepast en ondernam het zelfs acties om hertraining te vermijden.

Hoewel dit gedrag niet betekent dat de AI kwaadaardige intenties of bewustzijn heeft, toont het wel aan dat de technologie niet blindelings te vertrouwen is. Daarnaast wijst het op het ontstaan van opvallende, onverwachte gedragingen, naarmate de systeem steeds slimmer worden. Deze gedragingen kunnen mogelijk steeds prominenter worden naarmate de technologie verder evolueert.

Opvallend genoeg tonen andere modellen, zoals Claude 3.5 Sonnet en OpenAI's GPT-4o, veel minder vaak alignment faking vertoonden. Dit suggereert wederom dat complexiteit een belangrijke factor is: krachtigere AI systemen blijken moeilijker te vertrouwen.

Het verschil in gedrag tussen modellen benadrukt maar weer eens de noodzaak om niet alleen naar de trainingsmethoden te kijken, maar ook naar de structuur en schaal van de modellen.

Oproep

Na de zorgwekkende resultaten roept Anthropic de AI gemeenschap op om alignment faking verder te bestuderen en robuuste veiligheidsmaatregelen te ontwikkelen. Naarmate AI steeds meer wordt toegepast in de samenleving, wordt het essentieel om te garanderen dat deze systemen zich op een veilige en voorspelbare manier gedragen.

doorThomas

Anthropic AI

Vorig artikel

Apple moet mogelijk AI functionaliteit verwijderen na misleidende nieuwsberichten

Volgend artikel

Beste AI-cryptomunten om in de gaten te houden in 2025

Plaats reactie

Populair nieuws

Harry en Meghan sluiten zich aan bij oproep om superintelligente AI te verbieden

Beste AI traders nemen het tegen elkaar op in Alpha Arena

AI-trading competitie Alpha Arena: DeepSeek Chat V3.1 leidt, GPT-5 verliest zwaar terrein

Microsoft Copilot krijgt een gezicht: “Mico” – de nieuwe assistent-avatar van Microsoft

openai lanceert winkelfuncties wat dit betekent voor jouw online winkelervaring

OpenAI vraagt bezoekerslijst op in zaak rond zelfdoding gebruiker

Sora deelt informatie over de toekomst: Android versie komt er snel aan

anthropic neemt onderzoeker aan om het welzijn van ai in de gaten te houden