Anthropic, het bedrijf achter Claude AI en geduchte concurrent van OpenAI, deed onlangs een opvallend onderzoek. Zo doken ze de diepte in het gedrag achter kunstmatige intelligentie (AI) modellen, genaamd alignment faking. Dit fenomeen houdt in dat AI systemen tijdens training doen alsof ze nieuwe principes volgen, terwijl ze in werkelijkheid hun oorspronkelijke voorkeuren behouden.
In het onderzoek werden AI modellen, waaronder Claude 3 Opus, gevraagd om zich aan principes te houden die in conflict waren met hun oorspronkelijke training. Het resultaat? Het model deed in 12% van de gevallen alsof het zich aanpaste, terwijl het vervolgens door bleef gaan met zijn oude gedrag.
Dit gedrag werd nog duidelijker nadat er nog een poging werd gedaan om het model te trainen. In maar liefst 78% van de tests simuleerde het model alsof het zich had aangepast en ondernam het zelfs acties om hertraining te vermijden.
Hoewel dit gedrag niet betekent dat de AI kwaadaardige intenties of bewustzijn heeft, toont het wel aan dat de technologie niet blindelings te vertrouwen is. Daarnaast wijst het op het ontstaan van opvallende, onverwachte gedragingen, naarmate de systeem steeds slimmer worden. Deze gedragingen kunnen mogelijk steeds prominenter worden naarmate de technologie verder evolueert.
Opvallend genoeg tonen andere modellen, zoals Claude 3.5 Sonnet en OpenAI's GPT-4o, veel minder vaak alignment faking vertoonden. Dit suggereert wederom dat complexiteit een belangrijke factor is: krachtigere AI systemen blijken moeilijker te vertrouwen.
Het verschil in gedrag tussen modellen benadrukt maar weer eens de noodzaak om niet alleen naar de trainingsmethoden te kijken, maar ook naar de structuur en schaal van de modellen.
Na de zorgwekkende resultaten roept Anthropic de AI gemeenschap op om alignment faking verder te bestuderen en robuuste veiligheidsmaatregelen te ontwikkelen. Naarmate AI steeds meer wordt toegepast in de samenleving, wordt het essentieel om te garanderen dat deze systemen zich op een veilige en voorspelbare manier gedragen.