AI-bedrijf
Anthropic heeft een vernieuwde constitutie gepubliceerd voor zijn taalmodel
Claude. In dit document beschrijft het bedrijf welke waarden, gedragsprincipes en afwegingen Claude moet hanteren bij het beantwoorden van gebruikersvragen. De constitutie is openbaar beschikbaar gesteld onder een Creative Commons CC0-licentie, waardoor de inhoud vrij herbruikbaar is.
Anthropic publiceerde in mei 2023 al een eerste versie van deze AI-grondwet, maar concludeerde dat die onvoldoende houvast bood in nieuwe of onverwachte situaties. Wanneer instructies niet expliciet genoeg waren, kon het model alsnog antwoorden genereren die niet strookten met de bedoelde veiligheids- of gedragsrichtlijnen. Dat meldde onder meer SiliconANGLE.
Van losse regels naar onderliggende motivatie
De vernieuwde constitutie verschilt fundamenteel van eerdere versies. In plaats van een lijst met afzonderlijke regels bevat het document uitgebreide toelichtingen op waarom bepaald gedrag gewenst of onwenselijk is. Volgens
Anthropic helpt deze context
Claude om richtlijnen beter toe te passen op onbekende taken of nieuwe gebruiksscenario’s.
Het document is opgebouwd rond vier kernuitgangspunten die samen richting geven aan het gedrag van het model. Een belangrijk uitgangspunt is behulpzaamheid:
Claude moet antwoorden afstemmen op de expliciete wensen van gebruikers. Zo zou het model geen code mogen genereren in een andere programmeertaal dan gevraagd.
Daarnaast definieert
Anthropic wat het verstaat onder “breed veilig gedrag”. Daaronder vallen onder meer het respecteren van expliciete verboden van gebruikers, transparantie over besluitvorming en het vermijden van schadelijke of misleidende output. Ook ethische afwegingen en aanvullende, meer specifieke instructies — zoals het voorkomen van jailbreaking en het veilig omgaan met externe tools — maken onderdeel uit van de constitutie.
Directe rol in training en verantwoording
Volgens
Anthropic speelt de constitutie een actieve rol in het trainen van
Claude. Het document maakt deel uit van de trainingsdata en wordt gebruikt om synthetische voorbeelden te genereren, bijvoorbeeld door gesprekken te simuleren waarin de gedragsprincipes van toepassing zijn.
Daarnaast fungeert de constitutie als referentiekader voor klanten en gebruikers. Organisaties die
Claude inzetten kunnen de uitgangspunten gebruiken om te beoordelen of de output van het model hiermee in lijn is en eventuele afwijkingen terugkoppelen aan
Anthropic.
Breder patroon in de AI-sector
De publicatie past in een bredere trend waarbij AI-ontwikkelaars hun normatieve uitgangspunten expliciet vastleggen. Ook OpenAI Group PBC publiceerde eerder een eigen AI-constitutie onder een CC0-licentie, die onderdeel vormt van de trainingsbasis van
GPT-5.
Anthropic benadrukt dat de constitutie geen statisch document is. Naarmate AI-systemen zich verder ontwikkelen en nieuwe toepassingen ontstaan, zal ook het gedragskader worden aangepast. Daarmee positioneert het bedrijf de constitutie als een levend instrument voor transparantie, governance en verantwoord AI-gebruik.