Google DeepMind onthult Gemma Scope 2, een open en omvangrijke set AI-tools die onderzoekers diepgaand inzicht geeft in het interne gedrag van grote taalmodellen. Met deze release wil het AI-lab de wereldwijde AI-veiligheidsgemeenschap helpen om risico’s zoals jailbreaks, hallucinaties en misleidend gedrag beter te begrijpen en aan te pakken.
Gemma Scope 2 bouwt voort op de eerdere Gemma Scope, maar richt zich nu op alle Gemma 3-modellen, variërend van 270 miljoen tot 27 miljard parameters. Daarmee opent Google DeepMind voor het eerst de volledige ‘hersenen’ van zijn nieuwste open modellen voor externe onderzoekers.
Google DeepMind vergroot transparantie van grote taalmodellen
Grote taalmodellen zoals Gemma 3 kunnen indrukwekkend redeneren, maar hun beslissingen blijven vaak een zwarte doos. Wanneer een AI-systeem onverwacht gedrag vertoont, ontbreekt het onderzoekers aan zicht op de exacte oorzaak. Volgens Google DeepMind vormt dat gebrek aan transparantie een direct veiligheidsrisico. Dat
stelt Google.
Met Gemma Scope 2 introduceert het bedrijf daarom een soort microscoop voor AI-modellen. De toolset maakt zichtbaar welke interne representaties en berekeningen een model gebruikt tijdens het genereren van antwoorden. Dat helpt onderzoekers om niet alleen fouten te detecteren, maar ook structurele risico’s te analyseren.
Grootste open interpretability-release ooit
Google DeepMind noemt Gemma Scope 2 de grootste open-source release van interpretability-tools door een AI-lab tot nu toe. De schaal onderstreept dat belang. Voor de ontwikkeling werd ongeveer 110 petabyte aan data opgeslagen en werden in totaal meer dan één biljoen parameters getraind.
Die schaal is cruciaal. Bepaalde ongewenste of juist verrassende gedragingen ontstaan pas in zeer grote modellen. Door nu volledige dekking te bieden tot en met 27 miljard parameters, kunnen onderzoekers zulke zogeheten emergente eigenschappen eindelijk systematisch bestuderen.
Wat maakt Gemma Scope 2 technisch anders?
Net als zijn voorganger combineert Gemma Scope 2 sparse autoencoders (SAE’s) en zogeheten transcoders. Deze technieken vertalen interne activaties van het model naar begrijpelijke concepten. Nieuw is dat deze hulpmiddelen nu op elke laag van elk Gemma 3-model zijn getraind.
Daarnaast introduceert Google DeepMind skip-transcoders en cross-layer transcoders. Die maken het eenvoudiger om meerstapsberekeningen te volgen die verspreid zijn over meerdere lagen van het model. Volgens het team helpt dit bij het analyseren van complexe algoritmen die taalmodellen intern ontwikkelen.
Ook de trainingsmethode is aangescherpt. De onderzoekers gebruiken onder meer de Matryoshka-trainingstechniek, die ervoor zorgt dat SAE’s meer bruikbare concepten herkennen en eerdere tekortkomingen oplossen.
Specifieke focus op chatbot-gedrag en misbruik
Een opvallende toevoeging is de focus op chat-geoptimaliseerde Gemma 3-modellen. Voor deze varianten bevat Gemma Scope 2 speciale tools om gedrag te analyseren dat relevant is voor veiligheid, zoals weigeringen, jailbreaks en de betrouwbaarheid van chain-of-thought-redeneringen.
In demonstraties laat Google zien hoe de tool bijvoorbeeld interne patronen kan blootleggen die wijzen op online oplichting of frauduleuze e-mails. Onderzoekers zien zo niet alleen wat een model zegt, maar ook waarom het die output genereert.
Belang voor AI-veiligheid en toekomstig onderzoek
Met de open release hoopt Google DeepMind dat de AI-veiligheidsgemeenschap sneller vooruitgang boekt. Veel veiligheidsproblemen doen zich pas voor in moderne, grootschalige taalmodellen. Zonder toegang tot interne mechanismen blijven oplossingen vaak symptoombestrijding.
Gemma Scope 2 biedt volgens het bedrijf de basis voor betere audits, robuustere veiligheidsmaatregelen en gerichtere interventies. Denk aan het verminderen van hallucinaties, het tegengaan van vleierij richting gebruikers en het voorkomen van misbruik.
Een interactieve demo van Gemma Scope 2 is beschikbaar via Neuronpedia. Onderzoekers kunnen daarnaast direct aan de slag met modellen, documentatie en een Colab-tutorial.