Een nieuwe hack stelt aanvallers in staat om Google Gemini’s lange-termijngeheugen te manipuleren via prompt injection. Onderzoeker Johann Rehberger ontdekte hoe kwaadwillenden valse herinneringen kunnen planten, waardoor de AI in toekomstige sessies verkeerde informatie kan gebruiken.
Prompt injection is een groeiend probleem bij AI-chatbots, waarbij aanvallers verborgen opdrachten in documenten of e-mails plaatsen. Wanneer de AI deze inhoud verwerkt, kan het worden misleid om ongewenste acties uit te voeren.
Rehberger ontdekte een manier om Google Gemini Advanced (de premium versie van Gemini) te manipuleren. Zijn aanval combineert indirecte prompt injection met vertraagde instructie-uitvoering om het AI-model te laten geloven dat de gebruiker bepaalde instructies zelf geeft. Dat meldt Ars Technica.
De aanval werkt als volgt:
Zo kan een aanvaller Gemini laten onthouden dat de gebruiker 102 jaar oud is of gelooft dat de aarde plat is. Dit beïnvloedt alle toekomstige interacties met de chatbot.
Google erkende de bevinding, maar classificeerde het risico als laag. Volgens Google vereist de aanval social engineering, waarbij de gebruiker eerst een kwaadaardig document moet openen en samenvatten. Bovendien toont Gemini een melding wanneer lange-termijnherinneringen worden bijgewerkt, waardoor gebruikers deze kunnen verwijderen.
Toch blijft dit een risico. Zoals Rehberger stelt:
"Geheugenmanipulatie bij computers is gevaarlijk, en dat geldt ook voor LLM’s zoals Gemini. Het AI-model zou bepaalde informatie kunnen verbergen, verkeerde antwoorden geven of de gebruiker beïnvloeden met misinformatie."
Deze aanval toont aan dat AI-ontwikkelaars zoals Google worstelen met het fundamentele probleem van prompt injection. In plaats van de oorzaak aan te pakken, worden vooral tijdelijke oplossingen geïmplementeerd.
Ondanks beperkingen op lange-termijngeheugen en het blokkeren van markdown links, blijven nieuwe methodes opduiken. Dit onderstreept de noodzaak van betere AI-beveiliging en gebruikersbewustzijn.
De nieuwste prompt injection aanval op Google Gemini laat zien hoe kwetsbaar AI-modellen nog steeds zijn. Hoewel Google maatregelen heeft genomen, blijven lange-termijngeheugen en indirecte prompt injection zwakke plekken. Gebruikers moeten alert blijven op hoe AI gegevens opslaat en onthoudt, om te voorkomen dat ze onbewust worden gemanipuleerd.