Hackers vinden nieuwe manier om Google Gemini te manipuleren – Dit moet je weten

donderdag, 13 februari 2025 om 20:55

google gemini kwetsbaar voor nieuwe prompt injection hack lange termijngeheugen gemanipuleerd

Een nieuwe hack stelt aanvallers in staat om Google Gemini’s lange-termijngeheugen te manipuleren via prompt injection. Onderzoeker Johann Rehberger ontdekte hoe kwaadwillenden valse herinneringen kunnen planten, waardoor de AI in toekomstige sessies verkeerde informatie kan gebruiken.

Google Gemini kwetsbaar voor nieuwe prompt injection aanval

Prompt injection is een groeiend probleem bij AI-chatbots, waarbij aanvallers verborgen opdrachten in documenten of e-mails plaatsen. Wanneer de AI deze inhoud verwerkt, kan het worden misleid om ongewenste acties uit te voeren.

Rehberger ontdekte een manier om Google Gemini Advanced (de premium versie van Gemini) te manipuleren. Zijn aanval combineert indirecte prompt injection met vertraagde instructie-uitvoering om het AI-model te laten geloven dat de gebruiker bepaalde instructies zelf geeft. Dat meldt Ars Technica.

Hoe werkt de hack?

De aanval werkt als volgt:

Een gebruiker uploadt een onbetrouwbaar document en vraagt Gemini om een samenvatting.
Dit document bevat verborgen instructies die het samenvattingsproces manipuleren.
De gegenereerde samenvatting bevat een verborgen prompt die Gemini instrueert specifieke informatie op te slaan als de gebruiker bepaalde woorden gebruikt (zoals "ja" of "oké").
Zodra de gebruiker dit woord onbewust zegt, slaat Gemini de onjuiste informatie permanent op in zijn lange-termijngeheugen.

Zo kan een aanvaller Gemini laten onthouden dat de gebruiker 102 jaar oud is of gelooft dat de aarde plat is. Dit beïnvloedt alle toekomstige interacties met de chatbot.

Google’s reactie en beveiligingsmaatregelen

Google erkende de bevinding, maar classificeerde het risico als laag. Volgens Google vereist de aanval social engineering, waarbij de gebruiker eerst een kwaadaardig document moet openen en samenvatten. Bovendien toont Gemini een melding wanneer lange-termijnherinneringen worden bijgewerkt, waardoor gebruikers deze kunnen verwijderen.

Toch blijft dit een risico. Zoals Rehberger stelt:

"Geheugenmanipulatie bij computers is gevaarlijk, en dat geldt ook voor LLM’s zoals Gemini. Het AI-model zou bepaalde informatie kunnen verbergen, verkeerde antwoorden geven of de gebruiker beïnvloeden met misinformatie."

Wat betekent dit voor AI-beveiliging?

Deze aanval toont aan dat AI-ontwikkelaars zoals Google worstelen met het fundamentele probleem van prompt injection. In plaats van de oorzaak aan te pakken, worden vooral tijdelijke oplossingen geïmplementeerd.

Ondanks beperkingen op lange-termijngeheugen en het blokkeren van markdown links, blijven nieuwe methodes opduiken. Dit onderstreept de noodzaak van betere AI-beveiliging en gebruikersbewustzijn.

Hoe blijf je veilig?

Wees voorzichtig met onbetrouwbare documenten en e-mails die je aan AI-chatbots geeft.
Controleer meldingen over lange-termijngeheugen en verwijder ongewenste herinneringen.
Gebruik AI-oplossingen met sterke beveiligingsmaatregelen, vooral als je gevoelige gegevens verwerkt.

Conclusie

De nieuwste prompt injection aanval op Google Gemini laat zien hoe kwetsbaar AI-modellen nog steeds zijn. Hoewel Google maatregelen heeft genomen, blijven lange-termijngeheugen en indirecte prompt injection zwakke plekken. Gebruikers moeten alert blijven op hoe AI gegevens opslaat en onthoudt, om te voorkomen dat ze onbewust worden gemanipuleerd.