Google is begonnen met de preview van een nieuwe AI-versie: Gemini 2.5 Computer Use. Dit model is ontworpen om te werken binnen webbrowsers, en kan elementen op het scherm klikken, typen, scrollen of formulieren invullen: in essentie “werken” in de interface zoals een mens dat zou doen, volgens
The Verge.
Volgens
Google is dit vooral bedoeld voor scenario’s waar geen API voorhanden is: bijvoorbeeld websites waar je toegang moet via een webinterface. Het model ondersteunt 13 vooraf gedefinieerde acties, zoals “open browser”, “klik”, “slepen” of “typen tekst”.
Hoe werkt Gemini Computer Use?
Gemini 2.5 Computer Use werkt via een iteratief proces: de gebruiker stuurt een opdracht samen met een screenshot van de huidige gebruikersinterface. Het model bepaalt de volgende stap (bijv. klikken of typen) en stuurt die als functie-oproep. Dan wordt de actie uitgevoerd in de browser, met een nieuwe screenshot als terugkoppeling, waarna de cyclus zich herhaalt totdat de taak voltooid is.
In de documentatie legt Google uit dat bij bepaalde acties — zeker risicovolle handelingen — het systeem bevestiging van de gebruiker vereist. Er zijn ingebouwde veiligheidsmechanismen zodat het model niet zomaar alles doet.
Hoewel dit model al taken kan uitvoeren binnen webbrowsers, is het nog niet geoptimaliseerd voor gebruik op het volledige besturingssysteem (zoals Windows- of macOS-apps buiten de browser).
Mogelijke toepassingen en belang
Een voor de hand liggende toepassing is geautomatiseerd testen van webapplicaties — het model kan navigeren door gebruikersinterfaces, formulieren invullen en controleren hoe pagina’s reageren. Dat kan ontwikkelaars tijd besparen.
Daarnaast kan het model diensten automatiseren waarvoor geen directe API bestaat: bijvoorbeeld het invullen van formulieren op websites, het aanpassen van instellingen of het uitvoeren van routinetaken op webplatforms.
In demonstratievideo’s (versneld afgespeeld) laat Google zien hoe het model bijvoorbeeld naar een website navigeert, data verzamelt en taken uitvoert zonder dat de gebruiker handmatig hoeft in te grijpen.
Beperkingen en risico’s
Hoewel de functionaliteit indrukwekkend is, zijn er duidelijke grenzen. Het model werkt enkel binnen browsers — het kan geen applicaties buiten de browser bedienen.
Ook is de betrouwbaarheid niet foutloos: schermelementen kunnen anders gerenderd zijn, websites kunnen dynamisch gedrag vertonen, of beveiligingsmaatregelen kunnen automatisering tegenhouden. Het veiligheidsmechanisme moet voorkomen dat het AI-model ongewenste of gevaarlijke acties onderneemt.
Verder geldt dat bij gevoelige acties (bijv. betalingen, wijzigingen in accounts) bevestiging vereist is. Google waarschuwt dat voor kritieke taken een menselijke check noodzakelijk blijft.
Toegang en beschikbaarheid
Gemini 2.5 Computer Use is beschikbaar als preview via het Gemini-API en voor ontwikkelaars via Google AI Studio en Vertex AI. Voor het publiek zijn er demo’s beschikbaar via platforms zoals Browserbase, zodat je kunt zien hoe het model werkt.
Volgens Google presteert dit model op benchmarks beter dan concurrerende modellen op het gebied van web- en mobiele taken, vooral wat betreft latentie.
Gemini 2.5 Computer Use markeert een stap in de evolutie van AI-agents: modellen die niet alleen begrijpen wat je bedoelt, maar ook zelf visuele interfaces kunnen bedienen. Maar de echte test ligt in de praktijk — hoe robuust het is in de chaos van het web, en hoe veilig het kan opereren. De komende tijd zal duidelijk worden hoe bruikbaar dit model wordt voor dagelijks gebruik.