Google’s Gemini 1.5 maakt robots slimmer

vrijdag, 12 juli 2024 om 12:00

Google maakt aanzienlijke vooruitgang in robot navigatie door het gebruik van zijn eigen Large Language Model (LLM), Gemini 1.5 Pro. Het kunstmatige intelligentie (AI) model stelt gebruikers in staat om op een natuurlijke manier te communiceren met robots, waardoor de interactie en taakuitvoering aanzienlijk wordt verbeterd, zoals te zien in een recente Instagram post op het officiële Deep Mind account.

Succesvole tests

Onderzoekers laten de robots wennen aan een nieuwe omgeving door eerst een video tour van een huis of kantoor te filmen. De robots bekijken deze video’s vervolgens om vertrouwd te raken met de omgeving. Hierdoor kunnen ze later opdrachten uitvoeren op basis van wat ze hebben waargenomen. Een praktisch voorbeeld is dat de robot een gebruiker kan begeleiden naar een stopcontact wanneer hem een telefoon wordt getoond met de vraag "waar kan ik deze opladen?". Uit tests bleek dat de robot een indrukwekkend slagingspercentage behaalde van 90% bij meer dan 50 verschillende gebruikersinstructies.

Gemini 1.5 Pro stelt de robots ook in staat om verder te gaan dan enkel navigatie. Ze kunnen door middel van het AI model plannen hoe ze complexe instructies moeten uitvoeren. Wanneer een gebruiker bijvoorbeeld vraagt of er een specifieke frisdrank in de koelkast is, weet de robot dat hij naar de koelkast moet gaan, controleren of de drank aanwezig is, en vervolgens terug moet keren om de gebruiker te informeren.

Ruimte voor verbetering

Ondanks de indrukwekkende demonstraties blijkt uit onderzoek dat de robots 10-30 seconden nodig hebben om instructies te verwerken. Dit suggereert dat het nog enige tijd kan duren voordat dergelijke geavanceerde robots in onze huizen worden geïntroduceerd. DeepMind, de onderzoekstak van Google, is echter vastberaden om verder onderzoek te doen en de capaciteiten van deze robots te blijven verbeteren.

DeepMind versnelt AI training met JEST

De onderzoekers van Google DeepMind timmeren hard aan de weg en kwamen onlangs met een revolutionaire methode om multimodaal leren te versnellen. De techniek, Joint Example Selection (JEST), selecteert data in batches in plaats van individuele voorbeelden, wat leidt tot snellere en efficiëntere modeltraining. JEST kiest batches op basis van gezamenlijke leerbaarheid, waardoor de training tot 13 keer minder iteraties en 10 keer minder rekenkracht vereist dan traditionele methoden.