Ceci est une traduction en français réalisée par @Signez pour la revue de presse de lundi.dev.

Consultez l’article dans sa version originale en anglais sur deepmind.com.

Paper
Papier
Un agent généraliste
Abstract

Inspirés par les progrès réalisés dans la modélisation du langage à grande échelle, nous appliquons une approche similaire pour construire un agent généraliste unique au-delà du domaine de la génération de textes. L'agent, que nous appelons Gato, fonctionne comme une méthode généraliste multimodale, multitâche et multi-incarnation. Le même réseau avec les mêmes poids peut jouer à Atari, légender des images, chatter, empiler des blocs avec un vrai bras de robot et bien plus encore, en décidant en fonction de son contexte s'il faut produire du texte, des couples articulaires, des pressions sur des boutons ou d'autres jetons. Dans ce rapport, nous décrivons le modèle et les données, et nous documentons les capacités actuelles de Gato.

Notes des auteurs

Inspirés par les progrès réalisés dans la modélisation du langage à grande échelle, nous appliquons une approche similaire pour construire un agent généraliste unique au-delà du domaine de la génération de textes. L'agent, que nous appelons Gato, fonctionne comme une méthode généraliste multimodale, multitâche et multi-incarnation. Le même réseau avec les mêmes poids peut jouer à Atari, légender des images, chatter, empiler des blocs avec un vrai bras de robot et bien plus encore, en décidant en fonction de son contexte s'il faut produire du texte, des couples articulaires, des pressions sur des boutons ou d'autres jetons.

Pendant la phase de formation de Gato, les données provenant de différentes tâches et modalités sont sérialisées en une séquence plate de tokens, mises en lots et traitées par un réseau neuronal transformateur similaire à un grand modèle de langage. La perte est masquée de sorte que Gato ne prédit que les cibles d'action et de texte.

Lors du déploiement de Gato, une requête, telle qu'une démonstration, est tokenisée, formant ainsi la séquence initiale. Ensuite, l'environnement donne lieu à la première observation, qui est également transcrite en token et ajoutée à la séquence. Gato échantillonne le vecteur d'action de manière autorégressive, un token à la fois.

Une fois que tous les tokens composant le vecteur d'action ont été échantillonnés (déterminé par la spécification d'action de l'environnement), l'action est décodée et envoyée à l'environnement qui fait un pas et produit une nouvelle observation. Puis la procédure se répète. Le modèle voit toujours toutes les observations et actions précédentes dans sa fenêtre de contexte de 1024 tokens.

Gato est entraîné sur un grand nombre de jeux de données comprenant l'expérience de l'agent dans des environnements simulés et réels, en plus d'une variété de jeux de données en langage naturel et en images. Le nombre de tâches pour lesquelles les performances du modèle Gato pré-entraîné sont supérieures à un pourcentage du score des experts, regroupées par domaine, est indiqué ici.

Les images suivantes montrent également comment le modèle Gato pré-entraîné avec les mêmes poids peut faire du sous-titrage d'images, participer à un dialogue interactif et contrôler un bras de robot, parmi de nombreuses autres tâches.