Processing

Please wait...

Settings

Settings

Goto Application

1. WO2020099672 - CONTROLLING AGENTS USING AMORTIZED Q LEARNING

Publication Number WO/2020/099672
Publication Date 22.05.2020
International Application No. PCT/EP2019/081577
International Filing Date 18.11.2019
IPC
G06N 3/04 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
04Architecture, e.g. interconnection topology
G06N 3/08 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
3Computer systems based on biological models
02using neural network models
08Learning methods
G06N 7/00 2006.01
GPHYSICS
06COMPUTING; CALCULATING OR COUNTING
NCOMPUTER SYSTEMS BASED ON SPECIFIC COMPUTATIONAL MODELS
7Computer systems based on specific mathematical models
Applicants
  • DEEPMIND TECHNOLOGIES LIMITED [GB]/[GB]
Inventors
  • VAN DE WIELE, Tom
  • MNIH, Volodymyr
  • MNIH, Andriy
  • WARDE-FARLEY, David Constantine Patrick
Agents
  • KUNZ, Herbert
Priority Data
62/768,78816.11.2018US
Publication Language English (EN)
Filing Language English (EN)
Designated States
Title
(EN) CONTROLLING AGENTS USING AMORTIZED Q LEARNING
(FR) COMMANDE D'AGENTS À L'AIDE D'UN APPRENTISSAGE Q AMORTI
Abstract
(EN)
Methods, systems, and apparatus, including computer programs encoded on computer storage media, for training a neural network system used to control an agent interacting with an environment. One of the methods includes receiving a current observation; processing the current observation using a proposal neural network to generate a proposal output that defines a proposal probability distribution over a set of possible actions that can be performed by the agent to interact with the environment; sampling (i) one or more actions from the set of possible actions in accordance with the proposal probability distribution and (ii) one or more actions randomly from the set of possible actions; processing the current observation and each sampled action using a Q neural network to generate a Q value; and selecting an action using the Q values generated by the Q neural network.
(FR)
La présente invention concerne des procédés, des systèmes et un appareil, comprenant des programmes informatiques codés sur des supports de stockage informatique, destinés à entraîner un système de réseau neuronal utilisé pour commander un agent interagissant avec un environnement. L'un des procédés consiste à recevoir une observation actuelle; à traiter l'observation actuelle à l'aide d'un réseau neuronal de proposition afin de générer une sortie de proposition qui définit une distribution de probabilité de proposition sur un ensemble d'actions possibles qui peuvent être réalisées par l'agent afin d'interagir avec l'environnement; à échantillonner (i) au moins une action à partir de l'ensemble d'actions à partir de l'ensemble d'actions possibles conformément à la distribution de probabilité de proposition et (ii) au moins une action de manière aléatoire à partir de l'ensemble d'actions possibles; à traiter l'observation actuelle et chaque action échantillonnée à l'aide d'un réseau neuronal Q afin de générer une valeur Q; et à sélectionner une action à l'aide des valeurs Q générées par le réseau neuronal Q.
Latest bibliographic data on file with the International Bureau