使用分布式优先化回放的强化学习制造技术

技术编号：40003181 阅读：19 留言：0更新日期：2024-01-09 04:14

方法、系统和装置，包括编码在计算机存储介质上的计算机程序，用于训练动作选择神经网络，该动作选择神经网络用于选择要由与环境交互的智能体执行的动作。该系统之一包括(i)多个行动者计算单元，其中每个行动者计算单元被配置为维护动作选择神经网络的相应副本并执行多个行动者操作，以及(ii)一个多个学习者计算单元，其中一个或多个学习者计算单元中的每一个被配置为执行多个学习者操作。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及强化学习。

技术介绍

1、在强化学习系统中，智能体(agent)通过执行由强化学习系统响应于接收表征环境的当前状态的观察选择的动作来与环境交互。

2、一些强化学习系统根据神经网络的输出选择响应于接收给定观察要由智能体执行的动作。

3、神经网络是采用非线性单元的一个或多个层来为接收的输入预测输出的机器学习模型。一些神经网络是除了输出层之外还包括一个或多个隐藏层的深度神经网络。每个隐藏层的输出被用作到网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应一组参数的当前值从接收的输入生成输出。

技术实现思路

1、本说明书总体描述强化学习系统，其训练神经网络，该神经网络用于选择要由与环境交互的强化学习智能体执行的动作。

2、本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。本说明书中描述的主题涉及用于大规模深度强化学习的训练系统和训练技术，其使智能体能够从比先前使用现有训练技术可获得的训练数据显著更多的训练数据...

【技术保护点】

1.一种用于训练动作选择神经网络的系统，所述动作选择神经网络具有多个网络参数并且用于选择要由与环境交互的智能体执行的动作，所述系统使用一个或多个计算机来实现并且包括：

2.根据权利要求1所述的系统，其中，新经验元组与初始优先级存储在共享存储器中。

3.根据权利要求2所述的系统，还包括一个或多个学习者计算单元，其中，所述一个或多个学习者计算单元中的每个被配置为执行学习者操作，所述学习者操作包括：

4.根据权利要求1所述的系统，其中，所述初始优先级是学习误差的绝对值。

5.根据权利要求1所述的系统，其中，所述行动者单元中的两个或更多个使用不同的...

【技术特征摘要】

2.根据权利要求1所述的系统，其中，新经验元组与初始优先级存储在共享存储器中。

4.根据权利要求1所述的系统，其中，所述初始优先级是学习误差的绝对值。

5.根据权利要求1所述的系统，其中，所述行动者单元中的两个或更多个使用不同的探索策略来选择动作。

6.根据权利要求5所述的系统，其中，所述不同的探索策略是具有不同的ε值的ε-贪婪策略。

7.根据权利要求3所述的系统，其中，所述学习者操作还包括：

8.根据权利要求3所述的系统，其中，所述学习者操作还包括：

9.根据权利要求1所述的系统，其中，所述强化学习技术是n步骤q学习技术或行动者-评价者技术。

10.根据权利要求3所述的系统，其中，所述学习者操作还包括：

11.根据权利要求1所述的系统，其中，获得表征在智能体执行所选择的动作之后的环境实例的转变数据包...

【专利技术属性】
技术研发人员：D·巴登，G·巴特马伦，J·全，D·G·霍根，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人