生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法技术

技术编号：24366112 阅读：84 留言：0更新日期：2020-06-03 04:49

本发明专利技术提供了一种生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法，以及相关设备和系统。一方面，提供了一种训练用于环境中对象的自主操作的神经网络的方法，包括：基于样本数据集生成策略值；基于所述策略值生成近似动作值函数；通过所述近似动作值函数为所述样本数据集中的所有状态以及所有可能动作生成近似策略值集；基于近似策略值计算所述神经网络的训练目标；计算训练误差作为所述训练目标和所述样本数据集中对应的状态动作对的策略值之间的差值；更新所述神经网络的至少一些参数以最小化所述训练误差。

The method of generating training data of training neural network, the method of training neural network and the method of autonomous operation using neural network

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法相关申请案交叉申请本申请要求于2018年1月17日递交的专利技术名称为“生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法”的第15/873,609号美国专利申请案和于2019年1月15日递交的专利技术名称为“生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法”的第16/248,543号美国专利申请案的在先申请优先权，该两在先申请的内容以引入的方式并入本文。
本专利技术涉及神经网络，尤其涉及一种生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法，以及相关设备和系统。
技术介绍
车辆驾驶辅助系统提高了人类驾驶员的意识和安全，而自主驾驶车辆增加了驾驶员的安全和便利。自主停车和自主驾驶是自主驾驶车辆的重要方面。但是，和自主驾驶车辆的其它方面一样，自主停车和自主驾驶等自主操作仍在发展，改进自主停车和自主驾驶是必要的。基于深度强化学习的人工智能(artificialintelligence，简称AI)系统需要大量的数据和训练时间。例如，深度Q学习网络(deepQ-learningnetwork，简称DQN)是基于深度强化学习的AI系统中最常用的算法之一。所述DQN由GoogleDeepMindTM开发，并于2016年在AlphaGo中战胜了人类围棋冠军。但是，所述DQN的学习速度很慢，需要大量数据来学习一个良好的...

【技术保护点】
1.一种系统，其特征在于，包括：/n处理器；/n存储器，耦合至所述处理器，其中，所述存储器存储可执行指令，当所述可执行指令由所述处理器执行时，使得所述处理器执行以下操作：/n接收样本数据集D，即{(s

【技术特征摘要】
【国外来华专利技术】20180117 US 15/873,609;20190115 US 16/248,5431.一种系统，其特征在于，包括：
处理器；
存储器，耦合至所述处理器，其中，所述存储器存储可执行指令，当所述可执行指令由所述处理器执行时，使得所述处理器执行以下操作：
接收样本数据集D，即{(si，ai，si+1，ri)}，其中，si是环境中对象的当前状态，ai是为所述当前状态选择的动作，si+1是所述对象和所述环境的后续状态，ri是在状态si下执行动作ai的奖励值，所述奖励值的值根据奖励函数确定；
将多层神经网络应用于所述样本数据集，其中，所述多层神经网络中每一层包括多个节点，每一层中的每个节点有对应权重，所述神经网络用于：
(i)通过表示为Q函数的动作值函数为所述样本数据集D中的每个状态动作对si，ai生成第一策略值Q(si，ai)集；
(ii)通过所述Q函数为所述样本数据集D中所有元组(si，ai，si+1，ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1，a)集；
(iii)生成表示为Q*函数的近似动作值函数，其中，基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si，ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1，a)集生成所述近似动作值函数；
(iv)通过所述Q*函数为所述神经网络生成训练目标；
(v)计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si，ai)之间的差值；
(vi)更新所述神经网络的至少一些参数以最小化所述训练误差。

2.根据权利要求1所述的系统，其特征在于，针对所述样本数据集D中的每个元组(si，ai，si+1，ri)重复操作(iii)至(vi)。

3.根据权利要求1或2所述的系统，其特征在于，所述神经网络用于通过以下方式生成所述Q*函数：
初始化矩阵A和向量b；
针对所述样本数据集D中的每个元组(si，ai，si+1，ri)：
从所述所有可能动作集中选择使Q(si+1，a)达到最大值的动作a*(a*＝argmaxaQ(si+1，a))；
通过φ(s)和表格动作从所述神经网络的输出层生成向量和
通过以下公式更新所述矩阵A和所述向量b的值：

其中，γ是0到1之间的折扣系数；
根据以下公式计算权重向量ω：
ω＝-A-1b。

4.根据权利要求3所述的系统，其特征在于，所述权重向量ω表示所述神经网络的所述输出层的节点的权重。

5.根据权利要求1至4任一项所述的系统，其特征在于，所述神经网络用于通过以下方式生成所述训练目标：
从所述所有可能动作集中选择使Q(si，a)Tω达到最大值的动作a*
将所述神经网络的所述训练目标设置为

6.根据权利要求1至5任一项所述的系统，其特征在于，通过梯度下降更新所述神经网络的所述至少一些参数，所述梯度下降最小化所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si，ai)之间的均方误差(meansquareerror，简称MSE)。

7.根据权利要求6所述的系统，其特征在于，通过最小均方(leastmeansquare，简称LMS)算法最小化所述MSE。

8.根据权利要求6所述的系统，其特征在于，根据以下公式定义所述MSE：

其中，n是所述样本数据集D中元组的数量，是所述训练目标，Q(si，ai)是所述样本数据集D中对应的状态动作对的策略值，先对所述样本数据集中的状态求和，然后对所有动作求和。

9.根据权利要求1至8任一项所述的系统，其特征在于，通过摄像头、LIDAR和RADAR中的一个或多个感知所述环境中所述对象的所述状态，通过图像、LIDAR测量值和RADAR测量值中的一个或多个描述所述环境中所述对象的所述当前状态。

10.根据权利要求1至9任一项所述的系统，其特征在于，所述动作包括转向单元的转向角、节流单元的节流值和制动单元的制动值中的任意一个或组合。

11.根据权利要求1至10所述的系统，其特征在于，所述对象是车辆、机器人或无人机。

12.一种训练神经网络的方法，其特征在于，包括：
(i)通过表示为Q函数的动作值函数为样本数据集D，即{(si，ai，si+1，ri)}中的每个状态动作对si，ai生成第一策略值Q(si，ai)集，其中，si是环境中对象的当前状态，ai是为所述当前状态选择的动作，si+1是所述对象和所述环境的后续状态，ri是在状态si下执行动作ai的奖励值，所述奖励值的值根据奖励函数确定；
(ii)通过所述Q函数为所述样本数据集D中所有元组(si，ai，si+1，ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1，a)集；
(iii)生成表示为Q*函数的近似动作值函数，其中，基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si，ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1，a)集生成所述近似动作值函数；
(iv)通过所述Q*函数为所述神经网络生成训练目标；
(v)计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si，ai)之间的差值；
(vi)更新所述神经网络的至少一些参数以最小化所述训练误差。

13.根据权利要求12所述的方法，其特征在于，针对所述样本数据集D中的每个元组(si，ai，si+1，ri)重复操作(iii)至(vi)。

14.根据权利要求12或13所述的方法，其特征在于，所述生成Q*函数包括：
初始化矩阵A和向量b；
针对所述样本数据集D中的每个元组...

【专利技术属性】
技术研发人员：姚恒帅，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人