生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法技术

技术编号:24366112 阅读:84 留言:0更新日期:2020-06-03 04:49
本发明专利技术提供了一种生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法,以及相关设备和系统。一方面,提供了一种训练用于环境中对象的自主操作的神经网络的方法,包括:基于样本数据集生成策略值;基于所述策略值生成近似动作值函数;通过所述近似动作值函数为所述样本数据集中的所有状态以及所有可能动作生成近似策略值集;基于近似策略值计算所述神经网络的训练目标;计算训练误差作为所述训练目标和所述样本数据集中对应的状态动作对的策略值之间的差值;更新所述神经网络的至少一些参数以最小化所述训练误差。

The method of generating training data of training neural network, the method of training neural network and the method of autonomous operation using neural network

【技术实现步骤摘要】
【国外来华专利技术】生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法相关申请案交叉申请本申请要求于2018年1月17日递交的专利技术名称为“生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法”的第15/873,609号美国专利申请案和于2019年1月15日递交的专利技术名称为“生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法”的第16/248,543号美国专利申请案的在先申请优先权,该两在先申请的内容以引入的方式并入本文。
本专利技术涉及神经网络,尤其涉及一种生成训练神经网络的训练数据的方法、训练神经网络的方法和利用神经网络进行自主操作的方法,以及相关设备和系统。
技术介绍
车辆驾驶辅助系统提高了人类驾驶员的意识和安全,而自主驾驶车辆增加了驾驶员的安全和便利。自主停车和自主驾驶是自主驾驶车辆的重要方面。但是,和自主驾驶车辆的其它方面一样,自主停车和自主驾驶等自主操作仍在发展,改进自主停车和自主驾驶是必要的。基于深度强化学习的人工智能(artificialintelligence,简称AI)系统需要大量的数据和训练时间。例如,深度Q学习网络(deepQ-learningnetwork,简称DQN)是基于深度强化学习的AI系统中最常用的算法之一。所述DQN由GoogleDeepMindTM开发,并于2016年在AlphaGo中战胜了人类围棋冠军。但是,所述DQN的学习速度很慢,需要大量数据来学习一个良好的策略。在深度强化学习中,策略是在给定状态下选择动作的规则。所述策略可以定义为一组状态到一组动作的映射。所述DQN还需要大量的训练时间和计算才能收敛。DeepMind的研究显示,即使对于很简单的比赛,所述DQN需要数百万个训练样本来学习一个很简单的策略。原因在于所述DQN就像随机梯度更新,所述DQN计算出的目标在训练迭代过程中变化太快。所述DQN也不能保证收敛,输出策略可能很差。对于基于AI的车辆驾驶辅助和车辆自动化,需要改进神经网络和训练方法。
技术实现思路
本文提供了一种基于深度强化的学习方法,该方法可以用于高级驾驶辅助系统(advanceddriver-assistancesystem,简称ADAS)或自主无人驾驶车辆,以及其它潜在应用。一方面,本专利技术提供了一种在共享过程中定位停车点和停车的方法。现有的停车辅助系统需要两个单独的过程:识别停车点和停车。通常的做法是利用计算机视觉技术基于停车标志识别停车点,执行启发式的基于规则的计算机程序来将车辆停放和移动到目标停车点。这种做法的局限性在于,固定的基于规则的停车性能差,通常需要人类驾驶员将车辆靠近停车点停放,以使车辆控制系统更容易执行停车过程。本专利技术的方法可以用于各种停车场景(例如前进、后退和并行等),可以同时定位停车点和停车。还应想到,本专利技术的方法可以用于自主驾驶。根据本专利技术的一方面,提供了一种训练用于环境中对象的自主操作的神经网络的方法,包括:基于样本数据集生成策略值;基于所述策略值生成近似动作值函数;通过所述近似动作值函数为所述样本数据集中的所有状态以及所有可能动作生成近似策略值集;基于近似策略值计算所述神经网络的训练目标;计算训练误差作为所述训练目标和所述样本数据集中对应的状态动作对的策略值之间的差值;更新所述神经网络的至少一些参数以最小化所述训练误差。根据本专利技术的另一方面,提供了一种训练用于环境中对象的自主操作的神经网络的方法,包括:所述神经网络接收样本数据集D,即{(si,ai,si+1,ri)},其中,si是环境中对象的当前状态,ai是为所述当前状态选择的动作,si+1是所述对象和所述环境的后续状态,ri是在状态si下执行动作ai的奖励值,所述奖励值的值根据奖励函数确定;通过表示为Q函数的动作值函数为所述样本数据集D,即{(si,ai,si+1,ri)},中的每个状态动作对si,ai生成第一策略值Q(si,ai)集;通过所述Q函数为所述样本数据集D中所有元组(si,ai,si+1,ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1,a)集;生成表示为Q*函数的近似动作值函数,其中,基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si,ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1,a)集生成所述近似动作值函数;通过所述Q*函数为所述神经网络生成训练目标;计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si,ai)之间的差值;更新所述神经网络的至少一些参数以最小化所述训练误差。根据本专利技术的又一方面,提供了一种系统,包括:处理器和存储器,所述存储器耦合至所述处理器,并存储可执行指令。当所述可执行指令由所述处理器执行时,使得所述处理器接收样本数据集D,即{(si,ai,si+1,ri)},其中,si是环境中对象的当前状态,ai是为所述当前状态选择的动作,si+1是所述对象和所述环境的后续状态,ri是在状态si下执行动作ai的奖励值,所述奖励值的值根据奖励函数确定。当所述可执行指令由所述处理器执行时,使得所述处理器将多层神经网络应用于所述样本数据集,其中,所述多层神经网络中的每一层包括多个节点,每一层中的每个节点有对应权重,以执行下文所述的操作:通过表示为Q函数的动作值函数为所述样本数据集D,即{(si,ai,si+1,ri)},中的每个状态动作对si,ai生成第一策略值Q(si,ai)集;通过所述Q函数为所述样本数据集D中所有元组(si,ai,si+1,ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1,a)集;生成表示为Q*函数的近似动作值函数,其中,基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si,ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1,a)集生成所述近似动作值函数;通过所述Q*函数为所述神经网络生成训练目标;计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si,ai)之间的差值;更新所述神经网络的至少一些参数以最小化所述训练误差。根据本专利技术的又一方面,提供了一种车辆控制系统。所述车辆控制系统包括多个传感器,用于感知对象的当前状态和所述对象位于的环境。所述车辆控制系统还包括多层神经网络,所述多层神经网络耦合至所述多个传感器。所述多层神经网络中的每一层包括多个节点,每一层中的每个节点有对应权重。所述神经网络用于根据从所述多个传感器接收到的传感器数据,对表示所述环境中车辆的当前状态进行编码。所述神经网络用于:接收多个可能的动作;基于所述多个可能动作中每个可能动作的当前状态,确定所述环境中所述车辆的预测后续状态;针对所述多个可能动作中的每个动作,通过根据策略值函数、所述预测后续状态和所述多个可能动作中的所述动作确定策略值,对所述预测后续状态进行评估;从确定的所述多个可能动作中选择动作,以生本文档来自技高网
...

【技术保护点】
1.一种系统,其特征在于,包括:/n处理器;/n存储器,耦合至所述处理器,其中,所述存储器存储可执行指令,当所述可执行指令由所述处理器执行时,使得所述处理器执行以下操作:/n接收样本数据集D,即{(s

【技术特征摘要】
【国外来华专利技术】20180117 US 15/873,609;20190115 US 16/248,5431.一种系统,其特征在于,包括:
处理器;
存储器,耦合至所述处理器,其中,所述存储器存储可执行指令,当所述可执行指令由所述处理器执行时,使得所述处理器执行以下操作:
接收样本数据集D,即{(si,ai,si+1,ri)},其中,si是环境中对象的当前状态,ai是为所述当前状态选择的动作,si+1是所述对象和所述环境的后续状态,ri是在状态si下执行动作ai的奖励值,所述奖励值的值根据奖励函数确定;
将多层神经网络应用于所述样本数据集,其中,所述多层神经网络中每一层包括多个节点,每一层中的每个节点有对应权重,所述神经网络用于:
(i)通过表示为Q函数的动作值函数为所述样本数据集D中的每个状态动作对si,ai生成第一策略值Q(si,ai)集;
(ii)通过所述Q函数为所述样本数据集D中所有元组(si,ai,si+1,ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1,a)集;
(iii)生成表示为Q*函数的近似动作值函数,其中,基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si,ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1,a)集生成所述近似动作值函数;
(iv)通过所述Q*函数为所述神经网络生成训练目标;
(v)计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si,ai)之间的差值;
(vi)更新所述神经网络的至少一些参数以最小化所述训练误差。


2.根据权利要求1所述的系统,其特征在于,针对所述样本数据集D中的每个元组(si,ai,si+1,ri)重复操作(iii)至(vi)。


3.根据权利要求1或2所述的系统,其特征在于,所述神经网络用于通过以下方式生成所述Q*函数:
初始化矩阵A和向量b;
针对所述样本数据集D中的每个元组(si,ai,si+1,ri):
从所述所有可能动作集中选择使Q(si+1,a)达到最大值的动作a*(a*=argmaxaQ(si+1,a));
通过φ(s)和表格动作从所述神经网络的输出层生成向量和
通过以下公式更新所述矩阵A和所述向量b的值:






其中,γ是0到1之间的折扣系数;
根据以下公式计算权重向量ω:
ω=-A-1b。


4.根据权利要求3所述的系统,其特征在于,所述权重向量ω表示所述神经网络的所述输出层的节点的权重。


5.根据权利要求1至4任一项所述的系统,其特征在于,所述神经网络用于通过以下方式生成所述训练目标:
从所述所有可能动作集中选择使Q(si,a)Tω达到最大值的动作a*
将所述神经网络的所述训练目标设置为


6.根据权利要求1至5任一项所述的系统,其特征在于,通过梯度下降更新所述神经网络的所述至少一些参数,所述梯度下降最小化所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si,ai)之间的均方误差(meansquareerror,简称MSE)。


7.根据权利要求6所述的系统,其特征在于,通过最小均方(leastmeansquare,简称LMS)算法最小化所述MSE。


8.根据权利要求6所述的系统,其特征在于,根据以下公式定义所述MSE:



其中,n是所述样本数据集D中元组的数量,是所述训练目标,Q(si,ai)是所述样本数据集D中对应的状态动作对的策略值,先对所述样本数据集中的状态求和,然后对所有动作求和。


9.根据权利要求1至8任一项所述的系统,其特征在于,通过摄像头、LIDAR和RADAR中的一个或多个感知所述环境中所述对象的所述状态,通过图像、LIDAR测量值和RADAR测量值中的一个或多个描述所述环境中所述对象的所述当前状态。


10.根据权利要求1至9任一项所述的系统,其特征在于,所述动作包括转向单元的转向角、节流单元的节流值和制动单元的制动值中的任意一个或组合。


11.根据权利要求1至10所述的系统,其特征在于,所述对象是车辆、机器人或无人机。


12.一种训练神经网络的方法,其特征在于,包括:
(i)通过表示为Q函数的动作值函数为样本数据集D,即{(si,ai,si+1,ri)}中的每个状态动作对si,ai生成第一策略值Q(si,ai)集,其中,si是环境中对象的当前状态,ai是为所述当前状态选择的动作,si+1是所述对象和所述环境的后续状态,ri是在状态si下执行动作ai的奖励值,所述奖励值的值根据奖励函数确定;
(ii)通过所述Q函数为所述样本数据集D中所有元组(si,ai,si+1,ri)的每个后续状态si+1和所有可能动作集中的每个动作生成第二策略值Q(si+1,a)集;
(iii)生成表示为Q*函数的近似动作值函数,其中,基于所述当前状态si和为所述当前状态si选择的所述动作ai的所述第一策略值Q(si,ai)集以及所选动作ai之后的所述后续状态si+1的所述第二策略值Q(si+1,a)集生成所述近似动作值函数;
(iv)通过所述Q*函数为所述神经网络生成训练目标;
(v)计算训练误差作为所述训练目标和所述样本数据集D中对应的状态动作对的策略值Q(si,ai)之间的差值;
(vi)更新所述神经网络的至少一些参数以最小化所述训练误差。


13.根据权利要求12所述的方法,其特征在于,针对所述样本数据集D中的每个元组(si,ai,si+1,ri)重复操作(iii)至(vi)。


14.根据权利要求12或13所述的方法,其特征在于,所述生成Q*函数包括:
初始化矩阵A和向量b;
针对所述样本数据集D中的每个元组...

【专利技术属性】
技术研发人员:姚恒帅
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1