一种网络训练以及无人驾驶设备的控制方法及装置制造方法及图纸

技术编号:32971533 阅读:13 留言:0更新日期:2022-04-09 11:39
本说明书公开了一种网络训练以及无人驾驶设备的控制方法及装置,涉及无人驾驶领域,获取训练样本,而后,将目标物对应的状态信息与采集设备的状态信息,作为综合状态信息输入到预设的关注度网络中,得到采集设备针对目标物的关注度。针对目标物预设的每个行驶策略,基于综合状态信息,确定针对该行驶策略的评价值,进而确定各行驶策略之间在评价值上的评价值差异程度,并以最小化评价值差异程度与采集设备针对目标物的关注度之间的偏差为优化目标,对关注度网络进行训练,从而,无人驾驶设备在自动行驶时可以结合对每个目标物的关注度,进行行驶策略的选取,这样一来,无人驾驶设备周围存在不确定数目的目标物时,也可以确定出合理的行驶策略。合理的行驶策略。合理的行驶策略。

【技术实现步骤摘要】
一种网络训练以及无人驾驶设备的控制方法及装置


[0001]本说明书涉及无人驾驶领域,尤其涉及一种网络训练以及无人驾驶设备的控制方法及装置。

技术介绍

[0002]在无人驾驶技术中,无人驾驶设备行驶过程中需要按照周围行人、车辆等目标物的状态进行自身的控制,从而保证自身的行驶安全。
[0003]在现有技术中,无人驾驶设备可以通过设定的规则来确定下一步的行驶策略,但是规则需要进行人为设定,很难应对所有的情况,当然,无人驾驶设备还可以通过将周围目标物的状态输入到神经网络中,从而确定下一步的行驶策略,但是通常神经网络的输入维度是固定的,而周围目标物的数量通常不固定,这样一来,也难以对行驶策略进行判断。
[0004]所以,如何在目标物数量不固定的情况下确定出行驶策略,则是一个亟待解决的问题。

技术实现思路

[0005]本说明书提供一种网络训练以及无人驾驶设备的控制方法及装置,以部分的解决现有技术存在的上述问题。
[0006]本说明书采用下述技术方案:
[0007]本说明书提供了一种网络训练的方法,包括:
[0008]获取训练样本,所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息;
[0009]将所述目标物对应的状态信息与所述采集设备的状态信息,作为综合状态信息输入到预设的关注度网络中,得到所述采集设备针对所述目标物的关注度;
[0010]针对所述目标物预设的每个行驶策略,基于所述综合状态信息,确定针对该行驶策略的评价值;
[0011]确定所述各行驶策略之间在评价值上的评价值差异程度,并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标,对所述关注度网络进行训练,训练后的所述关注度网络用于确定针对目标物的关注度,以及用于根据确定出的关注度,对策略网络基于目标物所处状态确定出的各行驶策略的概率进行补偿,以得到无人驾驶设备受目标物影响下的行驶策略。
[0012]可选地,针对所述目标物预设的每个行驶策略,基于所述综合状态信息,确定针对该行驶策略的评价值,具体包括:
[0013]针对每个行驶策略,将所述综合状态信息以及该行驶策略输入到预先训练的评价网络中,确定针对该行驶策略的评价值。
[0014]可选地,训练所述策略网络,具体包括:
[0015]将所述综合状态信息输入到所述策略网络中,得到所述策略网络基于所述采集设
备周围目标物所处状态确定出的各行驶策略对应的概率;
[0016]根据所述各行驶策略对应的概率以及针对所述各行驶策略的评价值,确定评价期望值;
[0017]以最大化所述评价期望值,对所述策略网络进行强化学习训练。
[0018]可选地,所述训练样本中包括:第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、所述第一历史时刻下采集设备选取出的目标行驶策略,所述第一历史时刻下采集设备执行所述目标行驶策略所得到的实际奖励值,所述第二历史时刻为位于所述第一历史时刻之后的时刻;
[0019]训练所述评价网络,具体包括:
[0020]将第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息,作为第一综合状态信息,以及第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息,作为第二综合状态信息;
[0021]将所述第一综合状态信息以及所述目标行驶策略输入到评价网络中,得到所述目标行驶策略对应的评价值;
[0022]根据所述第二综合状态信息,确定所述第二历史时刻对应的评价值;
[0023]根据所述第二历史时刻对应的评价值与所述实际奖励值,确定目标评价值;
[0024]以所述目标行驶策略对应的评价值逼近所述目标评价值为优化目标,对所述评价网络进行强化学习训练。
[0025]可选地,根据所述第二历史时刻对应的评价值与所述实际奖励值,确定目标评价值,具体包括:
[0026]根据所述第二历史时刻对应的评价值、所述实际奖励值以及所述第二历史时刻对应的折扣因子,确定所述目标评价值,其中,针对所述第一历史时刻之后的每个历史时刻,若是所述第一历史时刻距离该历史时刻越远,该历史时刻对应的行驶策略的评价值在该历史时刻对应的折扣因子的作用下,对所述目标评价值的影响越小。
[0027]可选地,根据所述第二综合状态信息,确定所述第二历史时刻对应的评价值,具体包括:
[0028]针对每个行驶策略,将所述第二综合状态信息以及该行驶策略输入到辅助评价网络中,得到所述第二历史时刻下每个行驶策略对应的评价值;
[0029]根据所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,所述辅助评价网络用于辅助所述评价网络进行强化学习训练,所述辅助评价网络与所述评价网络的网络结构相同,所述辅助评价网络在网络强化学习训练过程中的参数调整步长,小于所述评价网络在网络强化学习训练过程中的参数调整步长。
[0030]可选地,根据所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,具体包括:
[0031]将所述第二综合状态信息输入到辅助策略网络中,得到所述第二历史时刻下各行驶策略对应的概率,以及将所述第二综合状态信息输入到辅助关注度网络中,得到所述第二历史时刻下针对所述采集设备周围目标物的关注度;
[0032]根据所述第二历史时刻下各行驶策略对应的概率、所述第二历史时刻下针对所述
采集设备周围目标物的关注度,以及所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,所述辅助策略网络用于辅助所述评价网络进行强化学习训练,所述辅助策略网络与所述策略网络的网络结构相同,所述辅助策略网络在网络强化学习训练过程中的参数调整步长,小于所述策略网络在网络强化学习训练过程中的参数调整步长,所述辅助关注度网络用于辅助所述评价网络进行强化学习训练,所述辅助关注度网络与所述关注度网络的网络结构相同,所述辅助关注度网络在网络强化学习训练过程中的参数调整步长,小于所述关注度网络在网络强化学习训练过程中的参数调整步长。
[0033]可选地,确定所述实际奖励值,具体包括:
[0034]根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后下一时刻的行驶状态,确定所述实际奖励值。
[0035]可选地,根据所述采集设备在所述第一历史时刻下选取出目标行驶策略后的行驶状态,确定所述实际奖励值,具体包括:
[0036]根据所述行驶状态,确定所述采集设备在所述第一历史时刻下选取出目标行驶策略后的速度以及加速度;
[0037]根据所述行驶状态,判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否发生碰撞,得到第一判断结果;
[0038]根据所述行驶状态,判断所述采集设备在所述第一历史时刻下选取出目标行驶策略后是否通过所述采集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络训练的方法,其特征在于,包括:获取训练样本,所述训练样本中包括采集设备的状态信息以及所述采集设备周围目标物的状态信息;将所述目标物对应的状态信息与所述采集设备的状态信息,作为综合状态信息输入到预设的关注度网络中,得到所述采集设备针对所述目标物的关注度;针对所述目标物预设的每个行驶策略,基于所述综合状态信息,确定针对该行驶策略的评价值;确定所述各行驶策略之间在评价值上的评价值差异程度,并以最小化所述评价值差异程度与所述采集设备针对所述目标物的关注度之间的偏差为优化目标,对所述关注度网络进行训练,训练后的所述关注度网络用于确定针对目标物的关注度,以及用于根据确定出的关注度,对策略网络基于目标物所处状态确定的各行驶策略的概率进行补偿,以得到无人驾驶设备受目标物影响下的行驶策略。2.如权利要求1所述的方法,其特征在于,针对所述目标物预设的每个行驶策略,基于所述综合状态信息,确定针对该行驶策略的评价值,具体包括:针对每个行驶策略,将所述综合状态信息以及该行驶策略输入到预先训练的评价网络中,确定针对该行驶策略的评价值。3.如权利要求1所述的方法,其特征在于,训练所述策略网络,具体包括:将所述综合状态信息输入到所述策略网络中,得到所述策略网络基于所述采集设备周围目标物所处状态确定出的各行驶策略对应的概率;根据所述各行驶策略对应的概率以及针对所述各行驶策略的评价值,确定评价期望值;以最大化所述评价期望值,对所述策略网络进行强化学习训练。4.如权利要求2所述的方法,其特征在于,所述训练样本中包括:第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息、所述第一历史时刻下采集设备选取出的目标行驶策略,所述第一历史时刻下采集设备执行所述目标行驶策略所得到的实际奖励值,所述第二历史时刻为位于所述第一历史时刻之后的时刻;训练所述评价网络,具体包括:将第一历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息,作为第一综合状态信息,以及第二历史时刻采集设备的状态信息以及所述采集设备周围目标物的状态信息,作为第二综合状态信息;将所述第一综合状态信息以及所述目标行驶策略输入到评价网络中,得到所述目标行驶策略对应的评价值;根据所述第二综合状态信息,确定所述第二历史时刻对应的评价值;根据所述第二历史时刻对应的评价值与所述实际奖励值,确定目标评价值;以所述目标行驶策略对应的评价值逼近所述目标评价值为优化目标,对所述评价网络进行强化学习训练。5.如权利要求4所述的方法,其特征在于,根据所述第二历史时刻对应的评价值与所述实际奖励值,确定目标评价值,具体包括:
根据所述第二历史时刻对应的评价值、所述实际奖励值以及所述第二历史时刻对应的折扣因子,确定所述目标评价值,其中,针对所述第一历史时刻之后的每个历史时刻,若是所述第一历史时刻距离该历史时刻越远,该历史时刻对应的行驶策略的评价值在该历史时刻对应的折扣因子的作用下,对所述目标评价值的影响越小。6.如权利要求4所述的方法,其特征在于,根据所述第二综合状态信息,确定所述第二历史时刻对应的评价值,具体包括:针对每个行驶策略,将所述第二综合状态信息以及该行驶策略输入到辅助评价网络中,得到所述第二历史时刻下每个行驶策略对应的评价值;根据所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,所述辅助评价网络用于辅助所述评价网络进行强化学习训练,所述辅助评价网络与所述评价网络的网络结构相同,所述辅助评价网络在网络强化学习训练过程中的参数调整步长,小于所述评价网络在网络强化学习训练过程中的参数调整步长。7.如权利要求6所述的方法,其特征在于,根据所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,具体包括:将所述第二综合状态信息输入到辅助策略网络中,得到所述第二历史时刻下各行驶策略对应的概率,以及将所述第二综合状态信息输入到辅助关注度网络中,得到所述第二历史时刻下针对所述采集设备周围目标物的关注度;根据所述第二历史时刻下各行驶策略对应的概率、所述第二历史时刻下针对所述采集设备周围目标物的关注度,以及所述第二历史时刻下每个行驶策略对应的评价值,确定所述第二历史时刻对应的评价值,所述辅助策略网络用于辅助所述评价网络进行强化学习训练,所述辅助策略网络与所述策略网络的网络结构相同,所述辅助策略网络在网络强化学习训练过程中的参数调整步长,...

【专利技术属性】
技术研发人员:熊方舟吴思雷丁曙光张羽周奕达任冬淳
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1