【技术实现步骤摘要】
匝道汇入策略学习方法、装置、电子设备和存储介质
[0001]本公开涉及自动驾驶
,尤其涉及一种匝道汇入策略学习方法、装置、电子设备和计算机可读存储介质。
技术介绍
[0002]能够有效提升驾驶性能的汽车智能化技术成为了近年来汽车行业的主要发展趋势,而自主决策是智能化技术中的核心技术之一。
[0003]由于匝道是道路的重要组成部分,为了实现结构化道路的自动驾驶,需要实现匝道和主道之间的自主换道,而由于匝道汇入场景具有动态性、随机性与博弈性,使匝道汇入成为了车辆事故高发路段之一,而智能汽车自主汇入决策是实现结构化自主换道自动驾驶的关键技术,在动态环境中的汇入成功率和安全性是自主决策的主要难点。
[0004]相关技术中,将强化学习算法应用于换道以及从匝道汇入高速公路场景中的上层行为决策之中,具有超越人类驾驶员水平的潜力,是解决复杂决策问题的有效方法,由于该方案存在探索试错学习与状态安全问题的矛盾,导致在应用于从匝道汇入高速公路的场景时存在安全性不高的缺陷。
[0005]需要说明的是,在上述
技术介绍
部分 ...
【技术保护点】
【技术特征摘要】
1.一种匝道汇入策略学习方法,其特征在于,包括:在训练环境配置累计期望回报,所述累计期望回报用于表示连续执行汇入策略以完成匝道汇入过程的期望回报的累计值;基于所述累计期望回报构建策略评估模型与策略改进模型,所述策略评估模型用于评估从指定行驶状态起遵循所述汇入策略得到的第一期望回报,所述策略改进模型用于评估采用指定行驶动作得到的第二期望回报,所述指定行驶动作指在所述指定行驶状态基于所述汇入策略所选择的行驶动作;以优化所述累计期望回报为策略优化目标,对所述策略评估模型与策略改进模型进行交替迭代学习,基于交替迭代学习的结果,得到待修正汇入策略,所述待修正汇入策略用于输出匝道汇入时的分布行驶动作;在应用环境,基于安全护盾模型对所述分布行驶动作进行避撞修正操作,生成修正后的目标汇入策略,以使车辆基于所述目标汇入策略执行匝道汇入操作。2.根据权利要求1所述的匝道汇入策略学习方法,其特征在于,所述在训练环境配置累计期望回报包括:获取用于安全状态评估的即时回报模型和汇入策略的策略熵模型,所述即时回报模型用于评估执行所述汇入策略进入对应行驶状态时的安全性,所述策略熵模型用于衡量所述汇入策略的不确定性;基于所述即时回报模型和所述策略熵模型配置所述累计期望回报。3.根据权利要求2所述的匝道汇入策略学习方法,其特征在于,所述以优化所述累计期望回报为策略优化目标,对所述策略评估模型与策略改进模型进行交替迭代学习包括:获取所述策略改进模型和策略评估模型之间的第一关联关系;基于所述第一关联关系,并以最大化所述累计期望回报为所述策略优化目标,对所述策略评估模型与策略改进模型执行交替迭代学习。4.根据权利要求3所述的匝道汇入策略学习方法,其特征在于,所述基于所述第一关联关系,并以最大化所述累计期望回报为所述策略优化目标,对所述策略评估模型与策略改进模型执行交替迭代学习包括:基于所述第一关联关系配置对应的动态规划方程,所述动态规划方程用于表达相邻两个行驶状态之间的期望回报之间的关系;基于所述动态规划方程,交替计算所述策略评估模型输出的策略评估结果和所述策略改进模型的输出的改进策略,其中,所述改进策略适于使所述分布行驶动作在初始下对应的所述策略评估结果最大化。5.根据权利要求4所述的匝道汇入策略学习方法,其特征在于,所述累计期望回报中配置有温度系数,所述温度系数适于自适应调节控制随机策略收敛到确定性策略的速度,基于所述动态规划方程,交替计算所述策略评估模型输出的策略评估结果和所述策略改进模型的输出的改进策略,还包括:所述改进策略由所述随机策略收敛到所述确定性策略,将所述确定性策略确定为所述待修正汇入策略。6.根据权利要求4所述的匝道汇入策略学习方法,其特征在于,在基于所述动态规划方程,交替计算所述策略评估模型输出的策略评估结果和所述策略改进模型的输出的改进策
略之前,还包括:自所述指定驾驶状态起,采用所述汇入策略与部署的驾驶环境进行交互,生成包括所述行驶状态、所述行驶动作和立即回馈的序列,以基于所述序列确定所述立即回馈的折扣累计回报;确定所述折扣累计回报和所述策略改进模型之间的第二关联关系;基于所述第二关联关系对所述折扣累计回报的分布进行建模,得到策略改进分布模型,所述策略改进分布模型适于优化所述策略评估结果;基于所述策略改进分布模型配置所述动态规划方程,以基于所述动态规划方程,交替计算所述策略评估结果和所述改进策略。7.根据权利要求6所述的匝道汇入策略学习方法,其特征在于,所述交替计算所述策略评估结果和所述改进策略包括:对所述改进策略进行参数化处理,得到参数化策略;对所述策略改进模型和所述策略评估模型进行参数化处理,得到参数化模型;基于对所述参数化策略和所述参数化模型中的参数更新,交替更新所述第一期望回报和所述第二期望回报,以输出所述待修正汇入策略。8.根据权利要求7所述的匝道汇入策略学习方法,其特征在于,所述对所述改进策略进行参数化处理,得到参数化策略包括:采用均值和方差对所述汇入策略进行参数化处理,得到包括策略参数的所述...
【专利技术属性】
技术研发人员:徐鑫,
申请(专利权)人:京东鲲鹏江苏科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。