【技术实现步骤摘要】
信息更新方法、路线筛选方法、装置、设备和介质
[0001]本公开的实施例涉及计算机
,具体涉及信息更新方法、路线筛选方法、装置、电子设备和介质。
技术介绍
[0002]目前,自动驾驶汽车可以通过智能化技术有效地提升车辆的安全性、舒适性、高效性和经济性,而自主决策能力则是其智能性的核心体现。其中,针对自动驾驶汽车决策回报函数参数的学习,通常利用传统的逆强化学习(IRL,Inverse Reinforcement Learning)的方式来实现回报函数参数的学习。
[0003]然而,当采用上述方式来学习回报函数的参数,经常会存在如下技术问题:
[0004]由于逆强化学习高度依赖学习最优策略的强化学习(Reinforcement Learning,RL)模块,导致的学习耗时长。除此之外,使用强化学习可能会存在结果随机性的问题。进一步地,增加了运算量,造成计算机资源的浪费,侧面增加了计算机的处理负荷。
技术实现思路
[0005]本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施 ...
【技术保护点】
【技术特征摘要】
1.一种信息更新方法,包括:获取针对目标车辆的至少一个初始车辆状态信息;根据所述至少一个初始车辆状态信息和预先选取的候选车辆待行驶策略集,生成至少一条候选车辆待行驶路线;从所述至少一条候选车辆待行驶路线中筛选出满足预设条件的候选车辆待行驶路线,作为第一目标候选车辆待行驶路线,得到至少一条第一目标候选车辆待行驶路线;根据所述至少一条第一目标候选车辆待行驶路线和至少一条预设车辆待行驶路线,对目标回报函数中的参数信息进行更新,其中,所述目标回报函数是用于确定车辆路线的函数。2.根据权利要求1所述的方法,其中,所述根据所述至少一个初始车辆状态信息和预先选取的候选车辆待行驶策略集,生成至少一条候选车辆待行驶路线,包括:根据预先设置的动作空间,对所述候选车辆待行驶策略集进行扩充,得到扩充后的候选车辆待行驶策略集,其中,所述动作空间包括所述目标车辆的各个待行驶指标的组合信息;根据所述扩充后的候选车辆待行驶策略集和所述至少一个初始车辆状态信息,生成所述至少一条候选车辆待行驶路线。3.根据权利要求1所述的方法,其中,所述从所述至少一条候选车辆待行驶路线中筛选出满足预设条件的候选车辆待行驶路线,作为第一目标候选车辆待行驶路线,得到至少一条第一目标候选车辆待行驶路线,包括:根据所述目标回报函数的初始参数,确定所述至少一条候选车辆待行驶路线中每个候选车辆待行驶路线对应的概率信息,得到概率信息集;从所述至少一条候选车辆待行驶路线中筛选出概率信息满足目标条件的候选车辆待行驶路线,作为第一目标候选车辆待行驶路线,得到所述至少一条第一目标候选车辆待行驶路线。4.根据权利要求1所述的方法,其中,所述根据所述至少一条第一目标候选车辆待行驶路线和至少一条预设车辆待行驶路线,对目标回报函数中的参数信息进行更新,包括:生成所述至少一条第一目标候选车辆待行驶路线对应的第一路线特征信息集组和所述至少一条预设车辆待行驶路线对应的第二路线特征信息集组;根据所述第一路线特征信息集组和所述第二路线特征信息集组,对所述目标回报函数中的参数信息进行更新。5.根据权利要求1所述的方法,其中,所述方法还包括:根据所述目标回报函数更新后的参数信息,从所述至少一条候选车辆待行驶路线中筛选出满足所述预设条件的候选车辆待行驶路线,作为第二目标候选车辆待行驶路线,得到至少一条第二目标候选车辆待行驶路线;根据所述至少一条第二目标候选车辆待行驶路线和所述至少一条预设车辆待行驶路线,确定第二差值;响应于确定所述第二差值小于或等于目标阈值,将所述目标回报函数更新后的参数信息确定为所述目标回报函数训练后的参数信息。6.根据权利要求4所述的方法,其中,所述根据所述第一路线特征信息集组和所述第二
路线特征信息集组,对所述目标回报函数中的参数信息进行更新,包括:将所述第一路线特征信息集组中的每个第一路线特征信息集输入至第一目标函数,以生成第一数值,得到第一数值集;对所述第一数值集中的各个第一数值进行加权平均处理,得到第一加权数值;将所述第二路线特征信息集组中的每个第...
【专利技术属性】
技术研发人员:徐鑫,
申请(专利权)人:京东鲲鹏江苏科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。