System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 车辆行驶轨迹的规划方法、装置、车辆及存储介质制造方法及图纸_技高网

车辆行驶轨迹的规划方法、装置、车辆及存储介质制造方法及图纸

技术编号:40513751 阅读:8 留言:0更新日期:2024-03-01 13:30
本发明专利技术涉及车辆技术领域,特别涉及一种车辆行驶轨迹的规划方法、装置、车辆及存储介质,其中,方法包括:获取车辆的环境感知信息;提取环境感知信息中当前驾驶环境下的环境特征状态;将环境特征状态输入预先建立的神经网络模型,神经网络模型输出车辆在当前驾驶环境下的规划行驶轨迹,其中,神经网络模型基于携带有环境特征状态的训练样本训练得到。由此,解决了相关技术中自动驾驶策略需要的神经网络过于庞大,导致内部过程不可监督,工程部署实现困难等问题。

【技术实现步骤摘要】

本申请涉及车辆,特别涉及一种车辆行驶轨迹的规划方法、装置、车辆及存储介质


技术介绍

1、随着智能驾驶技术的不断发展,智能驾驶系统应用场景越来越广泛,当前单纯基于规则的决策规划算法依然是主流方法,广泛适用于结构化道路自动驾驶,如高速公路,城市快速路等。

2、但随着场景越来越复杂,传统基于规则的决策规划算法无法满足城市场景需求,且规则之间容易产生冲突,在复杂场景下易导致系统发生瘫痪,无法向人类一样进行驾驶,因此通常会引入ai学习对车辆驾驶进行控制。

3、相关技术中基于ai学习实现对自动驾驶车辆控制的方法,基于原始感知信息,经过神经网络处理,最终输出控制指令。然而,该方法虽然可实现端到端自动驾驶,但是整个神经网络过于庞大,内部过程不可监督,工程部署实现困难。


技术实现思路

1、本申请提供一种车辆行驶轨迹的规划方法、装置、车辆及存储介质,以解决相关技术中自动驾驶策略需要的神经网络过于庞大,导致内部过程不可监督,工程部署实现困难等问题。

2、本申请第一方面实施例提供一种车辆行驶轨迹的规划方法,包括以下步骤:获取车辆的环境感知信息;提取所述环境感知信息中当前驾驶环境下的环境特征状态;将所述环境特征状态输入预先建立的神经网络模型,所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹,其中,所述神经网络模型基于携带有环境特征状态的训练样本训练得到。

3、可选地,所述神经网络模型包括策略网络和值网络,所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络用于根据所述期望行驶轨迹点输出品质值。

4、可选地,所述策略网络包括网络结构相同的在线策略网络和目标策略网络,所述在线策略网络用于网络参数的训练,所述目标策略网络用于吸收所述在线策略网络训练得到的网络参数;所述值网络包括网络结构相同的在线值网络和目标值网络,所述在线值网络用于网络参数的训练,所述目标值网络用于吸收所述在线值网络训练得到的网络参数。

5、可选地,在将所述环境特征状态输入预先建立的神经网络模型之前,还包括:获取携带有环境特征状态的训练样本;将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络,所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹;将所述第一规划行驶轨迹输入所述在线值网络,所述在线值网络输出所述第一规划行驶轨迹的估计品质值,并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励;根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值,根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值;根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数,根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

6、可选地,所述根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值,包括:根据所述第二规划轨迹、所述动作奖励和所述估计品质值输入所述目标值网络,所述目标值网络输出所述第一规划轨迹的目标品质值;根据所述第一规划行驶轨迹、所述环境特征状态、所述估计品质值和所述目标品质值计算所述在线值网络的第二损失值。

7、可选地,在根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励之前,包括:构建环境特征状态与第一规划行驶轨迹的奖励函数;利用所述奖励函数计算所述第一规划行驶轨迹的动作奖励。

8、可选地,所述提取所述环境感知信息中当前驾驶环境下的环境特征状态,包括:识别所述环境感知信息中自车的位置与速度、周围车辆的位置和车道线;根据所述自车的位置与速度、所述周围车辆的位置和所述车道线生成所述环境特征状态。

9、本申请第二方面实施例提供一种车辆行驶轨迹的规划装置,包括:获取模块,用于获取车辆的环境感知信息;提取模块,用于提取所述环境感知信息中当前驾驶环境下的环境特征状态;输出模块,用于将所述环境特征状态输入预先建立的神经网络模型,所述神经网络模型输出所述车辆在当前驾驶环境下的规划行驶轨迹,其中,所述神经网络模型基于携带有环境特征状态的训练样本训练得到。

10、可选地,所述神经网络模型包括策略网络和值网络,所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络用于根据所述期望行驶轨迹点输出品质值。

11、可选地,所述策略网络包括网络结构相同的在线策略网络和目标策略网络,所述在线策略网络用于网络参数的训练,所述目标策略网络用于吸收所述在线策略网络训练得到的网络参数;所述值网络包括网络结构相同的在线值网络和目标值网络,所述在线值网络用于网络参数的训练,所述目标值网络用于吸收所述在线值网络训练得到的网络参数。

12、可选地,所述车辆行驶轨迹的规划装置,还包括:更新模块,用于在将所述环境特征状态输入预先建立的神经网络模型之前,获取携带有环境特征状态的训练样本;将所述训练样本中的环境特征状态输入所述在线策略网络和目标策略网络,所述在线策略网络和所述目标策略网络分别输出在当前驾驶环境下的第一规划行驶轨迹和第二规划行驶轨迹;将所述第一规划行驶轨迹输入所述在线值网络,所述在线值网络输出所述第一规划行驶轨迹的估计品质值,并根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励;根据所述第一规划行驶轨迹和所述环境特征状态计算所述在线策略网络的第一损失值,根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值;根据所述第一损失值更新所述在线策略网络和所述目标策略网络的网络参数,根据所述第二损失值更新所述在线值网络和所述目标值网络的网络参数。

13、可选地,所述根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值,包括:根据所述第二规划轨迹、所述动作奖励和所述估计品质值输入所述目标值网络,所述目标值网络输出所述第一规划轨迹的目标品质值;根据所述第一规划行驶轨迹、所述环境特征状态、所述估计品质值和所述目标品质值计算所述在线值网络的第二损失值。

14、可选地,在根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励之前,包括:构建环境特征状态与第一规划行驶轨迹的奖励函数;利用所述奖励函数计算所述第一规划行驶轨迹的动作奖励。

15、可选地,所述提取模块进一步用于:识别所述环境感知信息中自车的位置与速度、周围车辆的位置和车道线;根据所述自车的位置与速度、所述周围车辆的位置和所述车道线生成所述环境特征状态。

16、本申请第三方面实施例提供一种车辆,本文档来自技高网...

【技术保护点】

1.一种车辆行驶轨迹的规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的车辆行驶轨迹的规划方法,其特征在于,所述神经网络模型包括策略网络和值网络,所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络用于根据所述期望行驶轨迹点输出品质值。

3.根据权利要求2所述的车辆行驶轨迹的规划方法,其特征在于,

4.根据权利要求3所述的车辆行驶轨迹的规划方法,其特征在于,在将所述环境特征状态输入预先建立的神经网络模型之前,还包括:

5.根据权利要求4所述的车辆行驶轨迹的规划方法,其特征在于,所述根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值,包括:

6.根据权利要求4所述的车辆行驶轨迹的规划方法,其特征在于,在根据所述第一规划行驶轨迹和所述环境特征状态计算所述第一规划行驶轨迹的动作奖励之前,包括:

7.根据权利要求1-6任意一项所述的车辆行驶轨迹的规划方法,其特征在于,所述提取所述环境感知信息中当前驾驶环境下的环境特征状态,包括:

8.一种车辆行驶轨迹的规划装置,其特征在于,包括:

9.一种车辆,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1-7任一项所述的车辆行驶轨迹的规划方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任一项所述的车辆行驶轨迹的规划方法。

...

【技术特征摘要】

1.一种车辆行驶轨迹的规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的车辆行驶轨迹的规划方法,其特征在于,所述神经网络模型包括策略网络和值网络,所述策略网络用于根据所述环境特征状态输出期望行驶轨迹点,根据所述期望行驶轨迹点生成所述规划行驶轨迹;所述值网络用于根据所述期望行驶轨迹点输出品质值。

3.根据权利要求2所述的车辆行驶轨迹的规划方法,其特征在于,

4.根据权利要求3所述的车辆行驶轨迹的规划方法,其特征在于,在将所述环境特征状态输入预先建立的神经网络模型之前,还包括:

5.根据权利要求4所述的车辆行驶轨迹的规划方法,其特征在于,所述根据所述第一规划行驶轨迹、所述第二规划轨迹、所述环境特征状态、所述动作奖励和所述估计品质值计算所述在线值网络的第二损失值,包括:<...

【专利技术属性】
技术研发人员:刘枫高长胜刘斌张东波吴杭哲
申请(专利权)人:中国第一汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1