当前位置: 首页 > 专利查询>深圳大学专利>正文

决策控制方法、装置、自动驾驶车辆及存储介质制造方法及图纸

技术编号:29145722 阅读:37 留言:0更新日期:2021-07-06 22:40
本申请适用于自动驾驶技术领域,提供了一种决策控制方法、装置、自动驾驶车辆及存储介质,所述决策控制方法包括:获取自动驾驶车辆的当前行驶信息和周围车辆的目标行驶信息,所述周围车辆是指与所述自动驾驶车辆的距离小于预设距离的车辆;将所述自动驾驶车辆的当前行驶信息和所述周围车辆的目标行驶信息输入至已训练的actor网络中的决策网络,得到目标决策信息;将所述自动驾驶车辆的当前行驶信息、所述周围车辆的目标行驶信息和所述目标决策信息输入至所述actor网络中的控制网络,得到目标控制信息;根据所述目标控制信息,控制所述自动驾驶车辆行驶。通过本申请可提高自动驾驶的安全性。

【技术实现步骤摘要】
决策控制方法、装置、自动驾驶车辆及存储介质
本申请属于自动驾驶
,尤其涉及一种决策控制方法、装置、自动驾驶车辆及存储介质。
技术介绍
自动驾驶车辆又称无人驾驶车辆、电脑驾驶车辆或者轮式移动机器人,是一种通过电脑系统实现无人驾驶的智能汽车。自动驾驶是一项集环境感知、决策与控制等功能于一体的智能系统,是未来智能交通系统的重要组成部分,将对人们的出行乃至生活方式带来极大变革。在自动驾驶领域,如何提高自动驾驶的安全性是亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种决策控制方法、装置、自动驾驶车辆及存储介质,可以提高自动驾驶的安全性。第一方面,本申请实施例提供了一种决策控制方法,所述决策控制方法包括:获取自动驾驶车辆的当前行驶信息和周围车辆的目标行驶信息,所述周围车辆是指与所述自动驾驶车辆的距离小于预设距离的车辆;将所述自动驾驶车辆的当前行驶信息和所述周围车辆的目标行驶信息输入至已训练的actor网络中的决策网络,得到目标决策信息;将所述自动驾驶车辆的当前行驶信息、所述周围车辆本文档来自技高网...

【技术保护点】
1.一种决策控制方法,其特征在于,所述决策控制方法包括:/n获取自动驾驶车辆的当前行驶信息和周围车辆的目标行驶信息,所述周围车辆是指与所述自动驾驶车辆的距离小于预设距离的车辆;/n将所述自动驾驶车辆的当前行驶信息和所述周围车辆的目标行驶信息输入至已训练的actor网络中的决策网络,得到目标决策信息;/n将所述自动驾驶车辆的当前行驶信息、所述周围车辆的目标行驶信息和所述目标决策信息输入至所述actor网络中的控制网络,得到目标控制信息;/n根据所述目标控制信息,控制所述自动驾驶车辆行驶。/n

【技术特征摘要】
1.一种决策控制方法,其特征在于,所述决策控制方法包括:
获取自动驾驶车辆的当前行驶信息和周围车辆的目标行驶信息,所述周围车辆是指与所述自动驾驶车辆的距离小于预设距离的车辆;
将所述自动驾驶车辆的当前行驶信息和所述周围车辆的目标行驶信息输入至已训练的actor网络中的决策网络,得到目标决策信息;
将所述自动驾驶车辆的当前行驶信息、所述周围车辆的目标行驶信息和所述目标决策信息输入至所述actor网络中的控制网络,得到目标控制信息;
根据所述目标控制信息,控制所述自动驾驶车辆行驶。


2.如权利要求1所述的决策控制方法,其特征在于,所述actor网络的训练过程包括:
获取第一测试车辆的当前环境状态,所述当前环境状态包括所述第一测试车辆的当前行驶信息和第二测试车辆的目标行驶信息,所述第二测试车辆是指与所述第一测试车辆的距离小于所述预设距离的车辆;
将所述当前环境状态输入至所述决策网络,得到候选决策信息;
将所述当前环境状态和所述候选决策信息输入至所述控制网络,得到候选控制信息;
根据所述候选控制信息,确定所述第一测试车辆的下一个环境状态和所述当前环境状态对应的奖励;
根据所述当前环境状态、所述下一个环境状态和所述当前环境状态对应的奖励,训练所述actor网络。


3.如权利要求2所述的决策控制方法,其特征在于,所述第一测试车辆的当前行驶信息包括所述第一测试车辆的纵向速度,所述第二测试车辆的目标行驶信息包括所述第一测试车辆与其前方车辆发生碰撞的时间,根据所述候选控制信息,确定所述当前环境状态对应的奖励包括:
根据所述候选控制信息,控制所述第一测试车辆行驶;
在所述第一测试车辆的行驶过程中,检测所述第一测试车辆是否发生碰撞;
若所述第一测试车辆发生碰撞,则确定所述当前环境状态对应的奖励为目标值;
若所述第一测试车辆未发生碰撞,则根据所述第一测试车辆的纵向速度和所述第一测试车辆与其前方车辆发生碰撞的时间,确定碰撞奖励;检测所述第一测试车辆是否安全到达终点,得到第一检测结果,并根据所述第一检测结果确定安全到达奖励;检测所述第一测试车辆是否发生变道,得到第二检测结果,并根据所述第二检测结果确定变道奖励;将所述碰撞奖励、所述安全到达奖励和所述变道奖励相加,确定相加所得值为所述当前环境状态对应的奖励。


4.如权利要求2所述的决策控制方法,其特征在于,所述根据所述当前环境状态、所述下一个环境状态和所述当前环境状态对应的奖励,训练所述actor网络包括:
将所述当前环境状态输入至critic网络,得到所述当前环境状态的状态价值函数;
将所述下一个环境状态输入至所述critic网络,得到所述下一个环境状态的状态价值函数;
根据所述当前环境状态的状态价值函数、所述下一个环境状态的状态价值函数以及所述当前环境状态对应的奖励,训练所述actor网络。


5.如权利要求4所述的决策控制方法,其特征在于,所述根据所述当前环境状态的状态价值函数、所述下一个环境状态的状态价值函数以及所述当前环境状态对应的奖励,训练所述actor网络包括:
根据所述下一个环境状态的状态价值函数以及所述当前环境状态对应的奖励,确定所述当前环境状态的动作价值函数;
根据所述当前环境状态的状态价值函数和所述当前环境状态的动作价值函数,确定所述actor网络的优势函数;
根据所述优势函数,确定所述决策网络对应的目标函数和所述控制网络对应的目标函数;
根据所述决策网络对应的目标函数和所述控制网络对应的目标函数,训练所述actor网络。


6.如权利要求5所述的决策控制方法,其特征在于,所述决策控制方法还包括:
根据所述优势函数,确定所述critic网络的目标函数;
根据所述critic网络的目标函数,训练所述critic网络。


7.如权...

【专利技术属性】
技术研发人员:陈龙权贺颖邹广源潘微科
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1