一种自动驾驶训练方法、装置、设备及介质制造方法及图纸

技术编号:26761154 阅读:26 留言:0更新日期:2020-12-18 22:55
本申请公开了一种自动驾驶训练方法、装置、设备及介质,包括:获取当前时刻的交通环境状态以及对应的结构化噪声;所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;控制所述自动驾驶车辆执行所述执行动作;通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;基于所述回报通过反向传播运算更新评价网络参数;利用策略梯度算法更新策略网络参数。能够提升自动驾驶训练的稳定性,从而降低危险事故的发生概率。

【技术实现步骤摘要】
一种自动驾驶训练方法、装置、设备及介质
本申请涉及自动驾驶
,特别涉及一种自动驾驶训练方法、装置、设备及介质。
技术介绍
现代城市交通中,机动车数量日益增多,道路拥堵情况严重,且交通事故频发。有研究表明,每个人一生中因交通拥堵导致的时间浪费长达3年,而90%的交通事故由人为操作失误或错误造成。为最大程度降低人为因素造成的危害,人们将目光转向自动驾驶领域。根据驾驶员在车辆行驶过程中的参与度大小,将自动驾驶由低到高分为Level-0至Level-5共6个级别,即人类驾驶员驾驶、辅助驾驶、部分自动驾驶、条件自动驾驶、高度自动驾驶和完全自动驾驶。目前,主流自动驾驶企业或项目普遍达到Level-3级别。自动驾驶是一项十分复杂的集成性技术,涵盖车载传感器、数据处理器、控制器等硬件装置,并需要现代移动通信与网络技术作为支撑,以实现车辆、行人和非机动车等交通参与者之间的信息传递与共享,完成在复杂环境下的传感感知、决策规划和控制执行等功能,实现车辆的自动加速/减速、转向、超车、刹车等操作,保证行车安全。参见图1所示,本图1为本申请实施例提供的一种自动驾驶车本文档来自技高网...

【技术保护点】
1.一种自动驾驶训练方法,其特征在于,包括:/n获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;/n通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;/n控制所述自动驾驶车辆执行所述执行动作;/n通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;/n基于所述回报通过反向传播运算更新评价网络参数;/n利用策略梯度算法更新策略网络参数。/n

【技术特征摘要】
1.一种自动驾驶训练方法,其特征在于,包括:
获取当前时刻的交通环境状态以及对应的结构化噪声;其中,所述结构化噪声为基于历史数据确定出的结构化噪声,所述历史数据为在对自动驾驶车辆进行预训练的过程中保存的数据,并且,所述历史数据包括历史动作信息以及历史交通环境状态信息;
通过策略网络利用所述交通环境状态以及所述结构化噪声确定出对应的执行动作;
控制所述自动驾驶车辆执行所述执行动作;
通过评价网络根据所述执行动作对所述策略网络的策略进行评价,得到对应的回报;
基于所述回报通过反向传播运算更新评价网络参数;
利用策略梯度算法更新策略网络参数。


2.根据权利要求1所述的自动驾驶训练方法,其特征在于,还包括:
利用DQN算法对自动驾驶车辆进行预训练;
将对应的预训练数据存放至回放缓冲区,将所述回放缓冲区存放的数据作为所述历史数据。


3.根据权利要求1所述的自动驾驶训练方法,其特征在于,所述基于所述回报通过反向传播运算更新评价网络参数,包括:
基于所述回报进行针对评价网络损失函数的反向传播运算,单步更新所述评价网络参数。


4.根据权利要求1所述的自动驾驶训练方法,其特征在于,所述利用策略梯度算法更新策略网络参数,包括:
利用所述评价网络的价值函数以及所述策略网络的当前策略进行策略梯度运算,更新所述策略网络参数。


5.根据权利要求1至4任一项所述的自动驾驶训练方法,其特征在于,还包括:
预先计算所述结构化噪声。


6.根据权利要求5所述的自动驾驶训练方法,其特征在于,所述预先计算所述结构化噪声,包括:
从所述历史数据中随机抽取出预设条数的数据,得到对应的minibatch;
计算出所述mini...

【专利技术属性】
技术研发人员:李仁刚赵雅倩李茹杨李雪雷金良
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1