一种用于车辆自动驾驶的策略网络模型的生成方法及装置制造方法及图纸

技术编号:16346578 阅读:48 留言:0更新日期:2017-10-03 22:33
本发明专利技术适用计算机技术领域,提供了一种用于车辆自动驾驶的策略网络模型的生成方法及装置,所述方法包括:将每个试验时刻采集到的车辆状态信息构成状态信息集,对状态信息集进行处理,获得特征状态信息集;根据预设的回报值函数和预先构建的车辆动作集,查找在特征状态信息集的每个状态信息下获得最大回报值的车辆动作;根据特征状态信息集、特征状态信息集中每个状态信息对应的最大回报值和获得最大回报值的车辆动作,训练极限学习机的网络模型;根据极限学习机的网络模型的训练结果,生成用于车辆自动驾驶的策略网络模型,从而有效地降低了计算资源的消耗,有效地提高了车辆自动驾驶策略网络模型的生成效率。

【技术实现步骤摘要】
一种用于车辆自动驾驶的策略网络模型的生成方法及装置
本专利技术属于计算机
,尤其涉及一种用于车辆自动驾驶的策略网络模型的生成方法及装置。
技术介绍
随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,导致诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。无人驾驶汽车技术被视为这些问题的有效解决方案,其发展被受瞩目,美国电子和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆数目所占比例将达到75%。无人驾驶汽车,即在没有司机的情况下通过自身的辅助驾驶系统在道路上行驶,具备环境感知能力。辅助驾驶系统通过传感器获取的环境信息做出控制决策,已出现了多种用于辅助驾驶系统的传感器和产品,例如:激光雷达、机器视觉、自适应巡航、车辆接近通报装置、夜视辅助、自适应前照明系统等。目前,辅助驾驶系统的控制方法主要为基于规则的控制决策,即根据已知的驾驶经验构建对车辆环境信息输出控制决策的专家规则系统,专家规则系统这类浅层学习算法可看作从被标记的数据之间寻找规律的过程,当规则很难被抽象成公式或简单逻辑时,浅层学习就无法奏效,然而,自动驾驶场景类别多样、本文档来自技高网...
一种用于车辆自动驾驶的策略网络模型的生成方法及装置

【技术保护点】
一种用于车辆自动驾驶的策略网络模型的生成方法,其特征在于,所述方法包括下述步骤:将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型;根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。

【技术特征摘要】
1.一种用于车辆自动驾驶的策略网络模型的生成方法,其特征在于,所述方法包括下述步骤:将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集;根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作;根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型;根据所述极限学习机的网络模型的训练结果,生成用于所述车辆自动驾驶的策略网络模型。2.如权利要求1所述的方法,其特征在于,将每个试验时刻采集到的车辆状态信息构成状态信息集,对所述状态信息集进行处理,获得特征状态信息集的步骤,包括:通过预设的聚类算法对所述状态信息集进行聚类、或通过预设的特征提取算法对所述状态信息集进行特征提取,以生成所述特征状态信息集。3.如权利要求1所述的方法,其特征在于,根据预设的回报值函数和预先构建的车辆动作集,查找在所述特征状态信息集的每个状态信息下获得最大回报值的车辆动作的步骤,包括:对所述特征状态信息集的每个状态信息对应的回报值序列进行初始化,所述回报值序列包括执行所述车辆动作集中所有车辆动作对应的回报值;根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化;从所述特征状态信息的每个状态信息对应的回报值序列中获取最大回报值和所述最大回报值对应的车辆动作。4.如权利要求3所述的方法,其特征在于,根据所述回报值函数和所述车辆动作集,对所述所有回报值序列进行多次更新,直至所述所有回报值序列不再变化的步骤,包括:遍历所述车辆动作集,并根据所述回报值函数计算在所述特征状态信息集的状态信息下执行遍历到的车辆动作时的立即回报值;根据所述立即回报值和预设的更新公式,更新在所述特征状态信息集的状态信息下执行所述遍历到的车辆动作对应的回报值,所述更新公式为:其中,为在所述特征状态信息集的状态信息s下执行所述遍历到的动作a时的回报值,为所述状态信息s的下一状态信息s'的最大回报值,r为在所述状态信息s下执行所述遍历到的动作a时的立即回报值,γ为预设参数且0≤γ<1。5.如权利要求1所述的方法,其特征在于,根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,训练预设极限学习机的网络模型的步骤,包括:根据所述特征状态信息集、所述特征状态信息集中每个状态信息对应的最大回报值和所述获得最大回报值的车辆动作,设置所述极限学习机网络模型的输入和输出;...

【专利技术属性】
技术研发人员:李慧云王峥刘玢玢
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1