The automatic driving technology in the field of the invention is applicable to the car, and provides a method for vehicle automatic driving device, the method includes: obtaining the current position of the vehicle sensors on the car with the default state of the automobile; according to the state of the automobile and a pre established strategy of network model, get the car driving action currently available return values, strategies of network model by default the depth of the reinforcement learning algorithm is established; the current will return the maximum return values corresponding to the available settings for a car driving action action and execution, so in the face of the driving scene category, the complexity of the road timely and effective access to better driving action and implementation of automatic driving vehicle.
【技术实现步骤摘要】
一种汽车的自动驾驶方法及装置
本专利技术属于汽车自动驾驶
,尤其涉及一种汽车的自动驾驶方法及装置。
技术介绍
近年来,随着经济的发展和城镇化的推进,全球汽车保有量和道路里程逐步增加,诸如交通拥堵、事故、污染、土地资源紧缺等一系列传统汽车无法妥善解决的问题日益凸显。智能汽车技术被视为有效解决方案,其发展备受瞩目。美国电气和电子工程师协会(IEEE)预测,至2040年自动驾驶车辆所占的比例将达到75%。市面上已经出现了多种用于辅助驾驶系统的传感器和产品,比如:激光雷达、自适应巡航系统、车辆接近通报装置、夜视辅助装置、自适应前照明系统等,而目前辅助驾驶系统中使用的控制方法都是基于规则的控制决策,即根据已知的驾驶经验,构建对车况信息输出控制决策的专家规则系统。然而,自动驾驶场景类别多样,路况复杂,自动驾驶中高度复杂的场景很难用有限的规则来定义清楚,因此,传统的控制方法往往难以满足自动驾驶的要求。类似专家规则系统利用了浅层学习算法,浅层学习算法可以看作是从被标记的数据之间寻找规则的过程,当规则很难被抽象成公式或简单逻辑之时,浅层学习算法就难以达到预定的效果。深度学习算 ...
【技术保护点】
一种汽车的自动驾驶方法,其特征在于,所述方法包括下述步骤:通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。
【技术特征摘要】
1.一种汽车的自动驾驶方法,其特征在于,所述方法包括下述步骤:通过汽车上预设的传感器获取所述汽车当前位置的汽车状态;根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值,所述策略网络模型通过预设的深度强化学习算法建立;将所述回报值中的最大回报值对应的当前可用驾驶动作设置为所述汽车下一执行动作并执行。2.如权利要求1所述的方法,其特征在于,根据所述汽车状态和预先建立的策略网络模型,获取所述汽车当前可用驾驶动作的回报值的步骤之前,所述方法还包括:A、对设置的所述策略网络模型进行初始化,设定汽车驾驶动作的立即回报函数,并对所述立即回报函数的回报值进行初始化;B、接收所述汽车当前训练状态的样本,根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值,获取立即回报值中的最大立即回报值;C、将所述汽车状态和通过预设方式选择的驾驶动作作为所述策略网络模型的输入值,将所述最大立即回报值和所述策略网络模型不同驾驶动作下的最大回报值的累计折算值之和作为输出值,对所述策略网络模型进行训练,并更新所述策略网络模型的权值;D、根据所述当前训练状态和所述立即回报值对应的驾驶动作,获取所述汽车的下一状态,判断所述下一状态是否为终止训练状态,是则返回所述策略网络模型,否则将所述下一状态设置为当前训练状态的样本并传送给步骤B。3.如权利要求2所述的方法,其特征在于,对所述策略网络模型进行训练的步骤,包括:通过后向传播算法对所述策略网络模型进行训练。4.如权利要求2所述的方法,其特征在于,所述选择的驾驶动作通过下述方式选择:随机选取任一驾驶动作作为选择的驾驶动作,否则将所述最大回报值对应的驾驶动作作为选择的驾驶动作。5.如权利要求2所述的方法,其特征在于,根据所述当前训练状态以及所述立即回报函数计算汽车的动作集中每个驾驶动作的立即回报值的步骤,包括:根据所述当前训练状态对所述汽车的动作集中的驾驶动作进行筛选,根据所述当前训练状态以及所述立即回报函数计算筛选后的每个驾驶动作的立...
【专利技术属性】
技术研发人员:夏伟,李慧云,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。