【技术实现步骤摘要】
基于深度强化学习的车道保持方法
[0001]本专利技术涉及车辆决策控制
,特别涉及基于深度强化学习的车道保持方法。
技术介绍
[0002]无人驾驶技术作为新兴技术革命浪潮的开端和人工智能最大规模的落地场景之一,对改善城市交通和环境友好有重要意义;同时,以竞赛实验用小车为无人驾驶技术研究原型大大降低了实验成本和测试周期,在加快相关技术发展过程中具有进步意义。
[0003]目前的智能驾驶/辅助技术方案依然是感知
‑
决策
‑
控制的管道流程模块,在这种方案决策块中依然存在着许多不足之处:其一,规则人工设计与制定,虽然精妙但是极其复杂,设计和实现成本高昂;其二,设计的规则策略一般来说难以应付环境的多变性;其三,由于硬件设备的固有复杂性和高昂实验成本,在实际车辆进行改进和实验带来的支出费用高昂。
[0004]因此,如何提供一种易于快速实验的基于深度强化学习的车道保持方法是本
内研究人员亟需解决的问题。
技术实现思路
[0005]本专利技术的目的在于提供基于深 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的车道保持方法,其特征在于,包括如下步骤:S1:采集环境
‑
智能体状态观测值,包括环境状态数据和车辆状态数据;S2:先进行模型网络的初始化,然后开始交互,每次交互将数据s馈入神经网络后,得到对应的输出a,然后根据输出选定的动作继续与环境交互,得到一次交互的完整数据<s,a,s',r>,然后以此方法与环境进行多次交互,得到多次交互数据,存入经验缓存池(ReplayBuffer,RB);S3:从RB中采样一批次交互数据,进行一次网络更新;不断重复S2,多次更新网络,直至最终模型收敛,其中Q网络的更新公式为:式中,s
t
为环境的观测值,a
t
为s
t
馈入神经网络后结果所选取的动作,Q(s
t
,a
t
)为在状态s
t
下采取动作a
t
得到的预期回报,为t+1步时总是选取使Q(s
t+1
,a
t+1
)最大的动作a所对应的值,r
t+1
为t步时在获取观测值s
t
后做出动作a
t
得到的奖励,γ为回报折扣因子,在[0,1]之间,α代表网络更新的幅度;S4:根据收敛后的模型进行策略控制,其策略为:其中,π
*
代表学习到的最优策略,对于任意第t步时,在环境观测值s下,智能体策略π
*
做出的动作对应的预期回报相较于其他动作最大,即最优动作,这样的一个映射s
→
a
*
即是一个最优策略π
*
。2.如权利要求1所述的基于深度强化学习的车道保持方法,其特征在于,S1具体包括以下步骤:步骤S101:环境状态数据包括车辆相对于预定义原点的世界坐标Position(x,y,z)、车辆的跨轨误差CTE和车辆的碰撞关系Hit。3.如权利要求2所述的基于深度强化学习的车道保持方法,其特征在于,所述车辆状态数据包括车辆的绝对速度Speed、车辆的转向值Steering、车辆的油门值Throttle和车辆正前方摄像头返回的相机图像数据Image,预处理过程为:将车辆正前方摄像头返回的相机图像数据Image进行裁剪和标准化处理,首先,对每幅图像的像素归一化至[0,1]范围间,然后对图...
【专利技术属性】
技术研发人员:杨冬立,张俊阳,罗科,冯明杰,
申请(专利权)人:广东松科智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。