当前位置: 首页 > 专利查询>五邑大学专利>正文

基于深度强化学习的道路目标检测方法、装置及存储介质制造方法及图纸

技术编号:24997030 阅读:49 留言:0更新日期:2020-07-24 17:59
本发明专利技术公开了一种基于深度强化学习的目标检测方法、装置和存储介质,客户端获取到采样视频后,从采样视频中获取采样图像,并将采用图像输入至预先训练好的深度Q网络中,并且在深度Q网络中引入了折扣因子,所述学习率随折扣因子的增大而减小,能够使得折扣因子在训练的过程中逐渐逼近其终值,从而加快模型的收敛,降低了过拟合的现象,提高了系统的稳定性。

【技术实现步骤摘要】
基于深度强化学习的道路目标检测方法、装置及存储介质
本专利技术涉及图像识别领域,特别是基于深度强化学习的道路目标检测方法、装置和存储介质。
技术介绍
自动驾驶已经成了汽车行业的重要发展方向,而汽车在自动驾驶的过程中,除了要对路线和速度进行控制,还需要对道路上的交通标志等道路目标进行检测和识别,由于行驶过程中获取的图像还同时包括复杂的环境,这无疑加大了图像识别的复杂度,因此需要一种方法能够从复杂的环境中检测并识别出道路目标,从而提高自动驾驶系统的性能。传统方法通常采用CNN(ConvolutionalNeuralNetworks,自卷积神经网络)进行图像识别,虽然CNN能够快速实现图像的识别,但是模型训练过程比较复杂,而且决策能力较低。现有的深度Q网络属于强化学习网络的一种,能够有较好的决策能力,但是任务复杂度较高时存在过度拟合的风险,任务复杂度较低时可能无法捕获重要的特征,系统的稳定性并不能满足要求。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种基于深度强化学习的道路目标检测方法、装置及存储介质本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的道路目标检测方法,其特征在于,包括以下步骤:/n客户端获取采样视频,从所述采样视频中获取采样图像;/n所述客户端读取预先训练好的深度Q网络,所述深度Q网络包括用于近似表示当前值函数的第一神经网络和用于产生目标Q值的第二神经网络,所述第一神经网络的目标函数和所述第二神经网络的损失函数中包括预先设定的折扣因子,所述深度Q网络的学习率随所述折扣因子的增加而降低;/n所述客户端将所述采样图像输入至所述深度Q网络中,检测出道路目标。/n

【技术特征摘要】
1.一种基于深度强化学习的道路目标检测方法,其特征在于,包括以下步骤:
客户端获取采样视频,从所述采样视频中获取采样图像;
所述客户端读取预先训练好的深度Q网络,所述深度Q网络包括用于近似表示当前值函数的第一神经网络和用于产生目标Q值的第二神经网络,所述第一神经网络的目标函数和所述第二神经网络的损失函数中包括预先设定的折扣因子,所述深度Q网络的学习率随所述折扣因子的增加而降低;
所述客户端将所述采样图像输入至所述深度Q网络中,检测出道路目标。


2.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法,其特征在于:所述采样图像为所述采样视频中的关键帧。


3.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法,其特征在于:所述折扣因子的取值大于0且小于或等于1。


4.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法,其特征在于:所述深度Q网络由经验回放机制训练得出。


5.根据权利要求1所述的一种基于深度强化学习的道路目标检测方法,其特征在于,所述目标函数的表达式为:
TargetQ=r+γmaxa′Q*(s′,a′;θ-);
其中r为即时奖励,γ为所述折扣因子,Q为所述深度Q网络的Q值,s为预先设定的状态参数。


6.根据权利要求5所述的一种基于深度强化学习的道路目标检测方法,其特征在于:所述损失函数的...

【专利技术属性】
技术研发人员:董超俊吴志鹏
申请(专利权)人:五邑大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1