【技术实现步骤摘要】
一种基于深度强化学习的物体检测方法
本专利技术提出一种基于深度强化学习的物体检测方法,属于模式识别
及主动物体检测
技术介绍
物体检测作为机器人学与计算机视觉系统的主要研究内容之一,广泛应用于视频监控、无人驾驶和多媒体处理中。当前的物体检测方法大多针对拍摄条件良好的静态图像,但在实际应用中,这样的图像往往难以得到,尤其是在机器人应用中,拍摄的图片中,往往出现遮挡、部分拍摄、尺度较小等缺陷。但在机器人应用中,拍摄视角可通过调整机器人的位姿来改变,以获得更加适合检测的图像,以实现机器人的主动物体检测。相关公开专利如107403426A——一种目标物体检测方法及设备。利用DoubleDQN算法产生不同的控制动作,从而控制物体检测框的在单幅图像中的位置及大小,最终获得包含目标物体在单幅图像中的准确定位。该已有技术是通过强化学习方法对单幅图像操作来获得更好的物体定位效果,但当对于机器人来说,单幅图像可能存在遮挡或部分拍摄等问题,已有方法无法有效解决该问题。强化学习,又称为增强学习,主要包括两类方法:基于值和基于概率的方法。基于值的方法是通过对已有经验的学习,优化对不同状态下动作价值的估计函数,从而获得最优动作控制策略,强化学习在大部分Atari(雅达利)游戏中已经超出了人类的表现;深度神经网络在计算机领域已经取得了显著的成果,尤其在计算机视觉领域,使用卷积神经网络能够有效地提取图像的卷积特征,并在非线性拟合,基于深度神经网络的方法在物体定位,物体识别,以及图像语义分割中均取得了十分优异的结果。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提 ...
【技术保护点】
1.一种基于深度强化学习的物体检测方法,其特征在于,该方法包括以下步骤:1)构建一个深度强化学习神经网络Q,包括:图像特征提取网络、图像特征降维网络、图像特征尺寸调整层、包络框元素拓展网络和动作价值估计网络五个部分;所述图像特征提取网络连接图像特征降维网络,图像特征降维网络连接图像特征尺寸调整层,图像特征尺寸调整层与包络框元素拓展网络分别连接动作价值估计网络;上述各部分网络结构及功能说明如下:所述图像特征提取网络,由Resnet‑18神经网络的前9层组成;记t时刻采集的RGB图像为It.利用图像缩放技术,将图像尺寸调整为3×216×384,其中,3为RGB色彩通道,216为高度,384为宽度,输入至图像特征提取网络,图像特征提取网络输出为t时刻图像对应的卷积特征
【技术特征摘要】
1.一种基于深度强化学习的物体检测方法,其特征在于,该方法包括以下步骤:1)构建一个深度强化学习神经网络Q,包括:图像特征提取网络、图像特征降维网络、图像特征尺寸调整层、包络框元素拓展网络和动作价值估计网络五个部分;所述图像特征提取网络连接图像特征降维网络,图像特征降维网络连接图像特征尺寸调整层,图像特征尺寸调整层与包络框元素拓展网络分别连接动作价值估计网络;上述各部分网络结构及功能说明如下:所述图像特征提取网络,由Resnet-18神经网络的前9层组成;记t时刻采集的RGB图像为It.利用图像缩放技术,将图像尺寸调整为3×216×384,其中,3为RGB色彩通道,216为高度,384为宽度,输入至图像特征提取网络,图像特征提取网络输出为t时刻图像对应的卷积特征大小为128×25×48的矩阵;所述图像特征降维网络,由2个降维模块组成,每个降维模块包含一层卷积神经层和一层池化神经层,图像特征降维网络的输入为步骤1-1)得到t时刻图像的卷积特征经过两个降维模块的降维,图像特征降维网络的输出为t时刻图像降维后的图像卷积特征大小为128×7×12的矩阵;所述图像尺寸调整层,输入为步骤1-2)中得到的t时刻图像降维后的图像卷积特征通过调整特征尺寸,将降维后的图像卷积特征调整为10752维向量所述包络框元素拓展网络,由多于1层的全连接层组成,包络框元素拓展网络的输入为图像It中待检测物体的包络框bt,输出为拓展后的t时刻图像包络框特征向量所述待检测物体的包络框,包含四个元素,令t时刻图像中待检测物体的包络框为bt={xt,yt,wt,ht},其中xt,yt为t时刻待检测物体包络框的中心点的横、纵坐标,wt,ht为t时刻包络框的宽度和高度;所述动作价值估计网络,由多于1层的全连接层组成,动作价值估计网络的输入为步骤1-3)中得到降维后的t时刻图像卷积特征与步骤1-4)中得到的t时刻图像包络框特征向量拼接得到的t时刻机器人状态向量输出为t时刻机器人每个动作价值的估计值,每个输出单元对应一种机器人动作种类;2)对步骤1)构建的深度强化学习神经网络Q进行训练,得到训练完毕的深度强化学习神经网络Q*;具体步骤如下:2-1)随机初始化神经网络Q的参数θ,将步骤1)建立的神经网络Q记为当前神经网络,令初始训练次数c=0,设置存储库M容量D=1024,取样数量B=128;2-2)在进入训练状态前,机器人在环境中以任意动作进行运动,机器人所搭载的相机以工作频率对周围环境采集图像,使用获取候选区域方法对采集图像进行处理,在每张图像中获取若干个候选区域,利用选定的识别函数fc来进行识别每个候选区域,将低于识别阈值ψ且最接近识别阈值的一个候选区域作为待检测物体的包络框;在机器人之后的运动中所采集每张图像的包络框通过跟踪方法从连续拍摄的图像的上一帧映射到当前帧,从而得到当前帧的包络框;机器人进入训练状态,进入步骤2-3);2-3)记当前时刻为t,机器人当前时刻的状态st由当前时刻采集的图像It及该图像中待检测物体包络框bt表示,即st={It,bt},机器人选取该时刻对应动作at,动作选取准则如下:在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值ε,则机器人在设定的机器人动作集合A中随机选取一动作执行;否则,将机器人当前时刻状态输入到当...
【专利技术属性】
技术研发人员:刘华平,韩小宁,孙富春,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。