当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于深度强化学习的物体检测方法技术

技术编号:18973171 阅读:23 留言:0更新日期:2018-09-19 03:56
本发明专利技术提出一种基于深度强化学习的物体检测方法,属于模式识别技术领域及主动物体检测技术领域。该方法首先建立深度强化学习神经网络;通过对机器人进行多次物体检测实验,获取训练数据对神经网络进行训练,得到训练完毕的神经网络。在使用阶段,机器人获取当前时刻的图像及图像中待检测物体的包络框输入训练完毕的神经网络,网络输出机器人下一时刻执行的动作,机器人执行动作后得到新的当前时刻的包络框并利用识别函数进行判定:若包络框中待检测物体识别可信度高于设定的识别阈值,则物体检测成功。本发明专利技术利用强化学习技术对机器人的动作进行控制,利用机器人视角的变化来获得更好的观测图像,从而获得更好的物体检测结果。

【技术实现步骤摘要】
一种基于深度强化学习的物体检测方法
本专利技术提出一种基于深度强化学习的物体检测方法,属于模式识别
及主动物体检测

技术介绍
物体检测作为机器人学与计算机视觉系统的主要研究内容之一,广泛应用于视频监控、无人驾驶和多媒体处理中。当前的物体检测方法大多针对拍摄条件良好的静态图像,但在实际应用中,这样的图像往往难以得到,尤其是在机器人应用中,拍摄的图片中,往往出现遮挡、部分拍摄、尺度较小等缺陷。但在机器人应用中,拍摄视角可通过调整机器人的位姿来改变,以获得更加适合检测的图像,以实现机器人的主动物体检测。相关公开专利如107403426A——一种目标物体检测方法及设备。利用DoubleDQN算法产生不同的控制动作,从而控制物体检测框的在单幅图像中的位置及大小,最终获得包含目标物体在单幅图像中的准确定位。该已有技术是通过强化学习方法对单幅图像操作来获得更好的物体定位效果,但当对于机器人来说,单幅图像可能存在遮挡或部分拍摄等问题,已有方法无法有效解决该问题。强化学习,又称为增强学习,主要包括两类方法:基于值和基于概率的方法。基于值的方法是通过对已有经验的学习,优化对不同状态下动作价值的估计函数,从而获得最优动作控制策略,强化学习在大部分Atari(雅达利)游戏中已经超出了人类的表现;深度神经网络在计算机领域已经取得了显著的成果,尤其在计算机视觉领域,使用卷积神经网络能够有效地提取图像的卷积特征,并在非线性拟合,基于深度神经网络的方法在物体定位,物体识别,以及图像语义分割中均取得了十分优异的结果。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种基于深度强化学习的物体检测方法,本专利技术利用强化学习技术对机器人的动作进行控制,利用机器人视角的变化来获得更好的观测图像,从而获得更好的物体检测结果。本专利技术提出一种基于深度强化学习的物体检测方法,其特征在于,该方法包括以下步骤:1)构建一个深度强化学习神经网络Q,包括:图像特征提取网络、图像特征降维网络、图像特征尺寸调整层、包络框元素拓展网络和动作价值估计网络五个部分;所述图像特征提取网络连接图像特征降维网络,图像特征降维网络连接图像特征尺寸调整层,图像特征尺寸调整层与包络框元素拓展网络分别连接动作价值估计网络;上述各部分网络结构及功能说明如下:所述图像特征提取网络,由Resnet-18神经网络的前9层组成;记t时刻采集的RGB图像为It,利用图像缩放技术,将图像尺寸调整为3×216×384,其中,3为RGB色彩通道,216为高度,384为宽度,输入至图像特征提取网络,图像特征提取网络输出为t时刻图像对应的卷积特征大小为128×25×48的矩阵;所述图像特征降维网络,由2个降维模块组成,每个降维模块包含一层卷积神经层和一层池化神经层,图像特征降维网络的输入为步骤1-1)得到t时刻图像的卷积特征经过两个降维模块的降维,图像特征降维网络的输出为t时刻图像降维后的图像卷积特征大小为128×7×12的矩阵;所述图像尺寸调整层,输入为步骤1-2)中得到的t时刻图像降维后的图像卷积特征通过调整特征尺寸,将降维后的图像卷积特征调整为10752维向量所述包络框元素拓展网络,由多于1层的全连接层组成,包络框元素拓展网络的输入为图像It中待检测物体的包络框bt,输出为拓展后的t时刻图像包络框特征向量所述待检测物体的包络框,包含四个元素,令t时刻图像中待检测物体的包络框为bt={xt,yt,wt,ht},其中xt,yt为t时刻待检测物体包络框的中心点的横、纵坐标,wt,ht为t时刻包络框的宽度和高度;所述动作价值估计网络,由多于1层的全连接层组成,动作价值估计网络的输入为步骤1-3)中得到降维后的t时刻图像卷积特征与步骤1-4)中得到的t时刻图像包络框特征向量拼接得到的t时刻机器人状态向量输出为t时刻机器人每个动作价值的估计值,每个输出单元对应一种机器人动作种类;2)对步骤1)构建的深度强化学习神经网络Q进行训练,得到训练完毕的深度强化学习神经网络Q*;具体步骤如下:2-1)随机初始化神经网络Q的参数θ,将步骤1)建立的神经网络Q记为当前神经网络,令初始训练次数c=0,设置存储库M容量D=1024,取样数量B=128;2-2)在进入训练状态前,机器人在环境中以任意动作进行运动,机器人所搭载的相机以工作频率对周围环境采集图像,使用获取候选区域方法对采集图像进行处理,在每张图像中获取若干个候选区域,利用选定的识别函数fc来进行识别每个候选区域,将低于识别阈值ψ且最接近识别阈值的一个候选区域作为待检测物体的包络框;在机器人之后的运动中所采集每张图像的包络框通过跟踪方法从连续拍摄的图像的上一帧映射到当前帧,从而得到当前帧的包络框;机器人进入训练状态,进入步骤2-3);2-3)记当前时刻为t,机器人当前时刻的状态st由当前时刻采集的图像It及该图像中待检测物体包络框bt表示,即st={It,bt},机器人选取该时刻对应动作at,动作选取准则如下:在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值ε,则机器人在设定的机器人动作集合A中随机选取一动作执行;否则,将机器人当前时刻状态输入到当前神经网络中,网络输出机器人动作集合A中机器人每个动作a对应的价值估计Q(st,at;θ),机器人选择其中价值最大的动作执行,表达式如下:所述动作选取阈值ε随训练次数c增加而减小,表达式如下:其中,εstart取值范围为0.8~1.0,εend取值范围0.001-0.1,εdecay取值范围10~1000;2-4)机器人在t时刻执行动作at,机器人状态从st迁移到下一状态st+1,st+1包括t+1时刻机器人采集的图像It+1和待检测物体的包络框bt+1;2-5)利用识别函数fc对st+1进行识别:若t+1时刻采集的图像It+1中待检测物体的包络框bt+1中待检测物体的识别可信度高于识别阈值ψ,即fc(st+1)>ψ,则物体成功检测,返回t时刻状态动作奖励rt=1,选择at+1=NULL,然后进入步骤2-6);否则,物体未成功检测,返回t时刻状态动作奖劢rt=0,根据式(1)机器人选取t+1时刻对应动作at+1,然后进入步骤2-6);2-6)将步骤2-3)至步骤2-5)中得到的一条状态动作记录{st,at,rt,st+1,at+1}放入存储库M中,进入步骤2-7);2-7)对M的记录数进行判定:若M中的记录数量小于取样数量B,则进入步骤2-8);若M中的记录数量大于等于取样数量B,则进入步骤2-9),对当前神经网络进行训练;若M中的记录数到达容量上限D时,则新增加的一条记录覆盖M中最早的一条记录,然后进入步骤2-9);2-8)对at+1的值进行判定:若at+1=NULL,当前时刻物体已被成功检测,则重新返回步骤2-2),机器人以任意动作进行运动,直到重新进入训练状态;否则,当前时刻物体尚未被成功检测,则重新返回步骤2-3);2-9)对当前神经网络进行训练;具体步骤如下:2-9-1)从存储库M中随机选取B条记录作为当前批次训练样本,c=c+1;2-9-2)处理当前批次训练样本中每条记录,根据Bellman方程计算第i条的训练目标值进入步骤2-9-3);2-9-3)利用步骤2-9-本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的物体检测方法,其特征在于,该方法包括以下步骤:1)构建一个深度强化学习神经网络Q,包括:图像特征提取网络、图像特征降维网络、图像特征尺寸调整层、包络框元素拓展网络和动作价值估计网络五个部分;所述图像特征提取网络连接图像特征降维网络,图像特征降维网络连接图像特征尺寸调整层,图像特征尺寸调整层与包络框元素拓展网络分别连接动作价值估计网络;上述各部分网络结构及功能说明如下:所述图像特征提取网络,由Resnet‑18神经网络的前9层组成;记t时刻采集的RGB图像为It.利用图像缩放技术,将图像尺寸调整为3×216×384,其中,3为RGB色彩通道,216为高度,384为宽度,输入至图像特征提取网络,图像特征提取网络输出为t时刻图像对应的卷积特征

【技术特征摘要】
1.一种基于深度强化学习的物体检测方法,其特征在于,该方法包括以下步骤:1)构建一个深度强化学习神经网络Q,包括:图像特征提取网络、图像特征降维网络、图像特征尺寸调整层、包络框元素拓展网络和动作价值估计网络五个部分;所述图像特征提取网络连接图像特征降维网络,图像特征降维网络连接图像特征尺寸调整层,图像特征尺寸调整层与包络框元素拓展网络分别连接动作价值估计网络;上述各部分网络结构及功能说明如下:所述图像特征提取网络,由Resnet-18神经网络的前9层组成;记t时刻采集的RGB图像为It.利用图像缩放技术,将图像尺寸调整为3×216×384,其中,3为RGB色彩通道,216为高度,384为宽度,输入至图像特征提取网络,图像特征提取网络输出为t时刻图像对应的卷积特征大小为128×25×48的矩阵;所述图像特征降维网络,由2个降维模块组成,每个降维模块包含一层卷积神经层和一层池化神经层,图像特征降维网络的输入为步骤1-1)得到t时刻图像的卷积特征经过两个降维模块的降维,图像特征降维网络的输出为t时刻图像降维后的图像卷积特征大小为128×7×12的矩阵;所述图像尺寸调整层,输入为步骤1-2)中得到的t时刻图像降维后的图像卷积特征通过调整特征尺寸,将降维后的图像卷积特征调整为10752维向量所述包络框元素拓展网络,由多于1层的全连接层组成,包络框元素拓展网络的输入为图像It中待检测物体的包络框bt,输出为拓展后的t时刻图像包络框特征向量所述待检测物体的包络框,包含四个元素,令t时刻图像中待检测物体的包络框为bt={xt,yt,wt,ht},其中xt,yt为t时刻待检测物体包络框的中心点的横、纵坐标,wt,ht为t时刻包络框的宽度和高度;所述动作价值估计网络,由多于1层的全连接层组成,动作价值估计网络的输入为步骤1-3)中得到降维后的t时刻图像卷积特征与步骤1-4)中得到的t时刻图像包络框特征向量拼接得到的t时刻机器人状态向量输出为t时刻机器人每个动作价值的估计值,每个输出单元对应一种机器人动作种类;2)对步骤1)构建的深度强化学习神经网络Q进行训练,得到训练完毕的深度强化学习神经网络Q*;具体步骤如下:2-1)随机初始化神经网络Q的参数θ,将步骤1)建立的神经网络Q记为当前神经网络,令初始训练次数c=0,设置存储库M容量D=1024,取样数量B=128;2-2)在进入训练状态前,机器人在环境中以任意动作进行运动,机器人所搭载的相机以工作频率对周围环境采集图像,使用获取候选区域方法对采集图像进行处理,在每张图像中获取若干个候选区域,利用选定的识别函数fc来进行识别每个候选区域,将低于识别阈值ψ且最接近识别阈值的一个候选区域作为待检测物体的包络框;在机器人之后的运动中所采集每张图像的包络框通过跟踪方法从连续拍摄的图像的上一帧映射到当前帧,从而得到当前帧的包络框;机器人进入训练状态,进入步骤2-3);2-3)记当前时刻为t,机器人当前时刻的状态st由当前时刻采集的图像It及该图像中待检测物体包络框bt表示,即st={It,bt},机器人选取该时刻对应动作at,动作选取准则如下:在[0,1]范围内产生一随机数α并进行判定:若α小于动作选取阈值ε,则机器人在设定的机器人动作集合A中随机选取一动作执行;否则,将机器人当前时刻状态输入到当...

【专利技术属性】
技术研发人员:刘华平韩小宁孙富春
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1