当前位置: 首页 > 专利查询>清华大学专利>正文

基于卷积神经网络的噪声图像目标边界框确定方法技术

技术编号:21400280 阅读:27 留言:0更新日期:2019-06-19 07:20
本发明专利技术公开了基于卷积神经网络的噪声图像目标边界框确定方法,本发明专利技术将候选边界框划分成等宽的若干行与若干列,每一行或每一列称为一个单元。通过训练卷积神经网络,对候选矩形框的每个横向和竖向单元学习预测in‑out概率确定出目标物体的四个边界。构建一个卷积神经网络,得到整幅图像的特征图,然后将候选边界框和整幅图像的特征图一起输入到显著性模块中,得到每个候选边界框的显著性分数,筛选出分数高的候选边界框并扩大一定倍数后,和整幅图像的特征图一起输入到目标定位模块,该in‑out概率为两组概率值,分别对应每个候选边界框横向和竖向单元存在物体的可能性大小。通过解码in‑out概率,即可确定出每个候选边界框中目标物体的上、下、左、右四个边界。

【技术实现步骤摘要】
基于卷积神经网络的噪声图像目标边界框确定方法
本专利技术涉及一种基于卷积神经网络的噪声图像目标边界框确定方法,属于计算机视觉领域中的目标定位

技术介绍
目标定位是计算机视觉领域中一个重要的课题。它与目标检测任务类似,需要预测图像中感兴趣目标的位置,一般通过判断目标的边界框实现。但它与目标检测任务不同的地方在于,目标定位不关心目标物体的类别,仅对图像中出现的所有物体的位置进行预测,给出目标的边界框。而目标检测任务不仅要预测目标的边界框,还要判断目标物体的类别。近年来,目标定位在智能视频监控、车辆自动驾驶、机器人环境感知等领域都有着广泛的应用。然而,在某些场景下,由于环境因素,所拍摄到的图像并非十分清晰,往往带有噪声,例如在云雾环境中拍摄的天空图像中给飞机定位,在风沙环境中拍摄的路面图像中给汽车定位,在雾霾环境中拍摄的监控图像中给行人定位等等。那么,针对这种含有噪声的图像如何进行目标定位,准确的判断出目标边界框的位置,目前还未出现有效的解决方法。针对非噪声图像的目标定位已有很多十分出色的方法,对此,展开了广泛调研。传统的目标定位方法可分为三大类:第一类是基于统计的定位方法,通过对图像的全局数据进行分析,获得目标区域;第二类是基于边缘分割的定位方法,通过捕获目标物体的边缘,从而获得目标位置;第三类是基于区域的定位方法,通过对区域进行合并与分裂,获得目标位置。传统方法的典型代表有objectness(B.Alexe,T.Deselaers,V.Ferrari,Whatisanobject.IEEEConferenceonComputerVisionandPatternRecognition,2010.),BING(M.-M.Cheng,Z.Zhang,W.-Y.Lin,P.Torr,Bing:Binarizednormedgradientsforobjectnessestimationat300fps.IEEEConferenceonComputerVisionandPatternRecognition,2014.),Edgeboxes(C.L.Zitnick,P.Dollar,Edgeboxes:Locatingobjectproposalsfromedges.EuropeanConferenceonComputerVision,2014.)。传统目标定位方法的研究重点在于特征提取,为此,研究人员设计了多种形式的特征,代表性的有SIFT、Haar、HOG等。但是,传统目标定位方法存在以下几个缺点:1)设计的特征为底层特征,对目标的表达能力不足;2)设计的特征缺乏普适性,很难选择单一特征应用于多目标定位,例如,Haar特征用于人脸定位、HOG特征用于行人定位、Strip特征用于车辆定位。为了提取更好的特征,Hinton在2006年提出了深度学习,利用深度神经网络从大量的数据中自动地学习高层特征。相比于人工设计的特征,深度神经网络自动学习的特征更加丰富、表达能力更强。随着深度学习的不断发展,研究者发现利用卷积神经网络进行目标定位,准确度可以获得较大的提升。不仅因为卷积神经网络提取了高层特征,提高了特征的表达能力,还因为卷积神经网络将特征提取和目标定位融合在同一个模型中,通过端到端的训练优化,增强了特征的可分性。所以,基于卷积神经网络的目标定位得到了广泛的关注,成为当前计算机视觉领域的研究热点之一。卷积神经网络主要包括输入层、卷积层、池化层、全连接层等等。输入层的作用在于接收图像,通常为RGB彩色图像,输入前通常对图像进行尺寸归一化、去均值等预处理操作。卷积层的作用是运用卷积操作提取图像特征。池化层通常在卷积层之后,通过对特征图的局部区域进行池化操作,使特征具有一定的空间不变性。常用的池化操作有均值池化和最大值池化。池化层具有类似于特征选择的功能,根据一定规则从特征图中的局部区域计算出重要的特征值。全连接层一般位于特征提取之后,将前一层的所有神经元与当前层的每个神经元相连接。全连接层会根据输出层的具体任务,有针对性地对高层特征进行映射。除此之外,卷积神经网络还包括RoI层、拼接层以及各种损失层。输入图像通过多个卷积层和池化层进行特征提取,逐步由底层特征进化为高层特征;高层特征再根据特定的任务进行后续的处理,可实现图像的分类、定位、分割。经过几十年的发展,不同结构的卷积神经网络涌现出来。1998年,LeCun等人提出了LeNet-5,成功应用于识别手写数字图像。作为早期的卷积神经网络,LeNet-5的深度较浅,仅包含2个卷积层、2个池化层和3个全连接层,大约有6×104个训练参数。LeNet-5输入32×32的单通道图像,输出10维的向量。受训练数据和计算能力的限制,LeNet-5并没有推广应用到其他领域上。基于卷积神经网络的目标定位并不是近几年才提出的,早在1994年卷积神经网络就成功应用于目标定位。当时受限于训练数据和硬件性能等问题,基于卷积神经网络的目标定位在很长一段时间里没有取得进展。与当时的传统目标定位方法相比,无论在定位精度还是定位速度上,基于卷积神经网络的目标定位都没有太大优势,因此,该研究逐渐被忽视。直到2012年,卷积神经网络AlexNet在图像识别上取得了重大的突破,研究者才开始重新审视卷积神经网络,讨论如何将卷积神经网络有效的应用在目标定位中。如今,基于卷积神经网络的目标定位已经超越传统目标定位方法,成为当前定位的主流方法。由于目标可能位于待定位图像的任何位置,而且目标的大小不确定,通常需要构建待定位图像的图像金字塔,在多个尺度上滑动窗口,以穷举的方式搜索目标的位置,导致候选区域的数量庞大。所以,这类方法的定位速度非常慢,很难应用于实际工程中。为了减少候选区的数量,研究人员发现可以利用特定的算法从待定位图像中提取具有一定语义含义的子图像作为候选区。传统的候选区域提取方法有selectivesearch、objectness、CPMC、ICOP等等。通过提取候选区域的特征,经过卷积神经网络的分类和识别,可极大提高目标定位的精度和效率。Girshick等人提出了R-CNN模型。首先,该模型利用selectivesearch方法从待定位图像中提取若干个候选区;然后将候选区缩放为统一的大小,使用卷积神经网络对其进行特征提取;最后运用多个SVM分类器对特征进行分类,完成多目标定位。R-CNN模型需要将候选区域统一为同样大小后才能进行特征提取和特征分类。另外,候选区域存在大量重叠区域,从而导致在提取每个候选区域的特征时引入大量重复计算,降低了定位效率。为了提高R-CNN模型的定位速度和精度,Girshick在此基础上提出了FastR-CNN模型。首先,该模型仍然利用selectivesearch方法从待定位图像中提取若干个候选区。相比于R-CNN模型对每个候选区分别提取特征,FastR-CNN只对待定位图像提取特征;然后将候选区对应的特征图通过空间金字塔池化映射为固定长度的特征向量;最后,特征经过全连接的神经网络进行分类,并且预测边界框的坐标,对候选区进行修正。尽管FastR-CNN进一步提升了定位效率和精度,但是候选区域的选取使用的是selectivesearch方法,该方法在C本文档来自技高网...

【技术保护点】
1.基于卷积神经网络的噪声图像目标边界框确定方法,其特征在于:将目标定位问题重新定义为一个概率问题,根据目标物体和背景的特征差异,来预测目标物体存在于每个位置的概率;首先,对噪声图像生成一系列候选边界框,然后将每个候选边界框划分成等宽的若干行与若干列,每一行或每一列称为一个单元;所谓in‑out概率,即每个单元存在物体的可能性大小;通过训练卷积神经网络,对候选边界框的每个横向和竖向单元学习预测in‑out概率,由此确定出目标边界框的上、下、左、右四个边界;本方法的实现过程分为以下4步:(1)搭建用于训练和测试的卷积神经网络:网络包含三个模块,即基本模块、显著性预测模块和目标定位模块;基本模块用于得到整幅图像的特征图,显著性预测模块用于预测候选边界框包含物体的可能性的大小,目标定位模块用于预测候选边界框的in‑out概率;(2)准备训练和测试数据:训练和测试数据包括图像以及图像中包含的目标物体的真实边界框;将图像缩放为合适大小,并为每张图像增加随机噪声,用于模拟现实场景;以滑动窗的方式为每张训练图像生成一系列矩形框,通过计算矩形框与真实边界框的重叠率,将矩形框划分为候选边界框和背景矩形框,分别用显著性分数1和0加以区分,用于训练神经网络学习物体和背景矩形框的整体特征差异;以一定的倍数,扩大候选边界框在图像中的区域范围,以防止候选边界框包含不完整的物体;为每个扩大区域后的候选边界框定义in‑out概率,用于训练神经网络学习物体和背景矩形框的局部特征差异;(3)训练网络:开始训练网络之前,首先使用均匀分布的随机变量对网络参数进行初始化;接下来,对以下过程进行反复循环迭代,直到达到训练结束的指标:随机选取一张训练图像,经过预处理后,得到噪声图像、候选边界框和背景矩形框、预设的显著性分数,和候选边界框的in‑out概率;将噪声图像输入基本模块中,得到整幅图像的特征图;将候选边界框、背景矩形框、预设的显著性分数和整幅图像的特征图输入到显著性预测模块中,输出损失值,使用梯度下降和反向传播算法,对显著性预测模块的网络参数进行更新;将候选边界框、候选边界框的in‑out概率和整幅图像的特征图输入到目标定位模块,输出损失值,用梯度下降和反向传播算法对目标定位模块的网络参数进行更新;将显著性预测模块和目标定位模块各自反向传播到第一层的损失值相加,作为基本模块的损失值,用梯度下降和反向传播算法对基本模块的网络参数进行更新;(4)测试网络:每当对所有训练图像训练完成一轮后,将训练网络的相应参数拷贝到测试网络中进行测试;随机选取一张测试图像,经过预处理后,得到噪声图像和一系列矩形框;将噪声图像输入基本模块中,得到整幅图像的特征图;将矩形框和整幅图像的特征图输入到显著性预测模块中,输出预测的显著性分数;根据预先设定的阈值,去除预测的显著性分数低于阈值的矩形框,保留预测的显著性分数高于阈值的矩形框;以一定的倍数,扩大矩形框在图像中的区域范围,作为候选边界框,并与整幅图像的特征图一起输入到目标定位模块中,输出预测的in‑out概率;解码预测的in‑out概率,得到候选边界框上、下、左、右的四个边界,从而得到测试图像中目标物体的边界框的预测位置,并根据标注文件给出的目标物体真实边界框的位置计算该张测试图像的召回率;对所有测试图像计算一遍召回率,最后计算所有测试图像召回率的平均值,若该平均值达到预设的指标,则结束训练,否则继续对训练图像进行训练。...

【技术特征摘要】
1.基于卷积神经网络的噪声图像目标边界框确定方法,其特征在于:将目标定位问题重新定义为一个概率问题,根据目标物体和背景的特征差异,来预测目标物体存在于每个位置的概率;首先,对噪声图像生成一系列候选边界框,然后将每个候选边界框划分成等宽的若干行与若干列,每一行或每一列称为一个单元;所谓in-out概率,即每个单元存在物体的可能性大小;通过训练卷积神经网络,对候选边界框的每个横向和竖向单元学习预测in-out概率,由此确定出目标边界框的上、下、左、右四个边界;本方法的实现过程分为以下4步:(1)搭建用于训练和测试的卷积神经网络:网络包含三个模块,即基本模块、显著性预测模块和目标定位模块;基本模块用于得到整幅图像的特征图,显著性预测模块用于预测候选边界框包含物体的可能性的大小,目标定位模块用于预测候选边界框的in-out概率;(2)准备训练和测试数据:训练和测试数据包括图像以及图像中包含的目标物体的真实边界框;将图像缩放为合适大小,并为每张图像增加随机噪声,用于模拟现实场景;以滑动窗的方式为每张训练图像生成一系列矩形框,通过计算矩形框与真实边界框的重叠率,将矩形框划分为候选边界框和背景矩形框,分别用显著性分数1和0加以区分,用于训练神经网络学习物体和背景矩形框的整体特征差异;以一定的倍数,扩大候选边界框在图像中的区域范围,以防止候选边界框包含不完整的物体;为每个扩大区域后的候选边界框定义in-out概率,用于训练神经网络学习物体和背景矩形框的局部特征差异;(3)训练网络:开始训练网络之前,首先使用均匀分布的随机变量对网络参数进行初始化;接下来,对以下过程进行反复循环迭代,直到达到训练结束的指标:随机选取一张训练图像,经过预处理后,得到噪声图像、候选边界框和背景矩形框、预设的显著性分数,和候选边界框的in-out概率;将噪声图像输入基本模块中,得到整幅图像的特征图;将候选边界框、背景矩形框、预设的显著性分数和整幅图像的特征图输入到显著性预测模块中,输出损失值,使用梯度下降和反向传播算法,对显著性预测模块的网络参数进行更新;将候选边界框、候选边界框的in-out概率和整幅图像的特征图输入到目标定位模块,输出损失值,用梯度下降和反向传播算法对目标定位模块的网络参数进行更新;将显著性预测模块和目标定位模块各自反向传播到第一层的损失值相加,作为基本模块的损失值,用梯度下降和反向传播算法对基本模块的网络参数进行更新;(4)测试网络:每当对所有训练图像训练完成一轮后,将训练网络的相应参数拷贝到测试网络中进行测试;随机选取一张测试图像,经过预处理后,得到噪声图像和一系列矩形框;将噪声图像输入基本模块中,得到整幅图像的特征图;将矩形框和整幅图像的特征图输入到显著性预测模块中,输出预测的显著性分数;根据预先设定的阈值,去除预测的显著性分数低于阈值的矩形框,保留预测的显著性分数高于阈值的矩形框;以一定的倍数,扩大矩形框在图像中的区域范围,作为候选边界框,并与整幅图像的特征图一起输入到目标定位模块中,输出预测的in-out概率;解码预测的in-out概率,得到候选边界框上、下、左、右的四个边界,从而得到测试图像中目标物体的边界框的预测位置,并根据标注文件给出的目标物体真实边界框的位置计算该张测试图像的召回率;对所有测试图像计算一遍召回率,最后计算所有测试图像召回率的平均值,若该平均值达到预设的指标,则结束训练,否则继续对训练图像进行训练。2.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法,其特征在于:搭建用于训练和测试的的卷积神经网络结构:网络共包含三个模块,即基本模块、显著性预测模块和目标定位模块,分别用于得到整幅图像的特征图、预测输入的矩形框的显著性分数、预测候选边界框的in-out概率;步骤(1.1),搭建基本模块:基本模块由卷积层、ReLU激活层和最大值池化层组成;卷积层用于提取图像特征,激活层用于对特征非线性化,最大值池化层用于降低特征维度;步骤(1.2),搭建显著性预测模块:显著性预测模块由感兴趣区域ROI池化层、全连接层、softmax损失层即训练用或1个softmax层即测试用组成;ROI池化层用于从整幅图像的特征图上提取每个生成的矩形框对应的特征,全连接层用于将每个矩形框的特征映射到分类空间,二分类:物体和背景,训练时使用softmax损失,用于预测每个矩形框的显著性分数,同时计算预测的显著性分数与预定义的显著性分数的差异,测试时使用softmax层,用于预测每个矩形框的显著性分数;步骤(1.3),搭建目标定位模块:该模块由ROI池化层、卷积层、最大值池化层、全连接层、变形层、拼接层、sigmoid损失层或sigmoid层组成;ROI池化层用于从整幅图像的特征图上提取每个候选边界框对应的特征,卷积层用于进一步提取每个候选边界框的特征,最大值池化层用于降低特征维度,全连接层用于将特征映射到分类空间,变形层用于调整特征维度,拼接层用于将两个维度大小一致的特征拼接在一起,训练时使用sigmoid损失层,用于预测in-out概率,同时计算预测的in-out概率与预定义的in-out概率的差异,测试时使用sigmoid层,用于预测in-out概率。3.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法,其特征在于:准备训练和测试数据包括如下步骤,步骤(2.1),选取训练和测试图像:选取一个用于目标检测或定位的图像数据集,已划分好训练集和测试集,若没有,则以7:3的比例将图像划分为训练集和测试集;用于目标检测或定位的图像数据集中的每张图像都包含有一个标注文件,记录了该图像中所有目标物体的位置信息(a1,z1,a2,z2),其中(a1,z1)和(a2,z2)分别表示目标物体外接边界框的左上顶点和右下顶点的坐标,图像中点的坐标定义,图像左上顶点坐标设为(0,0),水平方向为x轴,竖直方向为y轴;步骤(2.2),图像预处理:将每张图像缩放为预设的大小,根据图像的缩放值,对该图像的标注文件中给出的目标物体边界框的坐标位置进行相应的调整,调整后的边界框作为真实边界框,记作GT;对每张图像施加随机高斯噪声Noise,高斯噪声的均值μ和方差σ均在区间[0,1]内随机取值,假设原图像为I,则施加噪声后的图像为I′=I+Noise;步骤(2.3),生成候选边界框和背景矩形框,所谓候选边界框,即可能存在物体的矩形框,背景矩形框,即没有物体存在的矩形框,具体操作如下:步骤(2.3.1),定义ε种宽高比、ρ种最短边长度的种子...

【专利技术属性】
技术研发人员:陶晓明王隽段一平陆建华
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1