基于卷积神经网络的噪声图像目标边界框确定方法技术

技术编号：21400280 阅读：27 留言：0更新日期：2019-06-19 07:20

本发明专利技术公开了基于卷积神经网络的噪声图像目标边界框确定方法，本发明专利技术将候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元。通过训练卷积神经网络，对候选矩形框的每个横向和竖向单元学习预测in‑out概率确定出目标物体的四个边界。构建一个卷积神经网络，得到整幅图像的特征图，然后将候选边界框和整幅图像的特征图一起输入到显著性模块中，得到每个候选边界框的显著性分数，筛选出分数高的候选边界框并扩大一定倍数后，和整幅图像的特征图一起输入到目标定位模块，该in‑out概率为两组概率值，分别对应每个候选边界框横向和竖向单元存在物体的可能性大小。通过解码in‑out概率，即可确定出每个候选边界框中目标物体的上、下、左、右四个边界。

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的噪声图像目标边界框确定方法
本专利技术涉及一种基于卷积神经网络的噪声图像目标边界框确定方法，属于计算机视觉领域中的目标定位

技术介绍
目标定位是计算机视觉领域中一个重要的课题。它与目标检测任务类似，需要预测图像中感兴趣目标的位置，一般通过判断目标的边界框实现。但它与目标检测任务不同的地方在于，目标定位不关心目标物体的类别，仅对图像中出现的所有物体的位置进行预测，给出目标的边界框。而目标检测任务不仅要预测目标的边界框，还要判断目标物体的类别。近年来，目标定位在智能视频监控、车辆自动驾驶、机器人环境感知等领域都有着广泛的应用。然而，在某些场景下，由于环境因素，所拍摄到的图像并非十分清晰，往往带有噪声，例如在云雾环境中拍摄的天空图像中给飞机定位，在风沙环境中拍摄的路面图像中给汽车定位，在雾霾环境中拍摄的监控图像中给行人定位等等。那么，针对这种含有噪声的图像如何进行目标定位，准确的判断出目标边界框的位置，目前还未出现有效的解决方法。针对非噪声图像的目标定位已有很多十分出色的方法，对此，展开了广泛调研。传统的目标定位方法可分为三大类：第一类是基于统计的定位方法，通过对图像的全局数据进行分析，获得目标区域；第二类是基于边缘分割的定位方法，通过捕获目标物体的边缘，从而获得目标位置；第三类是基于区域的定位方法，通过对区域进行合并与分裂，获得目标位置。传统方法的典型代表有objectness(B.Alexe,T.Deselaers,V.Ferrari,Whatisanobject.IEEEConferenceonComputerVisionand...

【技术保护点】
1.基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：将目标定位问题重新定义为一个概率问题，根据目标物体和背景的特征差异，来预测目标物体存在于每个位置的概率；首先，对噪声图像生成一系列候选边界框，然后将每个候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元；所谓in‑out概率，即每个单元存在物体的可能性大小；通过训练卷积神经网络，对候选边界框的每个横向和竖向单元学习预测in‑out概率，由此确定出目标边界框的上、下、左、右四个边界；本方法的实现过程分为以下4步：(1)搭建用于训练和测试的卷积神经网络：网络包含三个模块，即基本模块、显著性预测模块和目标定位模块；基本模块用于得到整幅图像的特征图，显著性预测模块用于预测候选边界框包含物体的可能性的大小，目标定位模块用于预测候选边界框的in‑out概率；(2)准备训练和测试数据：训练和测试数据包括图像以及图像中包含的目标物体的真实边界框；将图像缩放为合适大小，并为每张图像增加随机噪声，用于模拟现实场景；以滑动窗的方式为每张训练图像生成一系列矩形框，通过计算矩形框与真实边界框的重叠率，将矩形框划分为候选边界框和背景矩形框...

【技术特征摘要】
1.基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：将目标定位问题重新定义为一个概率问题，根据目标物体和背景的特征差异，来预测目标物体存在于每个位置的概率；首先，对噪声图像生成一系列候选边界框，然后将每个候选边界框划分成等宽的若干行与若干列，每一行或每一列称为一个单元；所谓in-out概率，即每个单元存在物体的可能性大小；通过训练卷积神经网络，对候选边界框的每个横向和竖向单元学习预测in-out概率，由此确定出目标边界框的上、下、左、右四个边界；本方法的实现过程分为以下4步：(1)搭建用于训练和测试的卷积神经网络：网络包含三个模块，即基本模块、显著性预测模块和目标定位模块；基本模块用于得到整幅图像的特征图，显著性预测模块用于预测候选边界框包含物体的可能性的大小，目标定位模块用于预测候选边界框的in-out概率；(2)准备训练和测试数据：训练和测试数据包括图像以及图像中包含的目标物体的真实边界框；将图像缩放为合适大小，并为每张图像增加随机噪声，用于模拟现实场景；以滑动窗的方式为每张训练图像生成一系列矩形框，通过计算矩形框与真实边界框的重叠率，将矩形框划分为候选边界框和背景矩形框，分别用显著性分数1和0加以区分，用于训练神经网络学习物体和背景矩形框的整体特征差异；以一定的倍数，扩大候选边界框在图像中的区域范围，以防止候选边界框包含不完整的物体；为每个扩大区域后的候选边界框定义in-out概率，用于训练神经网络学习物体和背景矩形框的局部特征差异；(3)训练网络：开始训练网络之前，首先使用均匀分布的随机变量对网络参数进行初始化；接下来，对以下过程进行反复循环迭代，直到达到训练结束的指标：随机选取一张训练图像，经过预处理后，得到噪声图像、候选边界框和背景矩形框、预设的显著性分数，和候选边界框的in-out概率；将噪声图像输入基本模块中，得到整幅图像的特征图；将候选边界框、背景矩形框、预设的显著性分数和整幅图像的特征图输入到显著性预测模块中，输出损失值，使用梯度下降和反向传播算法，对显著性预测模块的网络参数进行更新；将候选边界框、候选边界框的in-out概率和整幅图像的特征图输入到目标定位模块，输出损失值，用梯度下降和反向传播算法对目标定位模块的网络参数进行更新；将显著性预测模块和目标定位模块各自反向传播到第一层的损失值相加，作为基本模块的损失值，用梯度下降和反向传播算法对基本模块的网络参数进行更新；(4)测试网络：每当对所有训练图像训练完成一轮后，将训练网络的相应参数拷贝到测试网络中进行测试；随机选取一张测试图像，经过预处理后，得到噪声图像和一系列矩形框；将噪声图像输入基本模块中，得到整幅图像的特征图；将矩形框和整幅图像的特征图输入到显著性预测模块中，输出预测的显著性分数；根据预先设定的阈值，去除预测的显著性分数低于阈值的矩形框，保留预测的显著性分数高于阈值的矩形框；以一定的倍数，扩大矩形框在图像中的区域范围，作为候选边界框，并与整幅图像的特征图一起输入到目标定位模块中，输出预测的in-out概率；解码预测的in-out概率，得到候选边界框上、下、左、右的四个边界，从而得到测试图像中目标物体的边界框的预测位置，并根据标注文件给出的目标物体真实边界框的位置计算该张测试图像的召回率；对所有测试图像计算一遍召回率，最后计算所有测试图像召回率的平均值，若该平均值达到预设的指标，则结束训练，否则继续对训练图像进行训练。2.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：搭建用于训练和测试的的卷积神经网络结构：网络共包含三个模块，即基本模块、显著性预测模块和目标定位模块，分别用于得到整幅图像的特征图、预测输入的矩形框的显著性分数、预测候选边界框的in-out概率；步骤(1.1)，搭建基本模块：基本模块由卷积层、ReLU激活层和最大值池化层组成；卷积层用于提取图像特征，激活层用于对特征非线性化，最大值池化层用于降低特征维度；步骤(1.2)，搭建显著性预测模块：显著性预测模块由感兴趣区域ROI池化层、全连接层、softmax损失层即训练用或1个softmax层即测试用组成；ROI池化层用于从整幅图像的特征图上提取每个生成的矩形框对应的特征，全连接层用于将每个矩形框的特征映射到分类空间，二分类：物体和背景，训练时使用softmax损失，用于预测每个矩形框的显著性分数，同时计算预测的显著性分数与预定义的显著性分数的差异，测试时使用softmax层，用于预测每个矩形框的显著性分数；步骤(1.3)，搭建目标定位模块：该模块由ROI池化层、卷积层、最大值池化层、全连接层、变形层、拼接层、sigmoid损失层或sigmoid层组成；ROI池化层用于从整幅图像的特征图上提取每个候选边界框对应的特征，卷积层用于进一步提取每个候选边界框的特征，最大值池化层用于降低特征维度，全连接层用于将特征映射到分类空间，变形层用于调整特征维度，拼接层用于将两个维度大小一致的特征拼接在一起，训练时使用sigmoid损失层，用于预测in-out概率，同时计算预测的in-out概率与预定义的in-out概率的差异，测试时使用sigmoid层，用于预测in-out概率。3.根据权利要求1所述的基于卷积神经网络的噪声图像目标边界框确定方法，其特征在于：准备训练和测试数据包括如下步骤，步骤(2.1)，选取训练和测试图像：选取一个用于目标检测或定位的图像数据集，已划分好训练集和测试集，若没有，则以7：3的比例将图像划分为训练集和测试集；用于目标检测或定位的图像数据集中的每张图像都包含有一个标注文件，记录了该图像中所有目标物体的位置信息(a1,z1,a2,z2)，其中(a1,z1)和(a2,z2)分别表示目标物体外接边界框的左上顶点和右下顶点的坐标，图像中点的坐标定义，图像左上顶点坐标设为(0,0)，水平方向为x轴，竖直方向为y轴；步骤(2.2)，图像预处理：将每张图像缩放为预设的大小，根据图像的缩放值，对该图像的标注文件中给出的目标物体边界框的坐标位置进行相应的调整，调整后的边界框作为真实边界框，记作GT；对每张图像施加随机高斯噪声Noise，高斯噪声的均值μ和方差σ均在区间[0,1]内随机取值，假设原图像为I，则施加噪声后的图像为I′＝I+Noise；步骤(2.3)，生成候选边界框和背景矩形框，所谓候选边界框，即可能存在物体的矩形框，背景矩形框，即没有物体存在的矩形框，具体操作如下：步骤(2.3.1)，定义ε种宽高比、ρ种最短边长度的种子...

【专利技术属性】
技术研发人员：陶晓明，王隽，段一平，陆建华，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人