图片中目标物的定位方法及装置制造方法及图纸

技术编号：15502184 阅读：52 留言：0更新日期：2017-06-03 23:12

本公开是关于一种图片中目标物的定位方法及装置。方法包括：根据已训练的FCN的输入维度以及原始图片的分辨率，对原始图片进行缩放处理，得到缩放后的图片；将缩放后的图片输入到FCN中，通过FCN的前设定个数的卷积层进行卷积处理，得到经过该前设定个数的卷积层卷积处理的第一图像特征；将第一图像特征处理成具有不同分辨率的至少一个第二图像特征；基于FCN中并且位于前设定个数的卷积层之后的卷积层，对至少一个第二图像特征分别进行卷积处理，得到具有不同分辨率的至少一个热度图；基于至少一个热度图，确定目标物在原始图片中的位置区域。本公开技术方案可以对目标物实现多尺度的检测，大大提高目标物的识别效率。

Method and device for positioning object in picture

The present disclosure relates to a method and a device for positioning an object in a picture. The method includes: according to the input dimensions of the trained FCN and the original image resolution of original image to zoom, zoom the picture will get; zoom the picture after the input to the FCN, convolution layer setting the number by FCN before the convolution processing, obtained through the pre setting the number of convolution the first layer convolution processing image features; the first image features into at least one of the second images with different resolution; based on convolution layer after layer FCN and convolution located in the former setting the number of at least one of second image features were convolution processing, get at least a heat map with different resolution; at least one heat map based on the determined location area of objects in the original picture of. The technical proposal of the invention can realize the multi-scale detection of the target, and greatly improve the recognition efficiency of the object.

全部详细技术资料下载

【技术实现步骤摘要】
图片中目标物的定位方法及装置
本公开涉及图像处理
，尤其涉及一种图片中目标物的定位方法及装置。
技术介绍
当通过已训练的全卷积神经网络(FullConvolutionalNeuralNetworks，简称为FCN)模型对图片中的人脸进行检测时，通过该FCN模型得到一热度图(heatmap)，通过在热度图中识别目标物(例如，人脸)所在区域的概率。受限于相机的镜头与目标物之间的空间距离，会导致目标物在图片中所占的尺寸是不固定的，因此相关技术在对目标物进行识别检测时需要根据具体情形对图片缩放多次，从而实现多尺度的检测，以提高识别准确率。由于需要对图片进行多次缩放，会降低目标物的识别效率。
技术实现思路
为克服相关技术中存在的问题，本公开实施例提供一种图片中目标物的定位方法及装置，用以提高识别目标物的效率。根据本公开实施例的第一方面，提供一种图片中目标物的定位方法，包括：根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率，对所述原始图片进行缩放处理，得到缩放后的图片；将所述缩放后的图片输入到所述全卷积神经网络中，通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理，得到经过该前设定个数的卷积层卷积处理的第一图像特征；将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征；基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层，对所述至少一个第二图像特征分别进行卷积处理，得到具有不同分辨率的至少一个热度图，所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值；基于所述至少一个热度图，确定所述目标物在所述原始图片中的位...
图片中目标物的定位方法及装置

【技术保护点】
一种图片中目标物的定位方法，其特征在于，所述方法包括：根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率，对所述原始图片进行缩放处理，得到缩放后的图片；将所述缩放后的图片输入到所述全卷积神经网络中，通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理，得到经过该前设定个数的卷积层卷积处理的第一图像特征；将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征；基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层，对所述至少一个第二图像特征分别进行卷积处理，得到具有不同分辨率的至少一个热度图，所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值；基于所述至少一个热度图，确定所述目标物在所述原始图片中的位置区域。

【技术特征摘要】
1.一种图片中目标物的定位方法，其特征在于，所述方法包括：根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率，对所述原始图片进行缩放处理，得到缩放后的图片；将所述缩放后的图片输入到所述全卷积神经网络中，通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理，得到经过该前设定个数的卷积层卷积处理的第一图像特征；将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征；基于所述全卷积神经网络中并且位于所述前设定个数的卷积层之后的卷积层，对所述至少一个第二图像特征分别进行卷积处理，得到具有不同分辨率的至少一个热度图，所述至少一个热度图上的每一个坐标点对应的值为目标物在所述原始图片上的概率值；基于所述至少一个热度图，确定所述目标物在所述原始图片中的位置区域。2.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个热度图确定目标物在所述原始图片中的位置区域，包括：在所述至少一个热度图的每一个热度图上，确定概率值大于预设阈值的多个坐标点；确定所述多个坐标点在所述原始图片中各自对应的像素点；基于所述多个坐标点在所述原始图片中各自对应的像素点，确定所述目标物在所述原始图片中对应的候选框集合，得到所述至少一个热度图各自对应的候选框集合；基于所述至少一个热度图各自对应的候选框集合，确定所述目标物在所述原始图片中的位置区域。3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一个热度图各自对应的候选框集合，确定所述目标物在所述原始图片中的位置区域，包括：基于非极大值抑制算法，对所述至少一个热度图各自对应的候选框集合进行合并，得到所述至少一个热度图各自对应的一个候选框；基于所述非极大值抑制算法，对所述至少一个热度图各自对应的候选框进行合并，将合并后的候选框确定为所述目标物在所述原始图片中的位置区域。4.根据权利要求1所述的方法，其特征在于，所述将所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征，包括：通过连接在所述前设定个数的卷积层之后的空间金字塔池化网络将所述第一图像特征池化为具有不同分辨率的至少一个第二图像特征；或者，根据两个以上的不同预设缩放比例对所述第一图像特征进行下采样，得到具有不同分辨率的至少一个第二图像特征。5.一种图片中目标物的定位装置，其特征在于，所述装置包括：缩放处理模块，被配置为根据已训练的全卷积神经网络的输入维度以及原始图片的分辨率，对所述原始图片进行缩放处理，得到缩放后的图片；第一处理模块，被配置为将所述缩放处理模块缩放后的图片输入到所述全卷积神经网络中，通过所述全卷积神经网络的前设定个数的卷积层进行卷积处理，得到经过该前设定个数的卷积层卷积处理的第一图像特征；第二处理模块，被配置为将所述第一处理模块得到的所述第一图像特征处理成具有不同分辨率的至少一个第二图像特征；第三...

【专利技术属性】
技术研发人员：陈志军，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人