【技术实现步骤摘要】
一种基于高速卷积神经网络的大目标识别方法
本专利技术涉及计算机视觉
,尤其涉及一种基于高速卷积神经网络的大目标识别方法。
技术介绍
目标识别是计算机视觉与模式识别的一个分支,是人工智能学科的一个重要组成部分。目标识别方法分为数字图像处理法和基于卷积神经网络的目标识别法。传统的数字图像处理需要人工提取多重特征,如尺度不变特征变换(Scale-invariantfeaturetransform,SIFT),方向梯度直方图(HistogramofOrientedGridients,HOG)和局部二值模式(LocalBinaryPatterns,LBP)等,这些特征无法表达更抽象的目标类别信息。而基于卷积神经网络的目标识别可以像人类认知过程一样,可以完成对图像中的物体进行分类、分割和场景解释等抽象的任务。卷积神经网络在图像目标识别上有较大优势,多种不同结构的卷积网络的优异表现使其成为了计算机视觉研究的核心,无论是对该领域的广度研究还是深度研究,都值得去进一步探索。但嵌入式平台的功耗低,计算能力弱,无法运行大规模卷积神经网络,或 ...
【技术保护点】
1.一种基于高速卷积神经网络的大目标识别方法,其特征在于:包括以下步骤:/n步骤1、将待识别的目标图片输入通用型特征提取网络,实现对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;/n所述通用型特征提取网络包括一个图片尺寸转化层、五个卷积层和五个最大值池化层;所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片;图片尺寸转化层连接一个卷积层,实现对预处理后得到的标准三通道图片进行一次特征提取;五个卷积层和五个最大值池化层交替连接,实现对目标图片的五次特征提取和五次降采样处理;/n步骤2、建立大目标识别的目标分类与位置回归网络,并将通用型 ...
【技术特征摘要】
1.一种基于高速卷积神经网络的大目标识别方法,其特征在于:包括以下步骤:
步骤1、将待识别的目标图片输入通用型特征提取网络,实现对目标图片进行五次特征提取,每次特征提取后均对应一次降采样处理,得到降采样的特征;
所述通用型特征提取网络包括一个图片尺寸转化层、五个卷积层和五个最大值池化层;所述图片尺寸转化层对目标图片进行预处理后得到标准三通道图片;图片尺寸转化层连接一个卷积层,实现对预处理后得到的标准三通道图片进行一次特征提取;五个卷积层和五个最大值池化层交替连接,实现对目标图片的五次特征提取和五次降采样处理;
步骤2、建立大目标识别的目标分类与位置回归网络,并将通用型特征提取网络最后输出的降采样特征作为目标分类与位置回归网络的输入,得到全部的目标类别和目标位置;
所述目标分类与位置回归网络包括四个回归网络卷积层、一个最大值池化层6和一个输出层;所述最大值池化层6衔接第一个回归网络卷积层,输出层衔接最后一个回归网络卷积层;
步骤3、采用IOA预测框评价单元计算目标分类与位置回归网络训练得到的预测值与真实值产生的误差,使用预测误差来优化目标分类与位置回归网络,提高网络的识别精度;
目标分类与位置回归网络将输入图像分成S×S个网格;每个网格负责检测中心落在自己区域的目标类别;每个网格预测3个预测框,每个预测框预测预测框的中心坐标和宽高(x,y,w,h)以及置信度共5个值,同时,每个网格还要预测一个目标类别信息,记为C类,最后目标分类与位置回归网络输出一个S×S×(5*3+C)维的向量;所述置信度代表了本预测框中含有识别目标的置信度和这个预测框预测效果的准确率,其值计算为如果有识别目标落在此网格里,则Pr(Object)取值为1,否则取值为0;为通过IOA预测框评价单元判断预测框的预测效果,其值为预测框矩形和真实框矩形的交集面积与两个矩形的最小顶点与最大顶点组成的矩形面积的比值;
目标类别信息是针对每个网格的,置信度信息是针对每个预测框的;每个网格预测的目标类别信息和预测框预测的置信度信息相乘,就得到每个预测框的某一类别预测得分,如下公式所示:
其中,Pr(Classi|Object)为每个网格预测的目标类别信息,为每个预测框预测的置信度,这个乘积即反应了预测目标属于某一类的概率,也有该预测框准确度的信息;得到每个预测框的某一目标类别预测得分以后,使用设定的阈值过滤掉得分低的预测框,对保留的预测框进行非极大值抑制处理,得到最终的目标识别的结果,实现对目标分类与位置回归网络的优化;
所述目标分类与位置回归网络采用目标分类与位置回归网络输出各项的误差加权求和作为全网络的损失函数。
2.根据权利要求1所述的一种基于高速卷积神经网络的大目标识别方法,其特征在于:所述通用型特征提取网络包括的一个图片尺寸转化层、五个卷积层和五个最大值池化层具体为:
图片尺寸转化层:在图片输入之前加入图片尺寸转化层,将非矩形、非标准的图片处理成416×416像素的图片,经过矩形裁剪、尺寸标准化两个步骤完成图片预处理任务,得到416×416×3的标准三通道图片;
卷积层1:标准输入格式为416×416×3,输入为预处理后416×416像素的原始图片,色彩为三通道彩色图像;该卷积层有16个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出416×416×16的1次特征提取特征;
最大值池化层1:标准输入格式为416×416×16,衔接卷积层1;使用2×2的池化核进行降采样,步长为(2,2),最后输出208×208×16尺寸的1次降采样特征;
卷积层2:标准输入格式为208×208×16,衔接最大值池化层1;该层有32个卷积核,步长为(1,1),卷积核尺寸为3×3,经过全部卷积核的处理后输出208×208×32的2次特征提取特征;
最大值池化层2:标准输入格式为208×208×32,衔接卷积层2;使用2x2的池化核进行降采样,步长为(2,2),最后输...
【专利技术属性】
技术研发人员:吕艳辉,张德育,刘勇,
申请(专利权)人:沈阳理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。