基于多尺度预测CNN及龙芯芯片的多类别目标识别方法技术

技术编号:26378020 阅读:25 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开了一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,包括:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出分类结果;将分类结果为物体的候选框,去除重复的候选框;对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;视觉摄像头采集视频文件,并且统一尺寸大小;将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。本发明专利技术充分考虑了目标识别快速准确的特点,设计了多尺度背景预测卷积神经网络,利用多尺度网络模型来对多类别目标进行识别,提高了对于多类别目标的识别准确率和速度,并且具有很高的可移植性,应用前景广泛。

【技术实现步骤摘要】
基于多尺度预测CNN及龙芯芯片的多类别目标识别方法
本专利技术涉及多类别目标识别及深度学习领域,具体涉及一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法。
技术介绍
随着计算机视觉的不断发展,深度学习在视觉处理的多目标识别领域也不断拓宽。可是目前部分多目标识别算法仍存在识别目标不准确,识别速度慢的问题,为满足视觉领域对多类别目标识别的要求及对深度学习模型移植小型化嵌入式系统的需求,研究基于国产龙芯芯片的快速准确多类别目标识别技术具有重要意义。目前,多目标识别主要有两种方法,一是通过图像处理中的模板匹配法,就是选取模板后,在待搜索图像中搜索出与模板匹配程度最高的子图,再进行模板和子图的相似度匹配完成识别,这种匹配方法计算量很大,难以应用在对目标识别速度要求较高的实时多类别目标识别领域上。二是通过深度学习的方法,采用神经网络模型完成识别多类别目标,但目前采用深度学习的方法进行多类别目标识别,由于复杂情况下的目标存在互相遮挡以及尺度大小变化的问题,神经网络模型识别目标容易出现误检或者是漏检的问题。
技术实现思路
专利技术目的:为了克服现有技术中存在的不足,针对目前目标识别技术对多类别目标识别精度与速度不高的问题,提出一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,设计了多尺度背景预测卷积神经网络模型与算法,提升了多类别目标识别的快速性与准确性。技术方案:为实现上述目的,本专利技术提供一种基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,包括如下步骤:S1:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;S2:将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;S3:选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;S4:视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;S5:将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。进一步的,所述步骤S1中多尺度背景预测卷积神经网络包括三个部分,其具体搭建方法如下:第一部分的搭建:第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于COCO数据集,COCO数据集里的每一张图像送到输入层;输入层后面是第一部分的第一个卷积层;对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式计算得到第一部分的第一个卷积层的输出大小;在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层;第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层;第二部分的搭建:第二部分包括一个卷积层和一个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层;第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有2个神经元,对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到2个目标类别的置信度系数,置信度系数指目标类别的概率;设定一个阈值K1,如果物体的置信度系数大于K1或背景的置信度系数小于K1,则将第二部分的卷积层的输出送入第三部分的每一个卷积层中;第三部分的搭建:第三部分包括六个卷积层和两个全连接层,将由第二部分的卷积层的输出送入第三部分的第一个卷积层;第二部分的卷积层的输出使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第四个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第五个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第六个卷积层;第三部分的每一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第一个全连接层,第三部分的第一个全连接层有N1个神经元,对应N1个目标类别,第三部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层,第三部分的第二个全连接层有N2个神经元,对应N1个目标类别的候选框位置,每个候选框位置由坐标(x,y,l,h)确定,x代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的水平距离,y代表候选框左上角顶点在多尺度背景预测卷积神经网络输入层的每一张图像中距离每一张图像左上角顶点的竖直距离,l代表候选框的长度,h代表候选框的高度。进一步的,所述步骤S2具体包括如下步骤:A1:对每个目标里的1000个候选框按照对应的置信度系数的大小情况,由大到小进行排序;A2:选中最大置信度系数对应的候选框,计算剩余候选框与最大置信度系数对应的候选框之间的IoU值,IoU值计算公式如下:IoU=S2/S3其中,S2表示两个候选框面积的交集,S3表示两个候选框面积的并集;A3:设定一个阈值T,根据下式计算新的置信度系数:其中,M为最大置信度系数对应的候选框,si为第i个候选框的置信度系数,bi为第i个候选框,IOU(M,bi)为M与bi的IOU值,σ为常数,e=2.71828,G为最大置信度系数对应的候选框经过上式计算得到的新的置信度系数;如果G<T,则删除最大置信度系数对应的候选框;A4:从剩余候选框中继续选取一个最大置信度系数对应的候选框,重复步骤A1~步骤A3,直到只剩一个候选框,候选框的坐标位置(x,y,l,h)就是目标的实际位置,最大置信度系数对应的目标类别就是目标的实际类别。进一步的,所述步骤S3具体包括如下步骤:B1:任意选择COCO数据集中里的10000张真实图像,并且将10000张图像使用双线性插值法得到尺寸为500*500的图像;B2:将1000张图像按照4:1比例划分为训练集和测试集,在训练的过程中,将1000张图像里的每100张图像作为一个训练单元;B3:损失函数使用交叉熵损失函数,网络优化器采用亚当优化器,对多尺度背景预测卷积神经网络进行充分训练,得到训练好的多尺度背景预测卷积神经网络模型。进一步的,所述步骤S4具体包括如下步骤:C1:视觉摄像头采集视频文件;C2:将采集的本文档来自技高网...

【技术保护点】
1.基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:包括如下步骤:/nS1:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;/nS2:将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;/nS3:选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;/nS4:视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;/nS5:将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。/n

【技术特征摘要】
1.基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:包括如下步骤:
S1:将目标图像输入到搭建好的多尺度背景预测卷积神经网络,输出物体和背景的二分类结果以及多尺度目标的候选框大小、位置和类别;
S2:将分类结果为物体的候选框通过高斯加权非极大值抑制算法,去除重复的候选框;
S3:选择网络优化器,使用COCO数据集作为多尺度背景预测卷积神经网络的训练数据集,对多尺度背景预测卷积神经网络充分训练,得到训练好的多尺度背景预测卷积神经网络;
S4:视觉摄像头采集视频文件,然后将采集的视频文件逐帧转换为彩色图像,并对彩色图像统一尺寸大小;
S5:将训练好的多尺度背景预测卷积神经网络模型移植到基于龙芯芯片的嵌入式系统中完成对多类别目标的识别。


2.根据权利要求1所述的基于多尺度预测CNN及龙芯芯片的多类别目标识别方法,其特征在于:所述步骤S1中多尺度背景预测卷积神经网络包括三个部分,其具体搭建方法如下:
第一部分的搭建:
第一部分包括一个输入层和三个卷积层,用于对数据进行卷积特征提取,第一部分的输入来自于COCO数据集,COCO数据集里的每一张图像送到输入层;输入层后面是第一部分的第一个卷积层;
对于第一部分的第一个卷积层,由卷积层的输出尺寸计算公式计算得到第一部分的第一个卷积层的输出大小;
在第一部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第二个卷积层;
第一部分的第二个卷积层后也使用线性整流函数作为激活函数,将经过激活函数的数据送入第一部分的第三个卷积层;
第二部分的搭建:
第二部分包括一个卷积层和一个全连接层;第一部分的第三个卷积层的输出用来输入到第二部分的第一个卷积层;
第二部分的第一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第二部分的第一个全连接层,第二部分的第一个全连接层有2个神经元,对应物体和背景这2个目标类别,第二部分的第一个全连接层后面使用softmax函数,得到2个目标类别的置信度系数,置信度系数指目标类别的概率;设定一个阈值K1,如果物体的置信度系数大于K1或背景的置信度系数小于K1,则将第二部分的卷积层的输出送入第三部分的每一个卷积层中;
第三部分的搭建:
第三部分包括六个卷积层和两个全连接层,将由第二部分的卷积层的输出送入第三部分的第一个卷积层;第二部分的卷积层的输出使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第二个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第三个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第四个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第五个卷积层;第二部分的卷积层的输出也使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第六个卷积层;
第三部分的每一个卷积层后使用线性整流函数作为激活函数,将经过激活函数的数据送入第三部分的第一个全连接层,第三部分的第一个全连接层有N1个神经元,对应N1个目标类别,第三部分的第一个全连接层后面使用softmax函数,得到N1个目标类别的置信度系数,置信度系数指目标类别的概率;同时对经过激活函数的第三部分的第一个卷积层送入第三部分的第二个全连接层,第三部分的第二个全连接层有N2个神经元,...

【专利技术属性】
技术研发人员:陆飞谢非卢毅曹湘玉吴启宇吴奕之陈瑾杰叶欣雨吴俊章悦
申请(专利权)人:南京师范大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1