当前位置: 首页 > 专利查询>武汉大学专利>正文

基于自监督机制和区域建议网络的场景分类方法及装置制造方法及图纸

技术编号:23934048 阅读:29 留言:0更新日期:2020-04-25 02:30
本发明专利技术公开了一种基于自监督机制和区域建议网络的场景分类方法及装置,属于图像处理领域,该方法包括:获取场景分类的标准数据集,遵循不同标准数据集的划分规则,将数据集按照标签文件划分为训练集和测试集;构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;采用自监督机制对网络的损失函数进行优化设计;使用训练集图片对基网络、区域建议网络以及联合网络的参数进行交替训练;将测试图像输入已经训练好的网络中,获得图像的场景类别。本发明专利技术无需任何额外的局部区域标注信息,只需要图像的场景类别层级标签即可,使得网络能够针对不同的数据集进行端到端的学习。

Scene classification method and device based on self supervision mechanism and regional suggestion network

【技术实现步骤摘要】
基于自监督机制和区域建议网络的场景分类方法及装置
本专利技术属于图像处理领域,更具体地,涉及一种基于自监督机制和区域建议网络的场景分类方法及装置。
技术介绍
近二十年来,信息及互联网技术的飞速发展使得各种类型数据呈现爆炸式增长,图像数据作为多媒体的重要组成部分也随着各类社交网站及软件的推广而激增。场景分类近年来也受到了越来越多的关注,在自动驾驶、图像检索、无人机飞行等领域有着广泛的应用,而如何对场景进行准确分类也就成为了一项具有挑战性的问题。传统的场景分类方法主要是利用手工设计的特征对图像进行描述,再利用各种监督分类算法对特征进行分类。这类特征往往是从符合人类视觉的特点出发进行设计,关注颜色、结构、纹理、形状等视觉特征,常见的特征有SIFT、HOG、GIST特征等。随着卷积神经网络的出现,深度学习渐渐取代了这一过程,卷积神经网络更有利于提取图片更深层次的特征,因此越来越多的学者将卷积神经网络用于不同的领域,都取得了巨大的进展,随着SUN、Places等大规模数据集的出现,卷积神经网络也在场景分类领域不断取得突破。场景分类由于其任务和数据的特殊性,通用的神经网络结构可能无法充分利用场景图像中的语义信息,场景图像一般内容较为复杂,类内差异性也较大,为了充分利用场景内的语义信息,往往需要将全局特征和多尺度的局部区域特征进行融合,共同对场景图像进行描述,而提取局部区域方法的不同也会造成最终分类准确率的不同。现有场景提取局部区域的方法往往需要对图像进行额外的边框标注,局部边框标注信息作为监督标签指导网络的训练过程,但人工标注的边框信息往往存在两方面的问题:一是标注成本高,对于场景分类这类需要大量图片用于训练的任务来说耗费成本过高;二是人工标注的区域对于场景分类任务来说可能并非最佳的区域,不同于目标检测等任务,在场景分类任务中,决定场景类别的不光是场景中的物体,还与场景中的背景、布局等紧密相关,因此标注的区域往往与最具判别性信息的区域有所偏差。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提出了一种基于自监督机制和区域建议网络的场景分类方法及装置,由此解决现有场景图像提取局部特征需要额外边框标注信息,导致操作困难的技术问题。利用图像自监督信息对局部区域的提取进行指导,提取出更具有判别性的局部区域,提高场景分类的准确率。为实现上述目的,按照本专利技术的一个方面,提供了一种基于自监督机制和区域建议网络的场景分类方法,包括:(1)获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;(3)采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。优选地,在步骤(2)中,构建用于提取特征的基网络,包括:构建用于提取图片深层特征的基网络,其中,对于任一张原始图片,通过所述基网络得到关于所述原始图片的两个中间特征:最后一层卷积层输出的特征图Fp,全局池化层输出的全局特征Fg,并且得到使用所述全局特征进行分类的场景类别概率Rg,Rg为C×1的向量,C表示所述目标场景分类图像数据集中的场景类别的数量。优选地,在步骤(2)中,构建用于提取局部具有可判别信息区域的区域建议网络,包括:所述区域建议网络共享所述基网络的特征图Fp,经过一个卷积层使所述特征图Fp变换坐标空间,再经过一个卷积层,输出以所述特征图Fp中每个像素点为中心、尺寸为h×w的局部区域的得分S,其中,h表示该局部区域高度,w表示该局部区域宽度;根据所述区域建议网络中各局部区域的得分S,使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域,将各所述目标局部区域裁剪并调整分辨率后,输入所述基网络中得到全局池化层输出的M个局部特征Fr,并且得到M个局部区域的场景类别概率Rr,Rr为C×1的向量。优选地,构建用于合并不同尺度特征的联合网络,包括:所述联合网络由全连接层和softmax组成,将所述全局特征Fg和所述M个局部特征Fr进行联合,得到最终的预测场景类别结果R,R为C×1的向量。优选地,步骤(3)包括:(3.1)使用类别分类损失对所述基网络的参数进行修正,其中,所述类别分类损失描述了分别利用全局特征和局部特征进行分类时预测结果与真实类别之间的偏差;(3.2)使用排序损失对所述区域建议网络的参数进行修正,以反映所述区域建议网络提取的局部区域得分与局部区域判别性之间的一致性关系;(3.3)对于所述联合网络,设计联合损失表示全局特征和局部特征进行联合之后预测结果与真实类别之间的偏差。优选地,所述类别分类损失为:其中,Y为真实场景类别,C()为交叉熵损失函数,Rg为由所述基网络得到的场景类别概率,Rr表示由所述区域建议网络得到的场景类别概率,M表示由所述区域建议网络得到的目标局部区域的个数。优选地,所述排序损失为:其中,M表示由所述区域建议网络得到的目标局部区域的个数,其中,所述区域建议网络输出的M个局部区域得分次序为I=[i1,i2,...,iM],所述基网络预测对应类别概率的次序为J=[j1,j2,...,jM],表示所述区域建议网络输出的第ik个目标局部区域的得分,表示所述区域建议网络输出的第jk个目标局部区域的得分。优选地,所述联合损失为:Lj=-logC(R,Y),其中,Y为真实场景类别,C()为交叉熵损失函数,R表示所述联合网络得到的最终的预测场景类别结果。按照本专利技术的另一个方面,提供了一种基于自监督机制和区域建议网络的场景分类装置,包括:图片集获取模块,用于获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;网络构建模块,用于构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;网络参数修正模块,用于采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;网络训练模块,用于使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;场景分类模块,用于将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,能够取得下列有益效果:(1)本文档来自技高网
...

【技术保护点】
1.一种基于自监督机制和区域建议网络的场景分类方法,其特征在于,包括:/n(1)获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;/n(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;/n(3)采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;/n(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;/n(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。/n

【技术特征摘要】
1.一种基于自监督机制和区域建议网络的场景分类方法,其特征在于,包括:
(1)获取目标场景分类图像数据集,根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集;
(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络;
(3)采用自监督机制对网络的损失函数进行优化设计,其中,所述损失函数包括三个部分,共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新;
(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练;
(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中,得到最终的场景分类概率。


2.根据权利要求1所述的方法,其特征在于,在步骤(2)中,构建用于提取特征的基网络,包括:
构建用于提取图片深层特征的基网络,其中,对于任一张原始图片,通过所述基网络得到关于所述原始图片的两个中间特征:最后一层卷积层输出的特征图Fp,全局池化层输出的全局特征Fg,并且得到使用所述全局特征进行分类的场景类别概率Rg,Rg为C×1的向量,C表示所述目标场景分类图像数据集中的场景类别的数量。


3.根据权利要求2所述的方法,其特征在于,在步骤(2)中,构建用于提取局部具有可判别信息区域的区域建议网络,包括:
所述区域建议网络共享所述基网络的特征图Fp,经过一个卷积层使所述特征图Fp变换坐标空间,再经过一个卷积层,输出以所述特征图Fp中每个像素点为中心、尺寸为h×w的局部区域的得分S,其中,h表示该局部区域高度,w表示该局部区域宽度;
根据所述区域建议网络中各局部区域的得分S,使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域,将各所述目标局部区域裁剪并调整分辨率后,输入所述基网络中得到全局池化层输出的M个局部特征Fr,并且得到M个局部区域的场景类别概率Rr,Rr为C×1的向量。


4.根据权利要求3所述的方法,其特征在于,构建用于合并不同尺度特征的联合网络,包括:
所述联合网络由全连接层和softmax组成,将所述全局特征Fg和所述M个局部特征Fr进行联合,得到最终的预测场景类别结果R,R为C×1的向量。


5.根据权利要求4所述的方法,其特征在...

【专利技术属性】
技术研发人员:王嘉乐邹炼范赐恩陈丽琼程谟凡胡诗咏
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1