基于自监督机制和区域建议网络的场景分类方法及装置制造方法及图纸

技术编号：23934048 阅读：29 留言：0更新日期：2020-04-25 02:30

本发明专利技术公开了一种基于自监督机制和区域建议网络的场景分类方法及装置，属于图像处理领域，该方法包括：获取场景分类的标准数据集，遵循不同标准数据集的划分规则，将数据集按照标签文件划分为训练集和测试集；构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；采用自监督机制对网络的损失函数进行优化设计；使用训练集图片对基网络、区域建议网络以及联合网络的参数进行交替训练；将测试图像输入已经训练好的网络中，获得图像的场景类别。本发明专利技术无需任何额外的局部区域标注信息，只需要图像的场景类别层级标签即可，使得网络能够针对不同的数据集进行端到端的学习。

Scene classification method and device based on self supervision mechanism and regional suggestion network

全部详细技术资料下载

【技术实现步骤摘要】
基于自监督机制和区域建议网络的场景分类方法及装置
本专利技术属于图像处理领域，更具体地，涉及一种基于自监督机制和区域建议网络的场景分类方法及装置。
技术介绍
近二十年来，信息及互联网技术的飞速发展使得各种类型数据呈现爆炸式增长，图像数据作为多媒体的重要组成部分也随着各类社交网站及软件的推广而激增。场景分类近年来也受到了越来越多的关注，在自动驾驶、图像检索、无人机飞行等领域有着广泛的应用，而如何对场景进行准确分类也就成为了一项具有挑战性的问题。传统的场景分类方法主要是利用手工设计的特征对图像进行描述，再利用各种监督分类算法对特征进行分类。这类特征往往是从符合人类视觉的特点出发进行设计，关注颜色、结构、纹理、形状等视觉特征，常见的特征有SIFT、HOG、GIST特征等。随着卷积神经网络的出现，深度学习渐渐取代了这一过程，卷积神经网络更有利于提取图片更深层次的特征，因此越来越多的学者将卷积神经网络用于不同的领域，都取得了巨大的进展，随着SUN、Places等大规模数据集的出现，卷积神经网络也在场景分类领域不断取得突破。场景分类由于其任务和数据的特殊性，通用的神经网络结构可能无法充分利用场景图像中的语义信息，场景图像一般内容较为复杂，类内差异性也较大，为了充分利用场景内的语义信息，往往需要将全局特征和多尺度的局部区域特征进行融合，共同对场景图像进行描述，而提取局部区域方法的不同也会造成最终分类准确率的不同。现有场景提取局部区域的方法往往需要对图像进行额外的边框标注，局部边框标注信息作为监督标签...

【技术保护点】
1.一种基于自监督机制和区域建议网络的场景分类方法，其特征在于，包括：/n(1)获取目标场景分类图像数据集，根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集；/n(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；/n(3)采用自监督机制对网络的损失函数进行优化设计，其中，所述损失函数包括三个部分，共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新；/n(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练；/n(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中，得到最终的场景分类概率。/n

【技术特征摘要】
1.一种基于自监督机制和区域建议网络的场景分类方法，其特征在于，包括：
(1)获取目标场景分类图像数据集，根据所述目标场景分类图像数据集的标签文件分别将所述目标场景分类图像数据集分为训练图片集和测试图片集；
(2)构建用于提取特征的基网络、用于提取局部具有可判别信息区域的区域建议网络以及用于合并不同尺度特征的联合网络；
(3)采用自监督机制对网络的损失函数进行优化设计，其中，所述损失函数包括三个部分，共同作用于所述基网络、所述区域建议网络及所述联合网络的参数更新；
(4)使用所述训练图片集对所述基网络、所述区域建议网络以及所述联合网络的参数进行交替训练；
(5)将所述测试图片集输入已经训练好的所述基网络、所述区域建议网络以及所述联合网络中，得到最终的场景分类概率。

2.根据权利要求1所述的方法，其特征在于，在步骤(2)中，构建用于提取特征的基网络，包括：
构建用于提取图片深层特征的基网络，其中，对于任一张原始图片，通过所述基网络得到关于所述原始图片的两个中间特征：最后一层卷积层输出的特征图Fp，全局池化层输出的全局特征Fg，并且得到使用所述全局特征进行分类的场景类别概率Rg，Rg为C×1的向量，C表示所述目标场景分类图像数据集中的场景类别的数量。

3.根据权利要求2所述的方法，其特征在于，在步骤(2)中，构建用于提取局部具有可判别信息区域的区域建议网络，包括：
所述区域建议网络共享所述基网络的特征图Fp，经过一个卷积层使所述特征图Fp变换坐标空间，再经过一个卷积层，输出以所述特征图Fp中每个像素点为中心、尺寸为h×w的局部区域的得分S，其中，h表示该局部区域高度，w表示该局部区域宽度；
根据所述区域建议网络中各局部区域的得分S，使用非极大值抑制得到所述原始图片中最具有判别性信息的M个目标局部区域，将各所述目标局部区域裁剪并调整分辨率后，输入所述基网络中得到全局池化层输出的M个局部特征Fr，并且得到M个局部区域的场景类别概率Rr,Rr为C×1的向量。

4.根据权利要求3所述的方法，其特征在于，构建用于合并不同尺度特征的联合网络，包括：
所述联合网络由全连接层和softmax组成，将所述全局特征Fg和所述M个局部特征Fr进行联合，得到最终的预测场景类别结果R，R为C×1的向量。

5.根据权利要求4所述的方法，其特征在...

【专利技术属性】
技术研发人员：王嘉乐，邹炼，范赐恩，陈丽琼，程谟凡，胡诗咏，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人