一种多标签图像识别方法及装置制造方法及图纸

技术编号：18166138 阅读：36 留言：0更新日期：2018-06-09 11:51

本发明专利技术公开了一种多标签图像识别方法及装置，所述方法包括如下步骤：步骤S1，获取多标签图像，提取图片特征，获得所述多标签图像的特征图；步骤S2，于所述特征图上进行剪切获得区域特征，多次调用已训练好的循环注意感知模块进行处理，以获得所有区域的标签分数；步骤S3，融合每一次循环注意感知模块得到的各区域的标签分数，获得最终的标签分布，输出最终结果，本发明专利技术通过将循环注意力机制和增强学习相结合的方法应用到多标签图像的识别中，提高了多标签图像识别的计算效率和分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种多标签图像识别方法及装置
本专利技术涉及计算机视觉、模式识别领域，特别是涉及一种识别出多标签图像中各个物体的标签的多标签图像识别方法及装置。
技术介绍
图像分类作为一个计算机视觉领域的基础问题在研究领域中得到了日益增加的关注。因为深度卷积神经网络(CNNs)的巨大成功，图像分类获得了显著的进步。但是现有的方法大多只关注只包含单个物体的单标签图像分类。相比，多标签图像识别更具实际价值，因为现实世界中的图像一般具有图像标签，而且对这些丰富的语义信息进行建模有助于高级别图像理解任务。目前，对于多标签图像识别，一种直接的方法就是扩展卷积神经网络到多标签图像识别任务：通过微调已经在单标签数据集上进行预训练的网络来为多标签识别任务提取整张图片的特征。尽管这个方法是可端到端训练，但因为多标签图像具有多个区域、大小、占比和类别，这个基于整张图像特征表达训练的分类器往往不能在多标签图像中泛化。另外一种替代的方法是引入物体候选区域，这些候选区域包含图像中所有可能的前景物体，然后从这些候选区域中提取特征并融合这些局部信息以用于多标签图像识别。尽管相比整张图片的特征提取，该方法有显著性的改进，但仍旧有许多瑕疵：首先，该方法需要提取几百个候选区域来达到较高的查全率，但是把这些候选区域送入卷积神经网络进行分类很耗时；其次，一张照片经常只包含几个物体，大多数候选区域要么提供了非常粗略的信息，要么往往都指向同一个物体，因此在这种方法中，多余的计算量和次优的性能不可避免，特别是在复杂的情况下；再者，该方法经常简化各个前景物体的全局依赖性，导致无法捕获图片中正确的标签。
技术实现思路
为克服...
一种多标签图像识别方法及装置

【技术保护点】
一种多标签图像识别方法，包括如下步骤：步骤S1，获取多标签图像，提取图片特征，获得所述多标签图像的特征图；步骤S2，于所述特征图上进行剪切获得区域特征，多次调用已训练好的循环注意感知模块进行处理，以获得所有区域的标签分数；步骤S3，融合每一次循环注意感知模块得到的各区域的标签分数，获得最终的标签分布，输出最终结果。

【技术特征摘要】
1.一种多标签图像识别方法，包括如下步骤：步骤S1，获取多标签图像，提取图片特征，获得所述多标签图像的特征图；步骤S2，于所述特征图上进行剪切获得区域特征，多次调用已训练好的循环注意感知模块进行处理，以获得所有区域的标签分数；步骤S3，融合每一次循环注意感知模块得到的各区域的标签分数，获得最终的标签分布，输出最终结果。2.如权利要求1所述的一种多标签图像识别方法，其特征在于：所述循环注意感知模块包括长短时记忆网络和全连接网络，其输入为截取的各个特征区域和上一次运行该模块得到的隐藏状态，输出为各个特征区域的分类向量以及预测的下一次运行最佳位置。3.如权利要求2所述的一种多标签图像识别方法，其特征在于，步骤S2进一步包括：在特征图上截取不同形状、不同尺度的区域，并把该些区域缩放到统一尺度；于该些区域特征提取后，利用长短时记忆网络将之前运行的隐藏态以及该些区域特征作为输入，输出为每个区域的分类分数和搜索到的下一次运行的最优位置，该过程不断重复直到达到最大运行次数，获得各区域的标签分数。4.如权利要求2所述的一种多标签图像识别方法，其特征在于：于步骤S3中，对于每一次循环注意感知模块得到的各区域的标签分数的融合，使用种类最大池化方法来得到最终的结果。5.如权利要求2所述的一种多标签图像识别方法，其特征在于，于步骤S1之前，还包括如下步骤：步骤S0，获取多标签图像，通过提取特征获得所述多标签图像的特征图，设计循环注意感知模块，根据所述特征图多次调用循环注意感知模块进行训练。6.如权利要求...

【专利技术属性】
技术研发人员：林倞，陈添水，王州霞，李冠彬，余伟浩，许琳，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人