当前位置: 首页 > 专利查询>中山大学专利>正文

一种多标签图像识别方法及装置制造方法及图纸

技术编号:18166138 阅读:36 留言:0更新日期:2018-06-09 11:51
本发明专利技术公开了一种多标签图像识别方法及装置,所述方法包括如下步骤:步骤S1,获取多标签图像,提取图片特征,获得所述多标签图像的特征图;步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;步骤S3,融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果,本发明专利技术通过将循环注意力机制和增强学习相结合的方法应用到多标签图像的识别中,提高了多标签图像识别的计算效率和分类精度。

【技术实现步骤摘要】
一种多标签图像识别方法及装置
本专利技术涉及计算机视觉、模式识别领域,特别是涉及一种识别出多标签图像中各个物体的标签的多标签图像识别方法及装置。
技术介绍
图像分类作为一个计算机视觉领域的基础问题在研究领域中得到了日益增加的关注。因为深度卷积神经网络(CNNs)的巨大成功,图像分类获得了显著的进步。但是现有的方法大多只关注只包含单个物体的单标签图像分类。相比,多标签图像识别更具实际价值,因为现实世界中的图像一般具有图像标签,而且对这些丰富的语义信息进行建模有助于高级别图像理解任务。目前,对于多标签图像识别,一种直接的方法就是扩展卷积神经网络到多标签图像识别任务:通过微调已经在单标签数据集上进行预训练的网络来为多标签识别任务提取整张图片的特征。尽管这个方法是可端到端训练,但因为多标签图像具有多个区域、大小、占比和类别,这个基于整张图像特征表达训练的分类器往往不能在多标签图像中泛化。另外一种替代的方法是引入物体候选区域,这些候选区域包含图像中所有可能的前景物体,然后从这些候选区域中提取特征并融合这些局部信息以用于多标签图像识别。尽管相比整张图片的特征提取,该方法有显著性的改进,但仍旧有许多瑕疵:首先,该方法需要提取几百个候选区域来达到较高的查全率,但是把这些候选区域送入卷积神经网络进行分类很耗时;其次,一张照片经常只包含几个物体,大多数候选区域要么提供了非常粗略的信息,要么往往都指向同一个物体,因此在这种方法中,多余的计算量和次优的性能不可避免,特别是在复杂的情况下;再者,该方法经常简化各个前景物体的全局依赖性,导致无法捕获图片中正确的标签。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种多标签图像识别方法及装置,以通过将循环注意力机制和增强学习相结合的方法应用到多标签图像的识别中,提高了多标签图像识别的计算效率和分类精度。为达上述及其它目的,本专利技术提出一种多标签图像识别方法,包括如下步骤:步骤S1,获取多标签图像,提取图片特征,获得所述多标签图像的特征图;步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;步骤S3,融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。进一步地,所述循环注意感知模块包括长短时记忆网络和全连接网络,其输入为截取的各个特征区域和上一次运行该模块得到的隐藏状态,输出为各个特征区域的分类向量以及预测的下一次运行最佳位置。进一步地,步骤S2包括:在特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度;于该些区域特征提取后,利用长短时记忆网络将之前运行的隐藏态以及该些区域特征作为输入,输出为每个区域的分类分数和搜索到的下一次运行的最优位置,该过程不断重复直到达到最大运行次数,获得各区域的标签分数。进一步地,于步骤S3中,对于每一次循环注意感知模块得到的各区域的标签分数的融合,使用种类最大池化方法来得到最终的结果。进一步地,于步骤S1之前,还包括如下步骤:步骤S0,获取多标签图像,通过提取特征获得所述多标签图像的特征图,设计循环注意感知模块,根据所述特征图多次调用循环注意感知模块进行训练。进一步地,步骤S0包括:获取多标签图像,利用深度卷积神经网络提取图片特征,获得该多标签图像的特征图;在所述特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度;设计该循环注意感知模块;多次调用循环注意感知模块,使得模型能考虑图片的各个部分和全局信息,以此进行训练而调整整个模型的参数。进一步地,所述循环注意感知模块每次运行时预测当前各个区域的标签分数和搜索为下一次运行搜索最相关的区域,在每一次运行中,它给出当前值得注意的区域预测标签分数然后根据当前状态预测下一次运行的最优位置,这个过程不断重复直到达到最大运行次数,最后,所有区域的标签分数通过融合得到最终的标签分布。进一步地,于训练过程中,根据最终融合的结果定义一延迟奖励函数,并指导循环注意感知模块的训练过程。进一步地,于训练过程中,设计分类损失函数,利用所述分类损失函数与延迟奖励函数指导循环注意感知模块的训练过程。为达到上述目的,本专利技术还提供一种多标签图像识别装置,包括:特征提取单元,用于获取多标签图像,提取图片特征,获得该多标签图像的特征图;识别处理单元,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;融合单元,用于融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。与现有技术相比,本专利技术一种多标签图像识别方法及装置通过把循环注意力机制和增强学习相结合的方法应用到通用多标签分类任务中,相比于最近的基于假设候选区域的多标签识别方法,本专利技术不仅拥有更好的计算效率和更高的分类精度,而且提供了一种仅仅基于图片级别标签的语义感知物体寻找机制。附图说明图1为本专利技术一种多标签图像识别方法的步骤流程图;图2为本专利技术一种多标签图像识别装置的系统架构图;图3为本专利技术具体实施例的网络架构图。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种多标签图像识别方法的步骤流程图。如图1所示,本专利技术一种多标签图像识别方法,包括如下步骤:步骤S1,获取多标签图像,提取图片特征,获得该多标签图像的特征图。在本专利技术具体实施例中,利用深度卷积神经网络提取图片特征,具体地说,获取多标签图像,将该图像缩放到W×H,送入深度卷积神经网络,该深度卷积神经网络则会通过堆叠多个卷积层来产生特征图fI∈RC×W′×K′。步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数。在本专利技术具体实施例中,该循环注意感知模块包括长短时记忆网络和全连接网络,该模块输入为截取的各个特征区域和上一次运行该模块得到的隐藏状态,输出为各个特征区域的分类向量以及预测的下一次运行最佳位置,也就是说,循环注意感知模块每次运行时都会预测当前各个区域的标签分数和搜索为下一次运行搜索最相关的区域,即给出当前值得注意的区域预测标签分数并根据当前状态预测下一次运行的最优位置,这个过程不断重复直到达到最大运行次数。具体地,步骤S2进一步包括:步骤S200,在特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度。具体地说,该循环注意感知模块在第t次运行时,该循环注意感知模块首先接受之前运行时计算好的位置lt并基于位置lt提取区域信息。在之前的方法中,仅仅是提取以lt为中心的方框区域的特征,然而,一般物体在形状和尺度上会有各种变化,因此简单地提取方框区域信息很难覆盖这些物体,因此本专利技术以lt为中心获取k个不同尺度区域的特征:其中表示以fI为中心剪切不同大小和形状的区域Rtr,然后进行双线性插值把该些剪切的特征图缩放到同样的大小ftr。以前的方法是在原输入图像上进行剪切然后利用卷积神经网络重复性地对每个区域进本文档来自技高网...
一种多标签图像识别方法及装置

【技术保护点】
一种多标签图像识别方法,包括如下步骤:步骤S1,获取多标签图像,提取图片特征,获得所述多标签图像的特征图;步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;步骤S3,融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。

【技术特征摘要】
1.一种多标签图像识别方法,包括如下步骤:步骤S1,获取多标签图像,提取图片特征,获得所述多标签图像的特征图;步骤S2,于所述特征图上进行剪切获得区域特征,多次调用已训练好的循环注意感知模块进行处理,以获得所有区域的标签分数;步骤S3,融合每一次循环注意感知模块得到的各区域的标签分数,获得最终的标签分布,输出最终结果。2.如权利要求1所述的一种多标签图像识别方法,其特征在于:所述循环注意感知模块包括长短时记忆网络和全连接网络,其输入为截取的各个特征区域和上一次运行该模块得到的隐藏状态,输出为各个特征区域的分类向量以及预测的下一次运行最佳位置。3.如权利要求2所述的一种多标签图像识别方法,其特征在于,步骤S2进一步包括:在特征图上截取不同形状、不同尺度的区域,并把该些区域缩放到统一尺度;于该些区域特征提取后,利用长短时记忆网络将之前运行的隐藏态以及该些区域特征作为输入,输出为每个区域的分类分数和搜索到的下一次运行的最优位置,该过程不断重复直到达到最大运行次数,获得各区域的标签分数。4.如权利要求2所述的一种多标签图像识别方法,其特征在于:于步骤S3中,对于每一次循环注意感知模块得到的各区域的标签分数的融合,使用种类最大池化方法来得到最终的结果。5.如权利要求2所述的一种多标签图像识别方法,其特征在于,于步骤S1之前,还包括如下步骤:步骤S0,获取多标签图像,通过提取特征获得所述多标签图像的特征图,设计循环注意感知模块,根据所述特征图多次调用循环注意感知模块进行训练。6.如权利要求...

【专利技术属性】
技术研发人员:林倞陈添水王州霞李冠彬余伟浩许琳
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1