细粒度图像零样本识别方法技术

技术编号:24964999 阅读:28 留言:0更新日期:2020-07-21 15:08
本发明专利技术公开了一种细粒度图像零样本识别方法,该方法基于语义分解与迁移的零样本图像分类技术,能够充分地挖掘两个域的语义信息的同时产生无偏的语义和视觉表达,达到更好的分类效果,同时,该方法在四个公共细粒度分类数据集上都取得了目前最好的结果。

【技术实现步骤摘要】
细粒度图像零样本识别方法
本专利技术涉及图像分类
,尤其涉及一种细粒度图像零样本识别方法。
技术介绍
传统的图像分类技术需要海量的数据支持和精确的人工标注。然而面对各种各样的任务需求,依靠人工标注是很低效的一种做法。近几年来,零样本图像识别技术得到了广泛的关注,其目的为使模型能够识别从未见过的图像类别。为了实现这一任务,不同类别的无偏语义信息被用来连接源域数据(可见数据)和目标域数据(不可见数据),来使模型对不同数据域的偏差更为鲁棒。通常的做法为,将图像和语义属性映射到同一个嵌入空间,使对应的图像和语义属性能正确的匹配上。于是分类问题变成了一个最近邻搜索问题,并最终使搜索域涵盖目标域数据,来达到零样本分类。由于在训练阶段中,目标域图像无法获得,因此训练好的模型对两个域的偏差非常敏感,而现有的方法仅仅利用目标域语义信息来得无偏的语义表达或者视觉表达,没有充分的利用好语义信息。
技术实现思路
本专利技术的目的是提供一种细粒度图像零样本识别方法,具有较好的分类效果。本专利技术的目的是通过以下技术方案实现的:一种细粒度图像零样本识别方法,包括:构建语义分解与迁移网络,利用获取的源域数据集中的视觉图像与对应的语义属性,以及目标域数据集中包含的语义属性来训练所述的语义分解与迁移网络,使其能将视觉图像与其对应的语义表达做正确的配对;在测试阶段,利用训练好的语义分解与迁移网络对来源于任意域的视觉图像进行识别,得到识别结果。由上述本专利技术提供的技术方案可以看出,基于语义分解与迁移的零样本图像分类技术,能够充分地挖掘两个域的语义信息的同时产生无偏的语义和视觉表达,达到更好的分类效果,同时,该方法在四个公共细粒度分类数据集上都取得了目前最好的结果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的零样本分类任务中的域偏差示意图;图2为本专利技术实施例提供的语义分解与迁移网络的框架图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种细粒度图像零样本识别方法,包括:构建语义分解与迁移网络,利用获取的源域数据集中的视觉图像与对应的语义属性,以及目标域数据集中包含的语义属性来训练所述的语义分解与迁移网络,使其能将视觉图像与其对应的语义表达做正确的配对;源域数据集包括:一系列视觉图像、以及对应的语义属性与类别标签,其中视觉图像的类别标签为视觉图像在现实世界的类别,语义属性为一组向量,其编码的内容为图像的属性描述(比如物体的长宽,颜色等)。在测试阶段,利用训练好的语义分解与迁移网络对来源于任意域的视觉图像进行识别,得到识别结果(也即对应的类别标签)。为了便于理解,下面针对上述方法的原理及具体实现过程做详细的介绍。一、原理介绍。本专利技术实施例中,基于语义分解与迁移的零样本图像分类技术,来充分地挖掘两个域的语义信息的同时产生无偏的语义和视觉表达。如图1所示,将视觉图像和对应的语义属性(类别属性)映射到一个嵌入空间(EmbeddingSpace),映射的过程命名为视觉投影和语义投影,映射得到的特征命名为视觉表达和语义表达。如图1所示,目标域数据集的视觉图像投影后会存在偏移现象,本专利技术的目的是产生无偏的语义和视觉表达,通过语义分解与迁移网络,使对应的图像表达和语义表达尽可能一致,不同的图像表达和语义表达尽可能远离,达到更好的分类效果。图1中左侧带箭头的线条表示将视觉图像投影至嵌入空间,三角形符号表示视觉表达;右侧带箭头的线条表示将语义属性投影至嵌入空间,圆形符号表示语义表达。语义分解与迁移网络的两个主要组成部分:分解语义映射和迁移视觉映射,就是分别将视觉图像和语义属性映射到嵌入空间,使对应的视觉表达和语义表达符合以上两个条件。对于语义表达来说,现有的方法都是训练一个单独的语义映射函数,同时在两个域使用(源域和目标域)。这样做的结果导致单一的语义映射函数,无法同时很好的捕捉到两个域的语义差别。因此,本专利技术提出了分解的语义投影算法,通过将单一的语义映射函数分解成三个子映射函数:域不变的语义映射函数,源域特异的语义映射函数,和目标域特异的语义映射函数,来同时捕捉到源域和目标域语义信息共有的部分和私有的部分。其中,域不变的语义映射函数能够连接两个域的共性特征,使训练到的模型能跟很好的被泛化到目标域数据中,而两个域特异的语义映射函数能够捕捉到最具有区分性的语义信息,从而使最终得到的两个域的语义表达更加具有区分性。对于视觉表达来说,域偏移的情况更加严重,由于无法获得目标域的视觉图像,因而将目标域的语义空间信息迁移到目标域的图像空间,来合成出需要的目标域视觉图像的表达。同时相比于目前常用的全监督训练策略,提出采用标签平滑正则学习来使学习的过程对不可靠的合成视觉数据更加鲁棒。二、具体实现过程。所构建的构建语义分解与迁移网络如图2所示。1、当获取源域数据集(视觉图像与语义属性)时,优化的目标函数为:其中,f、对应的表示视觉映射(可用于特征提取)、分解语义映射,χs为源域的视觉图像空间,a为视觉图像x对应的语义属性;d()计算了两个输入表达特征的相似度度量:其中,||表达向量的模,<>表示向量的内积。2、本专利技术实施例中,分解语义映射分为域不变的语义映射函数源域特异的语义映射函数目标域特异的语义映射函数三个部分,则最终的分解语义映射可以表示为:其中,As、At对应的表示源域的语义属性空间、目标域的语义属性空间;域不变的语义映射函数负责连接两个域的语义映射函数,使分解语义映射能够在两个域之间做知识迁移,源域特异的语义映射函数与目标域特异的语义映射函数能够捕捉到各自域语义空间的特异信息,从而能产生更具有区分性的源域和目标域的语义表达。为了使以上目标达到,本专利技术实施例中加入如下两项约束来使训练更成功:1)为了将域特异的语义信息成功编码到和中,需要一种无监督的方式来限制它们,因此可以借鉴稀疏自编码的形式,通过两个重建误差来分别优化和目标函数表达式为:其中,对应的表示对源域特异的语义映射函数目标域特异的语义映射函数所对应的解码器。特别的,上述重建限制分别在源域语义空间和目标域语义空间进行,并且通过进行关联,来限制和学到应有的域特异语义信息。2)除了保留域特异语义信息在中,还得到的语义表达能够和对应的视觉表达相匹配上。然而由于没有目标域图像数据,因此无本文档来自技高网...

【技术保护点】
1.一种细粒度图像零样本识别方法,其特征在于,包括:/n构建语义分解与迁移网络,利用获取的源域数据集中的视觉图像与对应的语义属性,以及目标域数据集中包含的语义属性来训练所述的语义分解与迁移网络,使其能将视觉图像与其对应的语义表达做正确的配对;/n在测试阶段,利用训练好的语义分解与迁移网络对来源于任意域的视觉图像进行识别,得到识别结果。/n

【技术特征摘要】
1.一种细粒度图像零样本识别方法,其特征在于,包括:
构建语义分解与迁移网络,利用获取的源域数据集中的视觉图像与对应的语义属性,以及目标域数据集中包含的语义属性来训练所述的语义分解与迁移网络,使其能将视觉图像与其对应的语义表达做正确的配对;
在测试阶段,利用训练好的语义分解与迁移网络对来源于任意域的视觉图像进行识别,得到识别结果。


2.根据权利要求1所述的一种细粒度图像零样本识别方法,其特征在于,所述语义分解与迁移网络包括分解语义映射与迁移视觉映射,即分别将语义属性与视觉图像映射到嵌入空间,通过训练使得对应的图像表达和语义表达尽可能一致,不同的图像表达和语义表达尽可能远离;
其中,分解语义映射包括三个子映射函数:域不变的语义映射函数、源域特异的语义映射函数、以及目标域特异的语义映射函数,来同时捕捉源域和目标域语义信息共有的部分和私有的部分;
迁移视觉映射时,对于源域的视觉图像空间进行全监督学习;对于目标域,在合成的目标域图像空间进行标签平滑学习。


3.根据权利要求2所述的一种细粒度图像零样本识别方法,其特征在于,语义分解与迁移网络训练阶段的目标函数表示为:



其中,λi,i∈[1,5]表示不同目标函数的权重;表示与源域数据集中视觉图像与语义属性相似度相关的目标函数;表示优化三个分解的子映射函数在两个域映射的目标函数;表示将源域特异的语义映射函数迁移至目标域特异的语义映射函数时的目标函数;表示对源域的视觉图像空间进行全监督学习的目标函数;表示在合成的目标域图像空间进行标签平滑学习的目标函数。


4.根据权利要求3所述的一种细粒度图像零样本识别方法,其特征在于,目标函数的表达式为:



其中,f、对应的表示视觉映射、分解语义映射,χs为源域的视觉图像空间,a为视觉图像x对应的语义属性,语义属性为一组向量,其编码的内容为视觉图像的属性描述;d()计算了两个输入表达特征的相似度度量:



其中,||表达向量的模,<>表示向量的内积。


5.根据权利要求3所述的一种细粒度图像零样本识别方法,其特征在于,分解语义映射表示为:



其中,As、...

【专利技术属性】
技术研发人员:张勇东闵少波谢洪涛李岩
申请(专利权)人:中国科学技术大学北京中科研究院
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1