基于自监督域感知网络的零样本训练及相关分类方法技术

技术编号:24355072 阅读:46 留言:0更新日期:2020-06-03 02:23
本发明专利技术公开了一种基于自监督域感知网络的零样本训练及相关分类方法,通过自监督学习的方式充分挖掘源域和目标域之间的关系,减少因目标域数据挖掘不充分而导致的域偏差;该方法通过以agent(参考代理)作为桥梁连接所有类别建立联合的嵌入空间,学习域感知的视觉特征,具备更强的知识迁移和泛化能力;该方法基于端到端的神经网络,速度快,精度高,达到了目前最好的零样本识别结果。

Zero sample training and correlation classification based on self supervised domain Awareness Network

【技术实现步骤摘要】
基于自监督域感知网络的零样本训练及相关分类方法
本专利技术涉及人工智能与图像分类
,尤其涉及一种基于自监督域感知网络的零样本训练及相关分类方法。
技术介绍
随着深度学习技术的发展和海量训练数据的涌现,有监督目标识别已经取得突破性进展。然而,标注和收集图片数据十分耗费人力和时力,一些少见的类别,例如濒危动物,其图像资料是难以获得、极其珍贵的。在细粒度图像识别中,不同类别的细微差别依赖于专家知识来鉴别。现有的物体识别算法无法应对这一系列数据稀缺的场景。零样本学习是一类专门用于识别未见类别物体的算法,适用于少样本甚至零样本的目标识别。大多数零样本学习方法借助针对每一种类别描述的语义信息(如属性向量、词嵌入向量和文本描述等)实现从已见类别到未见类别间的知识迁移,通过构建视觉语义的跨模态联合嵌入空间将零样本识别转化为最近邻搜索问题。作为一类更加符合实际场景的方法,通用型零样本学习旨在同时识别源域中的已见类别和目标域中的未见类别。然而,传统的零样本识别受限于知识迁移能力的不足,无法充分挖掘目标域的数据分布,容易在源域数据上过拟合。这导致了偏向源域的强偏置问题,即训练时未见过的类别很有可能被识别为训练时已经见过的类别中的一种。
技术实现思路
本专利技术的目的是提供一种基于自监督域感知网络的零样本训练及相关分类方法,可以有效地减少通用型零样本识别中的域偏差问题,最终实现针对所有类别的更精确的综合判断。本专利技术的目的是通过以下技术方案实现的:一种基于自监督域感知网络的零样本训练方法,包括:对于输入图像以及各类别的属性向量,通过视觉提取模块与语义嵌入模块对应地提取视觉增强特征与语义嵌入特征;通过深度网络计算视觉增强特征与语义嵌入特征的相似度,并与已知的输入图像和各类别对应关系,建立视觉语义对齐损失函数;所述输入图像包含了源域图像与目标域图像;利用编码了源域图像与目标域图像共享的视觉信息的多属性分类器的权重参数作为参考代理,并基于参考代理来重构源域图像与目标域图像的视觉增强特征;基于不同域图像的重构特征间的相似性,小于相同域图像的重构特征和其视觉增强特征之间的相似性的自监督信息,建立自监督学习的跨域三元组损失函数;基于视觉语义对齐损失函数与自监督学习的跨域三元组损失函数训练域感知网络,并反馈给视觉提取模块,使得视觉提取模块提取出域感知的视觉增强特征。由上述本专利技术提供的技术方案可以看出,通过自监督学习的方式充分挖掘源域和目标域之间的关系,减少因目标域数据挖掘不充分而导致的域偏差;该方法通过以agent(参考代理)作为桥梁连接所有类别建立联合的嵌入空间,学习域感知的视觉特征,具备更强的知识迁移和泛化能力;该方法基于端到端的神经网络,速度快,精度高,达到了目前最好的零样本识别结果。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于自监督域感知网络的零样本训练方法的流程图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于自监督域感知网络的零样本训练方法,如图1所示,该方法主要包括如下两部分:一、用于跨模态映射的视觉语义对齐机制。对于输入图像以及各类别的属性向量,通过视觉提取模块与语义嵌入模块对应地提取视觉增强特征与语义嵌入特征;通过深度网络计算视觉增强特征与语义嵌入特征的相似度,并与已知的输入图像和各类别对应关系,建立视觉语义对齐损失函数。二、基于自监督学习的跨域三元组挖掘机制。利用编码了源域图像与目标域图像共享的视觉信息的多属性分类器的权重参数作为参考代理,并基于参考代理来重构源域图像与目标域图像的视觉增强特征;基于不同域图像的重构特征间的相似性,小于相同域图像的重构特征和其视觉增强特征之间的相似性的自监督信息,建立自监督学习的跨域三元组损失函数;最终,基于视觉语义对齐损失函数与自监督学习的跨域三元组损失函数训练域感知网络,并反馈给视觉提取模块,使得视觉提取模块提取出域感知的视觉增强特征。下面针对上述两部分机制具体原理做详细的介绍。一、视觉语义对齐机制。视觉语义对齐机制主要包括:视觉提取模块、语义嵌入模块以及相似度衡量模块。1、视觉提取模块。通过视觉提取模块提取输入图像的视觉增强特征时,先通过特征提取器(例如ResNet101网络)提取出视觉特征xo,再通过特征增强层得到判别力更强、更适应于语义对齐的视觉增强特征xa。2、语义嵌入模块。对于每个类别(包括已见和未见类别)给定的属性向量,通过若干层全连接网络和激活函数将其映射到对应的视觉空间中,得到语义嵌入特征ey。本专利技术实施例中,已见类别是指源域图像的类别,未见类别是指目标域图像的类别,在训练阶段,各个类别的属性向量都由数据集提供。3、相似度衡量模块。为了更加灵活地对齐语义嵌入特征ey和视觉增强特征xa,设计了一种深度网络h来自适应地挖掘不同模态特征间的相似度。对于输入图像i,视觉提取模块提取的视觉增强特征记为对于类别j的属性向量,语义嵌入模块提取的语义嵌入特征记为通过深度网络h计算视觉增强特征与语义嵌入特征的相似度:其中,θSM是深度网络h的参数。基于相似度得分建立视觉语义对齐损失函数:其中,n为类别总数;m为图像总数;yi、yj各自为输入图像i、类别j的类别标签;δ(yi,yj)是一个指示函数,表示i和j是否是同一类,当图像i与第j类的语义特征属于同一类时,即yi=yj时,δ(yi,yj)=1,否则δ(yi,yj)=0。本专利技术实施例中,优化损失函数的目的是,希望同一类的相似度尽可能高,不同类的相似度尽可能低。二、基于自监督学习的跨域三元组挖掘机制(基于自监督学习的跨域难样本挖掘机制)。本专利技术实施例中,引入了一系列的agent(参考代理)作为连接源域已见类别和目标域未见类别间的桥梁,进而学习到一个判别力强的联合空间。本专利技术实施例中,训练了多属性分类器,其参数编码了源域和目标域共享的高层视觉信息。具体的,将多属性分类器的权重参数记为de为权重参数的总数;将每一权重参数作为一个参考代理,并通过比较视觉增强特征与相应参考代理权重参数,得到视觉相似度其中,为输入图像i的视觉增强特征,分子表示图像i和第k个参考代理Ak的相似度,分母的含义是图像i和所有参考代理的相似度之和;k、k′的范围均为1~de;将视觉本文档来自技高网...

【技术保护点】
1.一种基于自监督域感知网络的零样本训练方法,其特征在于,包括:/n对于输入图像以及各类别的属性向量,通过视觉提取模块与语义嵌入模块对应地提取视觉增强特征与语义嵌入特征;通过深度网络计算视觉增强特征与语义嵌入特征的相似度,并与已知的输入图像和各类别对应关系,建立视觉语义对齐损失函数;所述输入图像包含了源域图像与目标域图像;/n利用编码了源域图像与目标域图像共享的视觉信息的多属性分类器的权重参数作为参考代理,并基于参考代理来重构源域图像与目标域图像的视觉增强特征;基于不同域图像的重构特征间的相似性,小于相同域图像的重构特征和其视觉增强特征之间的相似性的自监督信息,建立自监督学习的跨域三元组损失函数;/n基于视觉语义对齐损失函数与自监督学习的跨域三元组损失函数训练域感知网络,并反馈给视觉提取模块,使得视觉提取模块提取出域感知的视觉增强特征。/n

【技术特征摘要】
1.一种基于自监督域感知网络的零样本训练方法,其特征在于,包括:
对于输入图像以及各类别的属性向量,通过视觉提取模块与语义嵌入模块对应地提取视觉增强特征与语义嵌入特征;通过深度网络计算视觉增强特征与语义嵌入特征的相似度,并与已知的输入图像和各类别对应关系,建立视觉语义对齐损失函数;所述输入图像包含了源域图像与目标域图像;
利用编码了源域图像与目标域图像共享的视觉信息的多属性分类器的权重参数作为参考代理,并基于参考代理来重构源域图像与目标域图像的视觉增强特征;基于不同域图像的重构特征间的相似性,小于相同域图像的重构特征和其视觉增强特征之间的相似性的自监督信息,建立自监督学习的跨域三元组损失函数;
基于视觉语义对齐损失函数与自监督学习的跨域三元组损失函数训练域感知网络,并反馈给视觉提取模块,使得视觉提取模块提取出域感知的视觉增强特征。


2.根据权利要求1所述的一种基于自监督域感知网络的零样本训练方法,其特征在于,通过视觉提取模块提取输入图像的视觉增强特征时,先通过特征提取器提取出视觉特征xo,再通过特征增强层得到适应于语义对齐的视觉增强特征xa。


3.根据权利要求1所述的一种基于自监督域感知网络的零样本训练方法,其特征在于,通过语义嵌入模块提取各类别的属性向量包括:
对于每个类别给定的属性向量,通过若干层全连接网络和激活函数将其映射到对应的视觉空间中,得到语义嵌入特征ey;类别包含源域中的已见类别以及目标域中未见类别。


4.根据权利要求1所述的一种基于自监督域感知网络的零样本训练方法,其特征在于,所述通过深度网络计算视觉增强特征与语义嵌入特征的相似度,并与已知的输入图像和各类别对应关系,建立视觉语义对齐损失函数包括:
对于输入图像i,视觉提取模块提取的视觉增强特征记为对于类别j的属性向量,语义嵌入模块提取的语义嵌入特征记为
通过深度网络h计算视觉增强特征与语义嵌入特征的相似度:



其中,θSM是深度网络h的参数;
建立的视觉语义对齐损失函数表示为:



其中,n为类别总数;m为图像总数;yi、yj各自为输入图像i、类别j的类别标签,当yi=yj时,δ(yi,y...

【专利技术属性】
技术研发人员:张勇东张天柱伍佳敏
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1