一种面向零样本识别的字典学习方法及装置制造方法及图纸

技术编号:32268322 阅读:12 留言:0更新日期:2022-02-12 19:31
公开一种面向零样本识别的字典学习方法及装置,可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐,从而实现高精度的零样本图像识别。方法包括:(1)基于跨域字典学习方法训练类别层的跨域字典;(2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性;(3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典;(4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。跨域字典完成对不可见类别图像的识别任务。跨域字典完成对不可见类别图像的识别任务。

【技术实现步骤摘要】
一种面向零样本识别的字典学习方法及装置


[0001]本专利技术涉及计算机视觉的
,尤其涉及一种面向零样本识别的字典学习方法,以及面向零样本识别的字典学习装置。

技术介绍

[0002]零样本学习(Zero

Shot Learning,ZSL)源于Larochelle等人在2008年提出的如何在只有少量标注数据或某些类别没有标注数据的情况下,识别出图像所属类别的问题。不同于传统的已知类别图像识别需要大量数据进行训练,零样本学习借助辅助知识实现对未知类别图像进行识别,这为很多实际应用场景的实现提供了可能,同时也推动了智能系统的发展。
[0003]值得注意的是,零样本学习的任务是要正确识别出训练集中没出现过的类别的图像。针对上述零样本学习任务,Lampert等人提出了动物

属性(Animals with Attributes,AWA)数据集。其中,训练集由可见类别的图像和所有类别(包括可见类别和不可见类别)的语义属性组成;测试集包含不可见类别的图像。
[0004]从实现零样本识别任务的思路来讲,现有方法大致可分为两类:一类是基于统一空间表达的零样本学习,另一类是基于生成模型的零样本学习。
[0005]基于统一空间表达的方法通常是将视觉特征与语义属性特征投影到统一的嵌入空间中,采用一些距离度量方式对投影到嵌入空间的不可见类别图像实现分类。具有代表性的工作是Jiang等人于2018年提出的基于类别属性生成的结构化嵌入方法。该方法首先为可见类生成视觉空间的类别级特征,然后利用视觉空间类别级特征与类别对应语义属性特征作为输入来训练跨域字典,即利用跨域字典在类别层面建立视觉空间与语义空间的关联。对于测试集中不可见类别图像,该方法提出三种分类方式:第一种是将不可见类别图像与类别语义属性映射到嵌入空间进行距离度量;第二种是将图像映射到嵌入空间再通过语义空间字典生成对应图像级语义属性,再与类别语义属性在语义空间进行距离度量;第三种是将类别语义属性映射到嵌入空间,然后通过视觉空间字典生成类别图像特征,再与不可见类别图像在视觉空间进行距离度量。
[0006]基于生成模型的零样本学习方法通常是生成大量的不可见类别图像,利用生成的不可见类别图像训练分类模型。随着生成对抗网络(Generative Adversarial Nets,GAN)的兴起,许多研究者利用其可以生成样本的优势实现零样本识别任务。例如,Xian等人于2018年提出的方法,借鉴条件GAN的思路构造生成器,用类别语义属性为条件生成具有强判别性的视觉特征。Ji等人于2019年提出基于字典学习的不可见类别伪样本生成方法。该方法首先利用语义属性特征提取可见类别和不可见类别之间的关系,然后将此关系作为系数加权组合可见类别图像,从而生成不可见类别伪样本,进而利用伪样本训练不可见类别分类器。
[0007]受到有限的人力约束,现有的应用于零样本识别任务的数据集只提供类别语义属性,而缺少图像语义属性。这导致一些寻找视觉空间与语义空间之间联系的方法只能停留
在类别层面,从而限制了零样本识别任务的准确性。例如Jiang等人提出的方法利用跨域字典学习模型建立在类别层面建立的视觉空间与语义空间的联系。然而,相对图像来讲,从类别层面学习到的模型提取的信息较为单一。只建立类别层面的模型会忽略细粒度的图像信息。

技术实现思路

[0008]为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种面向零样本识别的字典学习方法,其可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐,从而实现高精度的零样本图像识别。
[0009]本专利技术的技术方案是:这种面向零样本识别的字典学习方法,该方法包括以下步骤:
[0010](1)基于跨域字典学习方法训练类别层的跨域字典;
[0011](2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性;
[0012](3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典;
[0013](4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。
[0014]本专利技术基于跨域字典学习模型,通过约束视觉空间数据和语义空间数据分别经过本空间字典投影到的稀疏空间的表达具有一致性,依次从类别层和图像层分别建立视觉空间和语义空间之间的关联,通过增添图像层面的跨域字典,可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐,可以提取相比于类别层面更加细粒度的图像信息,从而实现高精度的零样本图像识别。
[0015]还提供了一种面向零样本识别的字典学习装置,该装置包括:
[0016]第一训练模块,其配置来基于跨域字典学习方法训练类别层的跨域字典;
[0017]生成模块,其配置来基于第一训练模块学习的类别层跨域字典生成图像的语义属性;
[0018]第二训练模块,其配置来训练图像层的跨域字典;
[0019]识别模块,其配置来基于第二训练模块学习的图像层跨域字典完成对不可见类别图像的识别任务。
附图说明
[0020]图1为本专利技术的框架图,其中波浪矩形框中为数据集中提供的数据,矩形框中为生成的数据。图中展示了三个模型训练步骤和一个测试步骤,其中测试步骤展示的是在语义空间比较的情况。
[0021]图2示出了根据本专利技术的面向零样本识别的字典学习方法的流程图。
具体实施方式
[0022]如图2所示,这种面向零样本识别的字典学习方法,该方法包括以下步骤:
[0023](1)基于跨域字典学习方法训练类别层的跨域字典;
[0024](2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性;
[0025](3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典;
[0026](4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。
[0027]本专利技术基于跨域字典学习模型,通过约束视觉空间数据和语义空间数据分别经过本空间字典投影到的稀疏空间的表达具有一致性,依次从类别层和图像层分别建立视觉空间和语义空间之间的关联,通过增添图像层面的跨域字典,可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐,可以提取相比于类别层面更加细粒度的图像信息,从而实现高精度的零样本图像识别。
[0028]优选地,所述步骤(1)包括:
[0029](1.1)通过计算可见类别图像的类别中心提取视觉空间的类别原型P
v
,为公式(1):
[0030][0031]其中,Y
v
是样本特征矩阵;H为样本标签矩阵;
[0032](1.2)将类别原型P
v
与类别语义属性P
s
组成一对输入,训练类别层的跨域字典,通过约束类别原型与类别语义属性共享稀疏系数在类别层面建立视觉空间和语义空间之间的联系,具体表达式为公式(2):
[0033][0034]其中,第一项为视觉空间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向零样本识别的字典学习方法,其特征在于:该方法包括以下步骤:(1)基于跨域字典学习方法训练类别层的跨域字典;(2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性;(3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典;(4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。2.根据权利要求1所述的面向零样本识别的字典学习方法,其特征在于:所述步骤(1)包括:(1.1)通过计算可见类别图像的类别中心提取视觉空间的类别原型P
v
,为公式(1):其中,Y
v
是样本特征矩阵;H为样本标签矩阵;(1.2)将类别原型P
v
与类别语义属性P
s
组成一对输入,训练类别层的跨域字典,通过约束类别原型与类别语义属性共享稀疏系数在类别层面建立视觉空间和语义空间之间的联系,具体表达式为公式(2):其中,第一项为视觉空间字典重构误差项;第二项为语义空间字典的重构误差项;D
v
为视觉空间字典;D
s
为语义空间字典;X
p
为稀疏系数矩阵;λ为调和参数;(1.3)为了降低可见类别和不可见类别之间的域差异对模型精度造成的影响,提升模型对不可见类别样本的识别能力,引入不可见类别的自适应损失函数,为公式(3):其中,为待求解的不可见类的类别原型;为不可见类别的语义属性矩阵;为不可见类别对应的稀疏系数矩阵;类别层的联合损失函数为公式(4):类别层的训练目标是最小化式(4)所示的损失函数,待求解出变量包括:视觉空间字典D
v
;语义空间字典D
s
;可见类别原型P
v
;不可见类别原型可见类稀疏系数X
p
;不可见类稀疏系数3.根据权利要求2所述的面向零样本识别的字典学习方法,其特征在于:所述步骤(2)包括:(2.1)利用视觉空间字典D
v
生成图像的稀疏系数X
y
,具体表达式为公式(5):其中,第一项为重构误差项;第二项为约束项,约束生成的图像稀疏系数与其所属类别基于同一个视觉空间字典D
v
生成的稀疏系数相近;w
x
为调和参数;(2.2)利用语义空间字典D
s
和其所属类别语义属性P
s
联合生成图像语义属性Y
s
,具体表达式为公式(6):
其中,w
p
为调和参数。4.根据权利要求3所述的面向零样本识别的字典学习方法,其特征在于:所述步骤(3)包括:为了更加深入地挖掘图像的信息,提升模型的泛化性能,利用步骤(2)生成的图像语义属性训练图像层的跨域字典,具体表达式为公式(7):其中,第一项为视觉空间的重构误差项;第二项为语义空间的重构误差项;和分别为视觉空间和语义空间在图像层的字典;X为稀疏系数;μ为调和参数。5.根据权利要求4所述的面向零样本识别的字典学习方法,其特征在于:所述步骤(4)包括:在视觉空间比较方面:不可见类别语义属性首先通过图像层语义空间字典生成稀疏系数X
u
,为公式(8):再利用视觉空间字典生成类别在视觉空间的表达分别度量测试图像与每个类别描述的距离并根据距离判断测试图像的类别,为公式(9):在稀疏域比较方面:测试图像根据图像层的视觉空间字典提取其在稀疏空间的表达,为公式(10):度量x
u
与各类别在稀疏空间的描述X
u
[c]之间的距离,距离测试图像最近的类别为该图像的类别,为公式(11):在语义空间比较方面:首先根据图像层的视觉空间字典对测试图像进行编码,得到x
u
;然后根据图像层的语义空间字典生成图像的语义属性度量y
s
与各类别语义属性的距离并根据距离判断测试图像的类别,为公式(12):6.根据权利要求5所述的面向零样本识别的字典学习方法,其特征在于:该方法在两个基于零样本识别任务的图像数据集:AwA数据集、aPY数据集上进行实验,并且将识别精度与目前主流零样本识别模型进行对比,包括SJ...

【专利技术属性】
技术研发人员:王立春李爽王少帆孔德慧尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利