一种面向零样本识别的字典学习方法及装置制造方法及图纸

技术编号：32268322 阅读：12 留言：0更新日期：2022-02-12 19:31

公开一种面向零样本识别的字典学习方法及装置，可以从类别层面和图像层面分别建立视觉空间和语义空间之间的对齐，从而实现高精度的零样本图像识别。方法包括：(1)基于跨域字典学习方法训练类别层的跨域字典；(2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性；(3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典；(4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。跨域字典完成对不可见类别图像的识别任务。跨域字典完成对不可见类别图像的识别任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向零样本识别的字典学习方法及装置

[0001]本专利技术涉及计算机视觉的
，尤其涉及一种面向零样本识别的字典学习方法，以及面向零样本识别的字典学习装置。

技术介绍

[0002]零样本学习(Zero
‑
Shot Learning，ZSL)源于Larochelle等人在2008年提出的如何在只有少量标注数据或某些类别没有标注数据的情况下，识别出图像所属类别的问题。不同于传统的已知类别图像识别需要大量数据进行训练，零样本学习借助辅助知识实现对未知类别图像进行识别，这为很多实际应用场景的实现提供了可能，同时也推动了智能系统的发展。
[0003]值得注意的是，零样本学习的任务是要正确识别出训练集中没出现过的类别的图像。针对上述零样本学习任务，Lampert等人提出了动物
‑
属性(Animals with Attributes，AWA)数据集。其中，训练集由可见类别的图像和所有类别(包括可见类别和不可见类别)的语义属性组成；测试集包含不可见类别的图像。
[0004]从实现零样本识别任务的思路来讲，现有方法大致可分为两类：一类是基于统一空间表达的零样本学习，另一类是基于生成模型的零样本学习。
[0005]基于统一空间表达的方法通常是将视觉特征与语义属性特征投影到统一的嵌入空间中，采用一些距离度量方式对投影到嵌入空间的不可见类别图像实现分类。具有代表性的工作是Jiang等人于2018年提出的基于类别属性生成的结构化嵌入方法。该方法首先为可见类生成视觉空间的类别级...

【技术保护点】

【技术特征摘要】
1.一种面向零样本识别的字典学习方法，其特征在于：该方法包括以下步骤：(1)基于跨域字典学习方法训练类别层的跨域字典；(2)基于步骤(1)学习的类别层跨域字典生成图像的语义属性；(3)基于步骤(2)生成的图像语义属性训练图像层的跨域字典；(4)基于步骤(3)学习的图像层跨域字典完成对不可见类别图像的识别任务。2.根据权利要求1所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(1)包括：(1.1)通过计算可见类别图像的类别中心提取视觉空间的类别原型P
v
，为公式(1)：其中，Y
v
是样本特征矩阵；H为样本标签矩阵；(1.2)将类别原型P
v
与类别语义属性P
s
组成一对输入，训练类别层的跨域字典，通过约束类别原型与类别语义属性共享稀疏系数在类别层面建立视觉空间和语义空间之间的联系，具体表达式为公式(2)：其中，第一项为视觉空间字典重构误差项；第二项为语义空间字典的重构误差项；D
v
为视觉空间字典；D
s
为语义空间字典；X
p
为稀疏系数矩阵；λ为调和参数；(1.3)为了降低可见类别和不可见类别之间的域差异对模型精度造成的影响，提升模型对不可见类别样本的识别能力，引入不可见类别的自适应损失函数，为公式(3)：其中，为待求解的不可见类的类别原型；为不可见类别的语义属性矩阵；为不可见类别对应的稀疏系数矩阵；类别层的联合损失函数为公式(4)：类别层的训练目标是最小化式(4)所示的损失函数，待求解出变量包括：视觉空间字典D
v
；语义空间字典D
s
；可见类别原型P
v
；不可见类别原型可见类稀疏系数X
p
；不可见类稀疏系数3.根据权利要求2所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(2)包括：(2.1)利用视觉空间字典D
v
生成图像的稀疏系数X
y
，具体表达式为公式(5)：其中，第一项为重构误差项；第二项为约束项，约束生成的图像稀疏系数与其所属类别基于同一个视觉空间字典D
v
生成的稀疏系数相近；w
x
为调和参数；(2.2)利用语义空间字典D
s
和其所属类别语义属性P
s
联合生成图像语义属性Y
s
，具体表达式为公式(6)：
其中，w
p
为调和参数。4.根据权利要求3所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(3)包括：为了更加深入地挖掘图像的信息，提升模型的泛化性能，利用步骤(2)生成的图像语义属性训练图像层的跨域字典，具体表达式为公式(7)：其中，第一项为视觉空间的重构误差项；第二项为语义空间的重构误差项；和分别为视觉空间和语义空间在图像层的字典；X为稀疏系数；μ为调和参数。5.根据权利要求4所述的面向零样本识别的字典学习方法，其特征在于：所述步骤(4)包括：在视觉空间比较方面：不可见类别语义属性首先通过图像层语义空间字典生成稀疏系数X
u
，为公式(8)：再利用视觉空间字典生成类别在视觉空间的表达分别度量测试图像与每个类别描述的距离并根据距离判断测试图像的类别，为公式(9)：在稀疏域比较方面：测试图像根据图像层的视觉空间字典提取其在稀疏空间的表达，为公式(10)：度量x
u
与各类别在稀疏空间的描述X
u
[c]之间的距离，距离测试图像最近的类别为该图像的类别，为公式(11)：在语义空间比较方面：首先根据图像层的视觉空间字典对测试图像进行编码，得到x
u
；然后根据图像层的语义空间字典生成图像的语义属性度量y
s
与各类别语义属性的距离并根据距离判断测试图像的类别，为公式(12)：6.根据权利要求5所述的面向零样本识别的字典学习方法，其特征在于：该方法在两个基于零样本识别任务的图像数据集：AwA数据集、aPY数据集上进行实验，并且将识别精度与目前主流零样本识别模型进行对比，包括SJ...

【专利技术属性】
技术研发人员：王立春，李爽，王少帆，孔德慧，尹宝才，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人