一种多视角零样本图像识别方法技术

技术编号：35841441 阅读：27 留言：0更新日期：2022-12-03 14:14

本发明专利技术公开了一种多视角零样本图像识别方法，包括：构建多视角视觉

全部详细技术资料下载

【技术实现步骤摘要】
一种多视角零样本图像识别方法

[0001]本专利技术属于图像识别
，具体涉及一种多视角零样本图像识别方法。

技术介绍

[0002]模式识别技术在近十几年取得了长足的进展。传统的模式识别方法需要使用大量的标记数据来进行训练以保证模型的泛化性能。然而在许多现实场景中，对细粒度样本进行标记往往需要专门的领域知识，因此，为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题，零样本分类得到越来越多的关注。
[0003]零样本分类试图通过从已见类（有现成样本的类别）的标记样本中获取迁移知识，从而构建能够识别未见类（没有现成样本的类别，即零样本类）样本的模型。零样本分类方法通过构建一个语义嵌入空间来建立已见类和未见类之间的内在联系，并在这个空间中嵌入已见类和未见类的语义标签（视为先验信息，可以是类别属性特征，也可根据类别的相关知识或文本描述采用词嵌入等方法获取）。这样，每个类别在语义空间中都与一个类语义标签向量相关联，进而可以通过建立样本特征与类别语义标签向量之间的映射关系来获取迁移知识，从而实现对未见类样本的判别。
[0004]公开号为CN115147607A的专利技术申请是在视觉
‑
语义映射模型下，通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法，降低已见类图片样本的标记噪声样本带来的负面影响。
[0005]但迄今为止，大部分零样本分类的研究仅针对单视角数据。随着计算机技术的发展，在许多现实场景中，多视角数据（多源异构数据）己经变得非常普遍，譬如，医...

【技术保护点】

【技术特征摘要】
1.一种多视角零样本图像识别方法，其特征在于，包括以下步骤：S1采集待识别图片，并提取所述待识别图片的多视角视觉特征；S2将所述多视角视觉特征输入预先训练获得的多视角视觉
‑
语义映射模型，最终得到待识别图片的预测类别语义属性；S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐，进而获得待识别图片最终的类别语义属性。2.根据权利要求1所述的多视角零样本图像识别方法，其特征在于，所述步骤S2中，预先训练获得的多视角视觉
‑
语义映射模型包括训练阶段，所述训练阶段包括以下步骤：S21获取已见类训练集，已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性；S22构建多视角视觉
‑
语义映射模型，将图片样本的多视角视觉特征作为多视角视觉
‑
语义映射模型的输入，将图片样本的类别语义属性作为多视角视觉
‑
语义映射模型的输出；并基于不同视角视觉特征之间的一致性和互补性原则，建立优化问题；S23使用交替方向乘子法对所述优化问题变量进行更新迭代，直至优化问题的变量在两次连续迭代中的变化量小于定值，进而确定多视角视觉
‑
语义映射模型中的相关参量，从而获得最终的多视角视觉
‑
语义映射模型。3.根据权利要求2所述的多视角零样本图像识别方法，其特征在于，所述步骤S2中，预先训练获得的多视角视觉
‑
语义映射模型还包括测试阶段，所述测试阶段包括以下步骤：S24获取未见类测试集，将所述未见类测试集输入所述最终的多视角视觉
‑
语义映射模型，获得未见类测试集在各个视角上的预测类别语义属性；S25利用图模型降噪算法，将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐，更新未见类测试集在各个视角上的类别语义属性，并将它们的平均值作为未见类测试集最终的类别语义属性；S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性，确定未见类测试集中每个图片样本最终的预测类别；S27根据未见类测试集中图片样本的真实类别，统计未见类测试集中图片样本最终的预测类别的正确数量，并计算未见类测试集的类别预测准确率；S28若未见类测试集的类别预测准确率大于设定的未见类阈值，则判定最终的视觉
‑
语义映射模型合格，否则，返回到训练阶段。4.根据权利要求2所述的多视角零样本图像识别方法，其特征在于，步骤S22中，构建多视角视觉
‑
语义映射模型，实现方法为：多视角视觉
‑
语义映射模型的表达式为：其中，分别为图片样本在两个不同视角上的视觉特征，分别为两个视角的视觉特征的维度，和为图片样本的类别语义属性，和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵，和分别为两个视角的各自的潜在子空间
到类别语义属性空间的投影矩阵，T为转置。5.根据权利要求4所述的多视角零样本图像识别方法，其特征在于，步骤S22中，基于不同视角视觉特征之间的一致性和互补性原则，建立优化问题，实现步骤包括：S221建立基于类别语义属性空间的相似度模型的损失函数，若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值，则损失值为零；S222优化问题表示为：S222优化问题表示为：其中，tr(*)为矩阵的迹运算；为矩阵的F
‑
范数；分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵，n为样本数量，为已见类训练集中的所有图片样本对应的类别语义属性的矩阵，的每一列均为所有已见类的类别语义属性的平均值，的列数为已见类训练集中的图片样本数量；P1和P2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵；I为单位矩阵；为损失函数中设定的阈值；和分别为两个视角上的松弛变量；β1，β2，C和为权系数。6.根据权利要求5所述的多视角零样本图像识别方法，其特征在于，建立所述优化问题，具体原则包括：a)最小化图片样本的损失...

【专利技术属性】
技术研发人员：汤龙，唐昕航，潘志庚，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人