一种基于实例的多视角视觉融合转导式零样本分类方法技术

技术编号：40427604 阅读：7 留言：0更新日期：2024-02-20 22:48

本发明专利技术公开了一种基于实例的多视角视觉融合转导式零样本分类方法包括：提取已见类图片的多视角视觉特征；将已见类图片的多视角视觉特征和语义属性送入多视角视觉‑语义映射模型，利用交替方向乘子法学习不同视角上的转换矩阵；利用学习到的转换矩阵预测未见类图片的语义投影；再从语义投影进一步提取未见类图片的最终语义表示并基于此实现对未见类图片的识别；本发明专利技术提出采用单一的线性约束实现不同视角上的视觉信息的交互共享，简化了传统多视角信息融合模型的复杂度；同时，为了进一步挖掘在未见类中隐藏的视觉‑语义关联，提出一种自监督学习策略并利用多视角之间的一致性实现对未见类图片的语义校准，可大幅提升零样本分类的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，具体涉及一种基于实例的多视角视觉融合转导式零样本分类方法。

技术介绍

1、近年来，零样本学习（zsl）受到越来越广泛的关注。与传统的模式识别不同，zsl能够识别具有训练中未使用的标签的样本。利用类别之间语义属性的内在关联，zsl通过构建视觉特征与语义属性之间的映射关系对未见类别的样本进行分类。目前大多数zsl方法仅使用单一的视觉特征表示，然而在很多实际场景中，往往可通过不同的渠道获取多视角的视觉特征表示。对于高分辨率图像，可以使用不同的特征提取器（sift、surf、phog、预训练深度网络等）来获取特征。由于不同视角之间的差异性，基于实例的多视角视觉数据可以提供比单一视觉数据更全面的描述，如果利用得当，有望大幅度提高zsl的性能。

技术实现思路

1、专利技术目的：本专利技术的目的是提供一种基于实例的多视角视觉融合转导式零样本分类方法提升零样本分类器的泛化性能，从而实现对未见类图片的更精准的识别。

2、技术方案：本专利技术所述的一种基于实例的多视角视觉融合转导式零样本分类方法，包括以下步骤：

3、（1）提取已见类图片和未见类图片的多视角视觉特征；

4、（2）将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉-语义映射模型，利用交替方向乘子法学习不同视角上的转换矩阵；

5、（3）利用学习到的转换矩阵预测未见类图片的语义投影；

6、（4）根据步骤（3）得到的语义投影进一步提取未见类图片的最

7、进一步的，所述步骤（1）具体如下：使用在imagenet数据库上预先训练的resnet和googlenet提取视觉特征，分别代表视角a和视角b。

8、进一步的，所述步骤（2）多视角视觉-语义映射模型表示为如下优化问题：

9、；

10、约束条件为：

11、；

12、其中，，，，，是优化变量矩阵；表示已见类图片第v个视角上的视角特征矩阵，其每一列对应一个已见类图片；表示已见类图片的类别语义属性矩阵，其每一列对应一个已见类图片；表示已见类语义属性均值矩阵，其每一列都为所有已见类语义属性的均值向量；为第v个视角上的视角特征的维度；m为类别语义属性的维度；n为已见类图片数；、、、、均为超参数；v为视角数。

13、进一步的，所述步骤（2）交替方向乘子法具体如下：

14、初始化：

15、，，，，，，；

16、令迭代次数，确定收敛阈值，和相关参数，，；

17、通过求解以下的方程得到；其中，为交替方向乘子法里面的参数，公式如下：

18、；

19、通过求解以下的优化问题得到，公式如下：

20、；

21、通过求解以下的方程得到，公式如下：

22、；

23、通过下式更新：

24、；

25、通过下式更新：

26、；

27、通过以下公式更新拉格朗日乘子，，和：

28、；

29、；

30、；

31、；

32、如果

33、；

34、则收敛；否则，令，继续进行上述更新操作；通过迭代最终得到的转换矩阵为：。

35、进一步的，步骤（3）得到未见类图片在单个视角上的语义投影为：

36、；

37、其中，表示未见类图片第v个视角上的视角特征矩阵，其每一列对应一个未见类图片；为未见类图片数。

38、进一步的，步骤（4）提取未见类图片的最终语义公式如下：

39、；

40、其中，为待提取的未见类图片的最终语义表示，即优化变量；；为对角矩阵；

41、为超参数。

42、进一步的，通过下式计算得到：

43、；

44、其中，为分块矩阵，。

45、进一步的，步骤（4）对未见类图片的识别包括：

46、对未见类图片在各个视角上的最终语义表示进行平均，公式如下：

47、；

48、使用如下公式获取未见类图片的类别标记：

49、；

50、其中，返回表示输入矩阵每一列最大元素的编号向量；为未见类语义属性；为未见类别数；为识别的未见类图片的类别标记。

51、本专利技术所述的一种基于实例的多视角视觉融合转导式零样本识别系统，包括：

52、数据获取模块，用于提取已见类图片和未见类图片的多视角视觉特征；

53、模型学习模块，用于将已见类图片的多视角视觉特征以及对应的类别语义属性送入多视角视觉-语义映射模型，利用交替方向乘子法学习不同视角上的转换矩阵；并利用学习到的转换矩阵预测未见类图片的语义投影；再从语义投影进一步提取未见类图片的最终语义表示；

54、图片识别模块，用于提取到的未见类图片的最终语义表示对它们进行分类。

55、本专利技术所述的一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现任一项所述的一种基于实例的多视角视觉融合转导式零样本分类方法。

56、有益效果：与现有技术相比，本专利技术具有如下显著优点：利用多视角视觉特征包含训练样本更丰富、更充分、更全面的信息，有效提升零样本分类器的泛化性能，从而实现对未见类图片的更精准的识别。与已有的零样本学习方法相比，较大程度上提高了对未见类图片的分类准确率，且本方法简单高效，在模式识别、数据挖掘、计算机视觉等相关领域有很好的应用前景。

本文档来自技高网...

【技术保护点】

1.一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，所述步骤（1）具体如下：使用在ImageNet数据库上预先训练的ResNet和GoogLeNet提取视觉特征，分别代表视角A和视角B。

3.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，所述步骤（2）多视角视觉-语义映射模型表示为如下优化问题：

4.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，所述步骤（2）交替方向乘子法具体如下：

5.根据权利要求4所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，步骤（3）得到未见类图片在单个视角上的语义投影为：

6.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，步骤（4）提取未见类图片的最终语义公式如下：

7.根据权利要求6所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其

8.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，步骤（4）对未见类图片的识别包括：

9.一种基于实例的多视角视觉融合转导式零样本识别系统，其特征在于，包括：

10.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-8中任一项所述的一种基于实例的多视角视觉融合转导式零样本分类方法。

...

【技术特征摘要】

1.一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，所述步骤（1）具体如下：使用在imagenet数据库上预先训练的resnet和googlenet提取视觉特征，分别代表视角a和视角b。

4.根据权利要求1所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，所述步骤（2）交替方向乘子法具体如下：

5.根据权利要求4所述的一种基于实例的多视角视觉融合转导式零样本分类方法，其特征在于，步骤（3）得到未见类图片...

【专利技术属性】
技术研发人员：汤龙，赵靖涛，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人