一种多视角零样本图像识别方法技术

技术编号:35841441 阅读:27 留言:0更新日期:2022-12-03 14:14
本发明专利技术公开了一种多视角零样本图像识别方法,包括:构建多视角视觉

【技术实现步骤摘要】
一种多视角零样本图像识别方法


[0001]本专利技术属于图像识别
,具体涉及一种多视角零样本图像识别方法。

技术介绍

[0002]模式识别技术在近十几年取得了长足的进展。传统的模式识别方法需要使用大量的标记数据来进行训练以保证模型的泛化性能。然而在许多现实场景中,对细粒度样本进行标记往往需要专门的领域知识,因此,为所有类别收集大量的标记良好的样本仍然是一个挑战。为了解决这个问题,零样本分类得到越来越多的关注。
[0003]零样本分类试图通过从已见类(有现成样本的类别)的标记样本中获取迁移知识,从而构建能够识别未见类(没有现成样本的类别,即零样本类)样本的模型。零样本分类方法通过构建一个语义嵌入空间来建立已见类和未见类之间的内在联系,并在这个空间中嵌入已见类和未见类的语义标签(视为先验信息,可以是类别属性特征,也可根据类别的相关知识或文本描述采用词嵌入等方法获取)。这样,每个类别在语义空间中都与一个类语义标签向量相关联,进而可以通过建立样本特征与类别语义标签向量之间的映射关系来获取迁移知识,从而实现对未见类样本的判别。
[0004]公开号为CN115147607A的专利技术申请是在视觉

语义映射模型下,通过引入Ramp型损失函数、CCCP迭代框架以及ADMM更新方法,降低已见类图片样本的标记噪声样本带来的负面影响。
[0005]但迄今为止,大部分零样本分类的研究仅针对单视角数据。随着计算机技术的发展,在许多现实场景中,多视角数据(多源异构数据)己经变得非常普遍,譬如,医生通常需要综合病人的多视角生理数据做出诊断,包括结构化数据以及诸如文本、磁共振成像MRI、CT等的非结构化数据。因此,如何通过提取和利用已见类别多视角数据中的信息来提升零样本分类的学习效果,是亟待解决的问题。

技术实现思路

[0006]专利技术目的:本专利技术的目的在于克服现有方法的不足,提供一种多视角零样本图像识别方法。
[0007]技术方案:本专利技术提供多视角零样本图像识别方法,包括以下步骤:S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;S2将所述多视角视觉特征输入预先训练获得的多视角视觉

语义映射模型,最终得到待识别图片的预测类别语义属性;S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性。
[0008]进一步的,包括:所述步骤S2中,预先训练获得的多视角视觉

语义映射模型包括训练阶段,所述训练阶段包括以下步骤:
S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;S22构建多视角视觉

语义映射模型,将图片样本的多视角视觉特征作为多视角视觉

语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉

语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉

语义映射模型中的相关参量,从而获得最终的多视角视觉

语义映射模型。
[0009]进一步的,包括:所述步骤S2中,预先训练获得的多视角视觉

语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉

语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉

语义映射模型合格,否则,返回到训练阶段。
[0010]进一步的,包括:步骤S22中,构建多视角视觉

语义映射模型,实现方法为:多视角视觉

语义映射模型的表达式为:其中,分别为图片样本在两个不同视角上的视觉特征,分别为两个视角的视觉特征的维度,和为图片样本的类别语义属性,和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,和分别为两个视角的各自的潜在子空间到类别语义属性空间的投影矩阵,T为转置。
[0011]进一步的,包括:步骤S22中,基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:S221建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值,则损失值为零;S222优化问题表示为:
其中,tr(*)为矩阵的迹运算;为矩阵的F

范数;分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,的列数为已见类训练集中的图片样本数量;P1和P2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;为损失函数中设定的阈值;和分别为两个视角上的松弛变量;β1,β2,C和为权系数。
[0012]进一步的,包括:建立所述优化问题,具体原则包括:a)最小化图片样本的损失值;b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异,从而满足不同视角之间的一致性原则;c)根据多视角视觉

语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值,从而满足不同视角之间的互补性原则;d)在多视角视觉

语义映射模型中为每一个视角添加一个潜在子空间。
[0013]进一步的,包括:所述步骤S23具体包括以下步骤:S231通过引入松弛变量,将公式(1)中的不等式约束改写成等价的等式约束:

S232公式(2)的增广拉格朗日函数为:S232公式(2)的增广拉格朗日函数为:其中,为罚参数;是拉格朗日乘子; S233更新矩阵B1,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:
采用拉格朗日乘子法求解公式(4),获得关于矩阵B1的西尔维斯特方程:S234更新矩阵B2,同时固定其余变量和拉格朗日乘子,求解如下子优化问题:采用拉格朗日乘子法求解公式(6),获得关于矩阵B2的西尔维斯特方程:S235更新矩阵Q1,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多视角零样本图像识别方法,其特征在于,包括以下步骤:S1采集待识别图片,并提取所述待识别图片的多视角视觉特征;S2将所述多视角视觉特征输入预先训练获得的多视角视觉

语义映射模型,最终得到待识别图片的预测类别语义属性;S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐,进而获得待识别图片最终的类别语义属性。2.根据权利要求1所述的多视角零样本图像识别方法,其特征在于,所述步骤S2中,预先训练获得的多视角视觉

语义映射模型包括训练阶段,所述训练阶段包括以下步骤:S21获取已见类训练集,已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性;S22构建多视角视觉

语义映射模型,将图片样本的多视角视觉特征作为多视角视觉

语义映射模型的输入,将图片样本的类别语义属性作为多视角视觉

语义映射模型的输出;并基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题;S23使用交替方向乘子法对所述优化问题变量进行更新迭代,直至优化问题的变量在两次连续迭代中的变化量小于定值,进而确定多视角视觉

语义映射模型中的相关参量,从而获得最终的多视角视觉

语义映射模型。3.根据权利要求2所述的多视角零样本图像识别方法,其特征在于,所述步骤S2中,预先训练获得的多视角视觉

语义映射模型还包括测试阶段,所述测试阶段包括以下步骤:S24获取未见类测试集,将所述未见类测试集输入所述最终的多视角视觉

语义映射模型,获得未见类测试集在各个视角上的预测类别语义属性;S25利用图模型降噪算法,将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐,更新未见类测试集在各个视角上的类别语义属性,并将它们的平均值作为未见类测试集最终的类别语义属性;S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性,确定未见类测试集中每个图片样本最终的预测类别;S27根据未见类测试集中图片样本的真实类别,统计未见类测试集中图片样本最终的预测类别的正确数量,并计算未见类测试集的类别预测准确率;S28若未见类测试集的类别预测准确率大于设定的未见类阈值,则判定最终的视觉

语义映射模型合格,否则,返回到训练阶段。4.根据权利要求2所述的多视角零样本图像识别方法,其特征在于,步骤S22中,构建多视角视觉

语义映射模型,实现方法为:多视角视觉

语义映射模型的表达式为:其中,分别为图片样本在两个不同视角上的视觉特征,分别为两个视角的视觉特征的维度,和为图片样本的类别语义属性,和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵,和分别为两个视角的各自的潜在子空间
到类别语义属性空间的投影矩阵,T为转置。5.根据权利要求4所述的多视角零样本图像识别方法,其特征在于,步骤S22中,基于不同视角视觉特征之间的一致性和互补性原则,建立优化问题,实现步骤包括:S221建立基于类别语义属性空间的相似度模型的损失函数,若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值,则损失值为零;S222优化问题表示为:S222优化问题表示为:其中,tr(*)为矩阵的迹运算;为矩阵的F

范数;分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵,n为样本数量,为已见类训练集中的所有图片样本对应的类别语义属性的矩阵,的每一列均为所有已见类的类别语义属性的平均值,的列数为已见类训练集中的图片样本数量;P1和P2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵;I为单位矩阵;为损失函数中设定的阈值;和分别为两个视角上的松弛变量;β1,β2,C和为权系数。6.根据权利要求5所述的多视角零样本图像识别方法,其特征在于,建立所述优化问题,具体原则包括:a)最小化图片样本的损失...

【专利技术属性】
技术研发人员:汤龙唐昕航潘志庚
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1