一种基于视觉-语义模态解缠的广义零样本学习方法技术

技术编号：41199894 阅读：5 留言：0更新日期：2024-05-07 22:26

本发明专利技术公开了一种基于视觉‑语义模态解缠的广义零样本学习方法，首先通过条件变分自编码器生成未见过的类的视觉特征；然后通过对齐解纠缠模块将视觉特征和语义特征分解为与分类相关的特征和与分类无关的特征，并使用总相关性惩罚来确保两个特征之间的独立性及其语义一致性是通过语义关系匹配网络来衡量的，本申请通过跨模态交叉重建和视觉语义分布对齐来增强视觉语义对齐；此外，使用LRA方法来加强辅助分类器引导的跨模态潜在表示的对齐；最后，使用对齐解纠缠模块解纠缠的分类相关特征来学习GZSL分类器；本方案在四个图像分类数据集上评估了本方案提出的方法，大量的实验表明，本申请的方法始终比其他最先进的方法表现得更好。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及零样本图像分类，具体涉及一种基于视觉-语义模态解缠的广义零样本学习方法。

技术介绍

1、广义零样本学习(generalized zero-shot learning，gzsl)旨在通过仅训练已见样本来识别已见样本和未见样本，最近的一些研究引入了视觉特征解纠缠方法来弥合可见类别和不可见类别之间的差距，然而，大多数研究忽略了语义特征还包含与分类无关的信息这一事实，由于gzsl本质上是一个多模态学习任务，跨模态解纠缠会加剧视觉模态和语义模态之间的分布差距，导致更严重的领域偏移问题；

2、鉴于以上，本申请提供一种基于视觉-语义模态解缠的广义零样本学习方法用于解决上述问题。

技术实现思路

1、针对上述情况，为克服现有技术之缺陷，本专利技术提供一种基于视觉-语义模态解缠的广义零样本学习方法，本方案首先通过条件变分自编码器生成未见过的类的视觉特征，然后通过对齐解纠缠模块将视觉特征和语义特征分解为与分类相关的特征和与分类无关的特征，并使用总相关性惩罚来确保两个特征之间的独立性及其语义一致性是通过语义关系匹配网络来衡量的；本申请通过跨模态交叉重建和视觉语义分布对齐来增强视觉语义对齐；此外，这里使用lra方法来加强辅助分类器引导的跨模态潜在表示的对齐；最后，使用对齐解纠缠模块解纠缠的分类相关特征来学习gzsl分类器；本申请在四个图像分类数据集上评估了本申请提出的方法；大量的实验表明，本申请的方法始终比其他最先进的方法表现得更好。

2、一种基于视觉-语义模态解缠的广

3、一种基于视觉-语义模态解缠的广义零样本学习方法，包括以下步骤：

4、s1：给定从预训练模型中提取的可见类视觉特征x和语义特征c；

5、s2：将可见类视觉特征x和语义特征c输入到条件变分自编码器推断出潜在变量z，并通过z合成重构的可见类视觉特征通过减少x和之间的均方误差来训练条件自分编码器；

6、s3：使用训练好的条件变自分编码器根据语义特征c和噪声分布n～(0,1)合成不可见类视觉样本x'；

7、s4：将可见类视觉特征x、合成的不可见类视觉特征x'和语义特征c输入到对齐解纠缠模块，对齐解纠缠模块中的视觉编码器ev和es分布将视觉特征、语义特征分别编码为潜在信息，并将它们分别解纠缠为与分类相关的特征zr、cr和与分类无关的特征zu、cu，使用总相关性惩罚来确保两个特征之间的独立性；

8、s5：通过语义关系匹配模型衡量其语义一致性，迫使分类相关特征在语义上相互关联，并指导模型学习分类相关特征；

9、s6：通过添加跨模态交叉重建损失和视觉语义分布对齐损失来分别显示和隐示的对齐潜在表示；

10、s7：使用对齐解纠缠模块解纠缠的分类相关特征学习gzsl分类器。

11、上述技术方案有益效果在于：

12、(1)本方案提出了一种方法，将与分类相关的特征分别从视觉和语义特征中分离出来，以减轻不相关信息对分类的影响；

13、(2)跨模态对齐解纠缠模块旨在通过学习具有判别特性的共享跨模态潜在表示并增强跨模态潜在表示的对齐来减轻域偏移问题；

14、(3)本方案引入lda方法，通过辅助分类器的指导来增强跨模态潜在表示的对齐和跨模态潜在表示的可辨别性；

15、(4)为了验证所提出模型的有效性，在四个公开的gzsl数据集上进行了训练测试，实验结果表明cadgzsl模型在gzsl任务上取得了良好的结果，证明了所提出的跨模态对齐解纠缠思想的有效性。

本文档来自技高网...

【技术保护点】

1.一种基于视觉-语义模态解缠的广义零样本学习方法，包括以下步骤：

2.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述S2中条件变分自编码器的损失函数表示为：

3.根据权利要求2所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述对齐解纠缠模块中的解纠缠条件变分自编码器的损耗表示为：

4.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述S3中总相关性惩罚由以下过程实现：

5.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述S4中将分类相关特征zr和唯一对应的语义属性c拼接并输入到语义关系匹配模型R中，成功的配对关系记为1，匹配失败记为0，可以表示为：

6.根据权利要求3所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，通过引入信息增强方法来放大潜变量和推断的潜变z之间的联合概率，信息增强方法表示为：

7.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方

8.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，引入分类信息y，潜在空间中对应模态的分类概率表示为p(y∣z1,x)和p(y∣z2,x)，联合分布p(z1,z2)可以被定义为评估视觉和语义模态在潜在空间中对齐的程度，当两种模态完全对齐时，p(z1,z2)＝1，否则0≤p(z1,z2)≤1，优化跨模态对准在数学上表示为：

9.根据权利要求1-8中任一所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述基于视觉-语义模态解缠的广义零样本学习方法的总体损失表示为：

...

【技术特征摘要】

1.一种基于视觉-语义模态解缠的广义零样本学习方法，包括以下步骤：

2.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述s2中条件变分自编码器的损失函数表示为：

4.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述s3中总相关性惩罚由以下过程实现：

5.根据权利要求1所述的一种基于视觉-语义模态解缠的广义零样本学习方法，其特征在于，所述s4中将分类相关特征zr和唯一对应的语义属性c拼接并输入到语义关系匹配模型r中，成功的配对关系记为1，匹配失败记为0，可以表示为：

6.根据权利要求3所述的一种基于视觉-语义模态解...

【专利技术属性】
技术研发人员：杨关，孙嘉辉，王晨，许进忠，刘小明，杨华，
申请(专利权)人：中原工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人