一种基于多模态特征融合的零样本学习分类方法及设备技术

技术编号：34367645 阅读：68 留言：0更新日期：2022-07-31 09:34

本发明专利技术公开了一种基于多模态特征融合的零样本学习分类方法及设备，属于图像识别技术领域，用于解决现有的基于生成模型的零样本学习模型中存在域偏移问题和视觉特征域偏移问题。方法包括：根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征；根据训练样本的真实特征与多模态融合条件特征，得到合成视觉特征；对合成视觉特征进行映射，得到语义模态对齐损失函数；通过生成器，对语义嵌入特征进行重构，得到重构样本视觉特征，并计算视觉模态对齐损失函数；根据模型总损失函数，对生成器中的相关参数进行优化；根据优化后的生成器，对未见类图像样本进行分类，得到对应的未见类伪样本，以将未见类伪样本用于训练分类器。练分类器。练分类器。

A zero sample learning classification method and equipment based on multimodal feature fusion

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态特征融合的零样本学习分类方法及设备

[0001]本申请涉及图像识别领域，尤其涉及一种基于多模态特征融合的零样本学习分类方法及设备。

技术介绍

[0002]近年来，有监督学习在图像分类任务上取得了显著成功。得益于深度学习框架的使用以及可用于训练的标记数据集的不断增多，模型可以通过充分的训练来达到高精度的识别效果。然而现阶段分类任务存在两个的挑战：一是收集大规模数据集成本昂贵，二是面对不断出现的新类别，样本采集难度巨大且耗费时间。为了解决这一问题，研究者们从人类认知新事物的过程中得到灵感，提出了零样本学习(Zero
‑
shot Learning，ZSL)以实现对新颖类的识别。零样本学习旨在通过在可见类(seen classes)中学到的知识对未见类(unseen classes)进行分类。
[0003]语义信息作为连接可见类和未见类的中间桥梁，利用训练过程中学到的可见类知识来对未见类进行识别。基于生成模型的零样本学习模型是零样本学习方法的一种，可以提高广义零样本学习中未见类的识别准确率。然而现有的基于生成模型的零样本学习模型存在两个问题：模型中训练好的生成器按照语义描述生成的未见类的视觉特征由于类间可区分性不足而导致分类器对未见类分类时存在域偏移问题；不同数据集上的样本视觉特征会因为数据收集过程中受到人为因素的影响存在跨域偏差，导致不同数据集之间样本分布存在差异，因此从零样本学习的基准数据集中使用的残差网络特征会存在视觉特征域偏置问题。

技术实现思路

[0004]本...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征融合的零样本学习分类方法，其特征在于，所述方法包括：根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征；根据所述训练样本的真实特征与所述多模态融合条件特征，得到合成视觉特征，并计算所述合成视觉特征的编码损失函数以及判别器损失函数；通过第一编码器，对所述合成视觉特征进行映射，得到语义嵌入特征，并计算所述语义特征与所述语义嵌入特征的循环一致性损失，得到语义模态对齐损失函数；通过生成对抗网络的生成器，对所述语义嵌入特征进行重构，得到重构样本视觉特征，并计算视觉模态对齐损失函数；根据模型总损失函数，对所述生成器中的相关参数进行优化，直至所述模型总损失函数的值小于第一预设阈值；其中，所述模型总损失函数由所述编码损失函数、所述判别器损失函数、所述语义模态对齐损失函数以及所述视觉模态对齐损失函数所决定；根据优化后的所述生成对抗网络的生成器，对未见类图像样本进行分类，得到对应的未见类伪样本，以将所述未见类伪样本用于训练分类器。2.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据训练样本的语义特征以及视觉主成特征，得到多模态融合条件特征，具体包括：通过预训练模型ResNet
‑
101，提取所述训练样本中的所述真实特征；其中，所述真实特征为2048维视觉特征向量；对所述训练样本的类别特征进行概括，提取所述语义特征；通过深层主成特征提取网络，提取所述训练样本中的所述视觉主成特征；根据所述语义特征以及所述视觉主成特征，对所述训练样本进行特征提取以及特征融合，得到所述多模态融合条件特征。3.根据权利要求2所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据所述语义特征以及所述视觉主成特征，对所述训练样本进行特征提取以及特征融合，得到所述多模态融合条件特征，具体包括：通过特征提取函数，对所述训练样本进行特征提取；根据L
e
＝E[logθ(x)]，得到所述特征提取过程的损失；其中，x为所述真实特征，θ(
·
)为所述特征提取函数，E为期望值；通过特征层融合模块，根据对所述语义特征与所述视觉主成特征进行特征融合，得到所述多模态融合条件特征c；其中，x
p
为所述视觉主成特征，a为所述语义特征，为联结符号。4.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法，其特征在于，根据所述训练样本的真实特征与所述多模态融合条件特征，得到合成视觉特征，并计算所述合成视觉特征的编码损失函数以及判别器损失函数，具体包括：通过第二编码器，对所述真实特征与所述多模态融合条件特征进行编码，得到随机噪声；根据得到所述编码损失函数其中，z为随机噪声，E(x,c)为第二编码器的期望，logG(z,a)为所述生成对抗网络的生成器的重构误差，KL(
·
)用于计算KL散度距离，β为KL散度的权重参数，p(z|a)表示高斯
分布的先验概率，a为所述语义特征，c为所述多模态融合条件特征，E为期望；通过变分自编码器VAE的解码器，对所述随机噪声以及所述语义特征进行解码，得到所述合成视觉特征；其中，所述生成对抗网络的生成器共享所述变分自编码器VAE的解码器；通过所述对抗生成网络的判别器，计算所述真实特征与所述合成视觉特征的相似度；根据得到所述判别器损失函数其中，为所述真实特征x与所述合成视觉特征的相似度，λE...

【专利技术属性】
技术研发人员：曹伟朋，吴宇豪，张兴俭，庄浩，蔡恒，刘鑫，
申请(专利权)人：中海华瑞智能科技天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人