一种基于多模态特征融合的零样本学习分类方法及设备技术

技术编号:34367645 阅读:68 留言:0更新日期:2022-07-31 09:34
本发明专利技术公开了一种基于多模态特征融合的零样本学习分类方法及设备,属于图像识别技术领域,用于解决现有的基于生成模型的零样本学习模型中存在域偏移问题和视觉特征域偏移问题。方法包括:根据训练样本的语义特征以及视觉主成特征,得到多模态融合条件特征;根据训练样本的真实特征与多模态融合条件特征,得到合成视觉特征;对合成视觉特征进行映射,得到语义模态对齐损失函数;通过生成器,对语义嵌入特征进行重构,得到重构样本视觉特征,并计算视觉模态对齐损失函数;根据模型总损失函数,对生成器中的相关参数进行优化;根据优化后的生成器,对未见类图像样本进行分类,得到对应的未见类伪样本,以将未见类伪样本用于训练分类器。练分类器。练分类器。

A zero sample learning classification method and equipment based on multimodal feature fusion

【技术实现步骤摘要】
一种基于多模态特征融合的零样本学习分类方法及设备


[0001]本申请涉及图像识别领域,尤其涉及一种基于多模态特征融合的零样本学习分类方法及设备。

技术介绍

[0002]近年来,有监督学习在图像分类任务上取得了显著成功。得益于深度学习框架的使用以及可用于训练的标记数据集的不断增多,模型可以通过充分的训练来达到高精度的识别效果。然而现阶段分类任务存在两个的挑战:一是收集大规模数据集成本昂贵,二是面对不断出现的新类别,样本采集难度巨大且耗费时间。为了解决这一问题,研究者们从人类认知新事物的过程中得到灵感,提出了零样本学习(Zero

shot Learning,ZSL)以实现对新颖类的识别。零样本学习旨在通过在可见类(seen classes)中学到的知识对未见类(unseen classes)进行分类。
[0003]语义信息作为连接可见类和未见类的中间桥梁,利用训练过程中学到的可见类知识来对未见类进行识别。基于生成模型的零样本学习模型是零样本学习方法的一种,可以提高广义零样本学习中未见类的识别准确率。然而现有的基于生成模型的零样本学习模型存在两个问题:模型中训练好的生成器按照语义描述生成的未见类的视觉特征由于类间可区分性不足而导致分类器对未见类分类时存在域偏移问题;不同数据集上的样本视觉特征会因为数据收集过程中受到人为因素的影响存在跨域偏差,导致不同数据集之间样本分布存在差异,因此从零样本学习的基准数据集中使用的残差网络特征会存在视觉特征域偏置问题。

技术实现思路

[0004]本申请实施例提供了一种基于多模态特征融合的零样本学习分类方法及设备,用于解决如下技术问题:现有的基于生成模型的零样本学习模型中存在域偏移问题和视觉特征域偏移问题,对广义零样本学习中未见类的识别准确率造成较大的影响。
[0005]本申请实施例采用下述技术方案:
[0006]一方面,本申请实施例提供了一种基于多模态特征融合的零样本学习分类方法,所述方法包括:根据训练样本的语义特征以及视觉主成特征,得到多模态融合条件特征;根据所述训练样本的真实特征与所述多模态融合条件特征,得到合成视觉特征,并计算所述合成视觉特征的编码损失函数以及判别器损失函数;通过第一编码器,对所述合成视觉特征进行映射,得到语义嵌入特征,并计算所述语义特征与所述语义嵌入特征的循环一致性损失,得到语义模态对齐损失函数;通过生成对抗网络的生成器,对所述语义嵌入特征进行重构,得到重构样本视觉特征,并计算视觉模态对齐损失函数;根据模型总损失函数,对所述生成器中的相关参数进行优化,直至所述模型总损失函数的值小于第一预设阈值;其中,所述模型总损失函数由所述编码损失函数、所述判别器损失函数、所述语义模态对齐损失函数以及所述视觉模态对齐损失函数所决定;根据优化后的所述生成对抗网络的生成器,
对未见类图像样本进行分类,得到对应的未见类伪样本,以将所述未见类伪样本用于训练分类器。
[0007]本申请实施例通过从训练样本中提取到的语义特征以及视觉主成特征进行融合,得到多模态融合条件特征,再将其与训练样本中的真实特征进行计算,通过编码器后得到随机噪声,再把随机噪声与语义特征结合,通过生成对抗网络的生成器运算后,得到合成视觉特征,然后根据合成视觉特征、真实特征与语义特征得到判别器损失函数,并在该过程中计算第二编码器的编码损失函数;然后再根据第一编码器,将合成视觉特征进行映射,得到语义嵌入特征之后,计算语义特征与语义嵌入特征的循环一致性损失,得到双模态对齐中的语义模态对齐损失函数,再根据生成对抗网络的生成器对语义嵌入特征的重构,得到重构视觉特征,然后计算真实特征与重构特征之间的欧式距离得到视觉模态之间的损失,得到双重模态对齐中的视觉模态对齐损失函数;最后将编码损失函数、判别器损失函数、语义模态对齐损失函数和视觉模态对齐损失函数的和生成模型总损失函数,然后对生成器的相关参数进行迭代优化,最后再用优化后的生成对抗网络的生成器,对未见类的图像样本进行分类,得到未见类的伪样本,再拿这些未见类伪样本来训练softmax分类器。通过优化的生成器生成的优化后的未见类伪样本来训练,可以提高softmax分类器对未见类样本的识别准确率,缓解在零样本学习方法中未见类样本生成中的域偏置问题,能够在语义模态和视觉模态上同时约束生成器,使生成器能够在不偏离视觉主成特征的基础上根据语义描述随机生成不同的未见类视觉特征,解决真实世界开放域环境下的图像识别问题。
[0008]在一种可行的实施方式中,根据训练样本的语义特征以及视觉主成特征,得到多模态融合条件特征,具体包括:通过预训练模型ResNet

101,提取所述训练样本中的所述真实特征;其中,所述真实特征为2048维视觉特征向量;对所述训练样本的类别特征进行概括,提取所述语义特征;通过深层主成特征提取网络,提取所述训练样本中的所述视觉主成特征;根据所述语义特征以及所述视觉主成特征,对所述训练样本进行特征提取以及特征融合,得到所述多模态融合条件特征。
[0009]在一种可行的实施方式中,根据所述语义特征以及所述视觉主成特征,对所述训练样本进行特征提取以及特征融合,得到所述多模态融合条件特征,具体包括:通过特征提取函数,对所述训练样本进行特征提取;根据L
e
=E[logθ(x)],得到所述特征提取过程的损失;其中,x为所述真实特征,θ(
·
)为所述特征提取函数,E为期望值;通过特征层融合模块,根据对所述语义特征与所述视觉主成特征进行特征融合,得到所述多模态融合条件特征c;其中,x
p
为所述视觉主成特征,a为所述语义特征,为联结符号。
[0010]在一种可行的实施方式中,根据所述训练样本的真实特征与所述多模态融合条件特征,得到合成视觉特征,并计算所述合成视觉特征的编码损失函数以及判别器损失函数,具体包括:通过第二编码器,对所述真实特征与所述多模态融合条件特征进行编码,得到随机噪声;根据得到所述编码损失函数其中,z为所述随机噪声,E(x,c)为第二编码器的期望,logG(z,a)为所述生成对抗网络的生成器的重构误差,KL(

)用于计算KL散度距离,β为KL散度的权重参数,p(z|a)表示高斯分布的先验概率,a为所述语义特征,c为所述多模态融合条件特征,E为期望;通过变分自编码器VAE的解码器,对所述随机噪声以及所述语义特征进行解码,得到所述合成视觉特
征;其中,所述生成对抗网络的生成器共享所述变分自编码器VAE的解码器;通过所述对抗生成网络的判别器,计算所述真实特征与所述合成视觉特征的相似度;根据生成网络的判别器,计算所述真实特征与所述合成视觉特征的相似度;根据得到所述判别器损失函数其中,为所述真实特征x与所述合成视觉特征的相似度,λE[(||D(x

,a)||2‑
1)2]为带有Lipschitz约束的梯度惩罚项,入为惩罚参数,x

为语义

视觉特征的联合分布,其中α本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征融合的零样本学习分类方法,其特征在于,所述方法包括:根据训练样本的语义特征以及视觉主成特征,得到多模态融合条件特征;根据所述训练样本的真实特征与所述多模态融合条件特征,得到合成视觉特征,并计算所述合成视觉特征的编码损失函数以及判别器损失函数;通过第一编码器,对所述合成视觉特征进行映射,得到语义嵌入特征,并计算所述语义特征与所述语义嵌入特征的循环一致性损失,得到语义模态对齐损失函数;通过生成对抗网络的生成器,对所述语义嵌入特征进行重构,得到重构样本视觉特征,并计算视觉模态对齐损失函数;根据模型总损失函数,对所述生成器中的相关参数进行优化,直至所述模型总损失函数的值小于第一预设阈值;其中,所述模型总损失函数由所述编码损失函数、所述判别器损失函数、所述语义模态对齐损失函数以及所述视觉模态对齐损失函数所决定;根据优化后的所述生成对抗网络的生成器,对未见类图像样本进行分类,得到对应的未见类伪样本,以将所述未见类伪样本用于训练分类器。2.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法,其特征在于,根据训练样本的语义特征以及视觉主成特征,得到多模态融合条件特征,具体包括:通过预训练模型ResNet

101,提取所述训练样本中的所述真实特征;其中,所述真实特征为2048维视觉特征向量;对所述训练样本的类别特征进行概括,提取所述语义特征;通过深层主成特征提取网络,提取所述训练样本中的所述视觉主成特征;根据所述语义特征以及所述视觉主成特征,对所述训练样本进行特征提取以及特征融合,得到所述多模态融合条件特征。3.根据权利要求2所述的一种基于多模态特征融合的零样本学习分类方法,其特征在于,根据所述语义特征以及所述视觉主成特征,对所述训练样本进行特征提取以及特征融合,得到所述多模态融合条件特征,具体包括:通过特征提取函数,对所述训练样本进行特征提取;根据L
e
=E[logθ(x)],得到所述特征提取过程的损失;其中,x为所述真实特征,θ(
·
)为所述特征提取函数,E为期望值;通过特征层融合模块,根据对所述语义特征与所述视觉主成特征进行特征融合,得到所述多模态融合条件特征c;其中,x
p
为所述视觉主成特征,a为所述语义特征,为联结符号。4.根据权利要求1所述的一种基于多模态特征融合的零样本学习分类方法,其特征在于,根据所述训练样本的真实特征与所述多模态融合条件特征,得到合成视觉特征,并计算所述合成视觉特征的编码损失函数以及判别器损失函数,具体包括:通过第二编码器,对所述真实特征与所述多模态融合条件特征进行编码,得到随机噪声;根据得到所述编码损失函数其中,z为随机噪声,E(x,c)为第二编码器的期望,logG(z,a)为所述生成对抗网络的生成器的重构误差,KL(
·
)用于计算KL散度距离,β为KL散度的权重参数,p(z|a)表示高斯
分布的先验概率,a为所述语义特征,c为所述多模态融合条件特征,E为期望;通过变分自编码器VAE的解码器,对所述随机噪声以及所述语义特征进行解码,得到所述合成视觉特征;其中,所述生成对抗网络的生成器共享所述变分自编码器VAE的解码器;通过所述对抗生成网络的判别器,计算所述真实特征与所述合成视觉特征的相似度;根据得到所述判别器损失函数其中,为所述真实特征x与所述合成视觉特征的相似度,λE...

【专利技术属性】
技术研发人员:曹伟朋吴宇豪张兴俭庄浩蔡恒刘鑫
申请(专利权)人:中海华瑞智能科技天津有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1