结合自动编码器和生成对抗网络的零样本跨模态检索方法技术

技术编号:26418793 阅读:28 留言:0更新日期:2020-11-20 14:14
本发明专利技术公开了一种结合自动编码器和生成对抗网络的零样本跨模态检索方法,属于计算机视觉中的跨模态检索领域。本发明专利技术包括:使用预训练的模型提取各个模态的特征;为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则结合自动编码器和生成对抗网络联合训练整个网络;在低维的潜在嵌入空间进行零样本跨模态检索。本发明专利技术能够实现零样本跨模态检索。

【技术实现步骤摘要】
结合自动编码器和生成对抗网络的零样本跨模态检索方法
本专利技术涉及计算机视觉中的跨模态检索领域,尤其涉及一种结合自动编码器和生成对抗网络的零样本跨模态检索方法。
技术介绍
随着互联网技术的飞速发展,多模态数据(例如图像,文本,视频和音频)出现了爆炸性增长。由于不同模态之间存在跨模态相关性,跨模态检索成为了研究热点。跨模态检索的基本任务是使用对任一模态的查询数据来检索其他模态的数据,例如,文本图像检索,图像草图检索和视频检索。然而,跨模态检索面临名叫“异构鸿沟”的主要问题,即查询模态和被查询模态的数据分布是不一致的,因此难以建立模态之间的关系,以及难以衡量模态数据之间的相似性。现在的主流解决办法是学习共享的潜在嵌入空间,通过学习各种线性或非线性变换,以将不同模态的数据投影到嵌入空间得到统一的嵌入表示。这消除了不同模态的不一致性,使得衡量不同模态的数据之间的相似性成为可能。跨模态检索方法可以被分类为浅层表示学习方法和基于深度学习的方法。浅层表示学习方法所学习的变换通常是线性的和基于统计分析的。这些方法以统计分析的方法建模各个模态数据的特征,以及它们之间的相关关系。通过最大化跨模态的相关关系,浅层表示学习将不同模态的特征投影到学习得到的潜在嵌入空间,消除了不同模态的不一致性问题。基于深度学习的方法旨在借助深度神经网络在视觉问题上表现出的强大的特征表达能力,以捕获跨模态的非线性关系。基于深度学习的方法通常遵循浅层表示学习方法的流程,即对不同模态构建特定的子网络,并通过联合层将它们进行连接。由联合层所构建的跨模态的潜在嵌入空间捕获了跨模态的非线性关系,提升了整体模型对于复杂多模态分布的关系的分析能力,最终提高了跨模态检索的检索准确率。然而,传统的跨模态检索方法都假定实际应用时,被查询模态和查询模态所包含了类别与训练模型时所用的类别相同。零样本设置下,这样的假设被放宽到两者不共享同样的类别,即训练时的类别称为可见类,测试时的类别称为不可见类。受到零样本学习领域方法的启发,采用语义空间作为连接可见类和不可见类的桥梁,使得在可见类和不可见类之间迁移知识称为了可能。而语义空间可以很轻易地使用预训练的模型从语料库中提取的类别嵌入来构建,并不大幅增加跨模态检索方法的学习开销。零样本学习领域的方法通常致力于探索单一模态的数据和类别嵌入之间关系,而零样本跨模态检索不仅要多模态数据带来的“异构鸿沟”问题,还要解决可见类和不可见类带来的语义不一致的问题。最近提出的一些零样本跨模态检索方法通常直接将零样本学习方法应用到多模态检索领域,模型中包含了许多与检索任务不相关的部分,并没有考虑这些方法与检索任务的适应性。
技术实现思路
本专利技术的目的是提供一种结合自动编码器和生成对抗网络的零样本跨模态检索方法,能够实现零样本跨模态检索。本专利技术解决其技术问题,采用的技术方案是:结合自动编码器和生成对抗网络的零样本跨模态检索方法,包括如下步骤:步骤1、使用预训练的模型提取各个模态的特征;步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;步骤4、构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则进入步骤5;步骤5、结合自动编码器和生成对抗网络联合训练整个网络;步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。进一步的是,步骤1中,所述模态为两种模态。进一步的是,步骤2、3和4具体包括如下步骤:a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络,其中自动编码器的解码器和生成对抗网络的生成器共享参数;b、为两种模态所共享的类别标签嵌入构造一个自动编码器;c、三个自动编码器为一组,每个编码器将对应模态的原始数据编码为潜在嵌入特征,然后每个解码器重构出相应的原始数据,通过最小化重构信息误差和跨分布对齐,联合构建跨模态的潜在嵌入空间;d、两个耦合的自动编码器和生成对抗网络为一组,判别器通过对抗性损失评估各个模态的重构特征分布的真实性,间接引导潜在嵌入特征的学习;e、线性加权自动编码器和生成对抗网络的损失函数以构成整体模型的总损失函数,并以对抗式的训练方法训练整个模型。进一步的是,步骤c中,所述跨分布对齐的方法包括:采用最大均值差异作为度量标准,衡量成对的多模态数据对应的潜在嵌入表示的分布的相似性;以及,采用最小均方误差作为度量标准,衡量实例级的模态潜在嵌入表示之间差异,提供更加细腻度的嵌入引导。进一步的是,步骤d中,两个耦合的自编码器和生成对抗网络通过共享解码器和生成器的参数而结合在一起,形成两个平行的数据通路,用于联合学习模态潜在嵌入表示、特征重构和分布的真实性的评估。进一步的是,步骤e具体为:通过超参数加权重构信息损失,分布判别损失和跨分布对齐损失,并通过调节超参数来调节三者的贡献,最终采用生成对抗网络的对抗式训练方法,通过随机梯度下降更新整体网络的参数。进一步的是,步骤6具体包括如下步骤:步骤601、对于查询模态和被查询模态的数据,使用相同的预训练模型提取其特征;步骤602、将提取的特征向量输入训练好的网络,得到各自模态的潜在嵌入表示;步骤603、在潜在嵌入空间中,计算所有成对的查询模态的实例和被查询模态的实例之间的相似度,并进行排序,相似度最大的结果所对应的被查询模态实例即为查询模态实例所要检索的目标。本专利技术的有益效果是,通过上述结合自动编码器和生成对抗网络的零样本跨模态检索方法,通过耦合的自动编码器和生成对抗网络联合学习共享的潜在嵌入空间,原始模态特征的重构和重构特征分布真实性的评估,并且,由于使用自动编码器学习潜在嵌入空间而不是直接使用类别嵌入空间作为共享的空间,这使得可见类和不可见类之间的知识迁移更加有效,并且对抗式训练更加稳定。最终,查询模态和被查询模态的数据输入到训练好的网络,获得嵌入表示,实现零样本跨模态检索。附图说明图1为本专利技术结合自动编码器和生成对抗网络的零样本跨模态检索方法的流程图;图2为本专利技术实施例1中由各个模态的自动编码器组成的框架以及跨分布对齐的示意图;图3为本专利技术实施例1中由两个生成对抗网络组成的框架的示意图;图4为本专利技术实施例1中耦合自动编码器和生成对抗网络的整体框架图。具体实施方式下面结合附图及实施例,详细描述本专利技术的技术方案。本专利技术提出的一种结合自动编码器和生成对抗网络的零样本跨模态检索方法,其流程图见图1,其中,该方法包括如下步骤:步骤1、使用预训练的模型提取各个模态的特征。步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐。步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个本文档来自技高网
...

【技术保护点】
1.结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,包括如下步骤:/n步骤1、使用预训练的模型提取各个模态的特征;/n步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;/n步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;/n步骤4、构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则进入步骤5;/n步骤5、结合自动编码器和生成对抗网络联合训练整个网络;/n步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。/n

【技术特征摘要】
1.结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,包括如下步骤:
步骤1、使用预训练的模型提取各个模态的特征;
步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;
步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;
步骤4、构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则进入步骤5;
步骤5、结合自动编码器和生成对抗网络联合训练整个网络;
步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。


2.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,步骤1中,所述模态为两种模态。


3.根据权利要求2所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,步骤2、3和4具体包括如下步骤:
a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络,其中自动编码器的解码器和生成对抗网络的生成器共享参数;
b、为两种模态所共享的类别标签嵌入构造一个自动编码器;
c、三个自动编码器为一组,每个编码器将对应模态的原始数据编码为潜在嵌入特征,然后每个解码器重构出相应的原始数据,通过最小化重构信息误差和跨分布对齐,联合构建跨模态的潜在嵌入空间;
d、两个耦合的自动编码器和生成对抗网络为一组,判别器通过对抗性损失评估各个模态的重构特征分布的真实性,间接引导潜在嵌入特征的学习;
e、线性加权自动编码器和生成对抗网络的损失函数以构成整体模型的总损失函...

【专利技术属性】
技术研发人员:徐行田加林沈复民邵杰申恒涛
申请(专利权)人:成都考拉悠然科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1