结合自动编码器和生成对抗网络的零样本跨模态检索方法技术

技术编号:26418793 阅读:30 留言:0更新日期:2020-11-20 14:14
本发明专利技术公开了一种结合自动编码器和生成对抗网络的零样本跨模态检索方法,属于计算机视觉中的跨模态检索领域。本发明专利技术包括:使用预训练的模型提取各个模态的特征;为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则结合自动编码器和生成对抗网络联合训练整个网络;在低维的潜在嵌入空间进行零样本跨模态检索。本发明专利技术能够实现零样本跨模态检索。

【技术实现步骤摘要】
结合自动编码器和生成对抗网络的零样本跨模态检索方法
本专利技术涉及计算机视觉中的跨模态检索领域,尤其涉及一种结合自动编码器和生成对抗网络的零样本跨模态检索方法。
技术介绍
随着互联网技术的飞速发展,多模态数据(例如图像,文本,视频和音频)出现了爆炸性增长。由于不同模态之间存在跨模态相关性,跨模态检索成为了研究热点。跨模态检索的基本任务是使用对任一模态的查询数据来检索其他模态的数据,例如,文本图像检索,图像草图检索和视频检索。然而,跨模态检索面临名叫“异构鸿沟”的主要问题,即查询模态和被查询模态的数据分布是不一致的,因此难以建立模态之间的关系,以及难以衡量模态数据之间的相似性。现在的主流解决办法是学习共享的潜在嵌入空间,通过学习各种线性或非线性变换,以将不同模态的数据投影到嵌入空间得到统一的嵌入表示。这消除了不同模态的不一致性,使得衡量不同模态的数据之间的相似性成为可能。跨模态检索方法可以被分类为浅层表示学习方法和基于深度学习的方法。浅层表示学习方法所学习的变换通常是线性的和基于统计分析的。这些方法以统计分析的方法建模各个模态数据本文档来自技高网...

【技术保护点】
1.结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,包括如下步骤:/n步骤1、使用预训练的模型提取各个模态的特征;/n步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;/n步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;/n步骤4、构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则进入步骤5;/n步骤5、结合自动编码器和生成对抗网络联合训练整个网络;/n步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。/n

【技术特征摘要】
1.结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,包括如下步骤:
步骤1、使用预训练的模型提取各个模态的特征;
步骤2、为每个模态的特征构造相应的编码器,并生成相应的低维的潜在嵌入表示,并且对潜在嵌入表示进行跨分布对齐;
步骤3、为每个编码器构造相应的解码器,从低维的潜在嵌入表示重构每个模态的原始特征;
步骤4、构造相应的判别器,评估与生成器生成的特征分布和真实特征分布是否一致,若一致,则进入步骤5;
步骤5、结合自动编码器和生成对抗网络联合训练整个网络;
步骤6、在低维的潜在嵌入空间进行零样本跨模态检索。


2.根据权利要求1所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,步骤1中,所述模态为两种模态。


3.根据权利要求2所述的结合自动编码器和生成对抗网络的零样本跨模态检索方法,其特征在于,步骤2、3和4具体包括如下步骤:
a、为两种模态的数据分别构造一个自动编码器和一个生成对抗网络,其中自动编码器的解码器和生成对抗网络的生成器共享参数;
b、为两种模态所共享的类别标签嵌入构造一个自动编码器;
c、三个自动编码器为一组,每个编码器将对应模态的原始数据编码为潜在嵌入特征,然后每个解码器重构出相应的原始数据,通过最小化重构信息误差和跨分布对齐,联合构建跨模态的潜在嵌入空间;
d、两个耦合的自动编码器和生成对抗网络为一组,判别器通过对抗性损失评估各个模态的重构特征分布的真实性,间接引导潜在嵌入特征的学习;
e、线性加权自动编码器和生成对抗网络的损失函数以构成整体模型的总损失函...

【专利技术属性】
技术研发人员:徐行田加林沈复民邵杰申恒涛
申请(专利权)人:成都考拉悠然科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1