一种基于Transformer的细粒度跨模态图文检索的模型制造技术

技术编号:36193014 阅读:60 留言:0更新日期:2022-12-31 21:13
本发明专利技术公开了一种基于Transformer的细粒度跨模态图文检索的模型,包括具体步骤如下,使用FasterRCNN提取图像特征,使用BERT提取文本特征,使用一堆TransformerEncoder层构建的,既用于视觉数据管道,也用于文本数据管道,TransformerEncoder以实体的序列或集合作为输入,它可以对这些实体进行推理,而不考虑它们的内在性质。本发明专利技术通过为了在将视觉和文本数据通道很好地分开,在图像和句子的底层成分,即图像区域和单词之间进行细粒度匹配,仅在最终比对阶段合并来自两个域的信息,保证了这两个通道的信息丰富性,有能够分别推理图像和文本中元素之间的细粒度关系的图文检索模型,可以进一步降低网络复杂度,这对整个体系结构的稳定性和泛化能力同样具有重要的意义。结构的稳定性和泛化能力同样具有重要的意义。结构的稳定性和泛化能力同样具有重要的意义。

【技术实现步骤摘要】
一种基于Transformer的细粒度跨模态图文检索的模型


[0001]本专利技术涉及跨模态图文检索领域,特别涉及一种基于Transformer的细粒度跨模态图文检索的模型。

技术介绍

[0002]互联网上存在着大量不同模态的数据,比如图像、文本、语音和视频等。当这些不同的模态描绘的是同一件事物时,人们称之为跨模态数据。随着互联网的普及发展,人类开始进入大数据时代,伴随着大规模不同模态的数据的产生与发展,各种各样的模态形式已经成为人类理解世界的主要形式。传统的单模态检索只能在一种模态下对比同种模态数据的相似性,并降序排序输出,无法满足人们多种多样跨模态检索的需求,跨模态可以使人们从多个角度高效获取并了解同一件事物的信息,因此逐渐成为热门的研究方向。本文的主要研究实现的是图像和文本之间的跨模态检索。
[0003]图像和文本有着不同的底层特征,图像的底层特征是颜色、纹理、形状等,而文字的底层特征是单词、短语和句子等。不难看出,图像和文本具有不同的表示和分布,图文两个模态的数据特征存在较大的异构鸿沟,无法直接比较两种模态间的相似性。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer的细粒度跨模态图文检索的模型,其特征在于,所述具体步骤如下:使用Faster RCNN提取图像特征,使用BERT提取文本特征,使用一堆Transformer Encoder层构建的,既用于视觉数据管道,也用于文本数据管道,Transformer Encoder以实体的序列或集合作为输入,它可以对这些实体进行推理,而不考虑它们的内在性质,将图像中的显著区域视为视觉实体,将出现的单词视为文本实体,通过汇集区域词的相似度矩阵得到最终的图文的相似度得分。2.根据权利要...

【专利技术属性】
技术研发人员:朱媛媛王佳婧
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1