【技术实现步骤摘要】
一种基于Transformer的细粒度跨模态图文检索的模型
[0001]本专利技术涉及跨模态图文检索领域,特别涉及一种基于Transformer的细粒度跨模态图文检索的模型。
技术介绍
[0002]互联网上存在着大量不同模态的数据,比如图像、文本、语音和视频等。当这些不同的模态描绘的是同一件事物时,人们称之为跨模态数据。随着互联网的普及发展,人类开始进入大数据时代,伴随着大规模不同模态的数据的产生与发展,各种各样的模态形式已经成为人类理解世界的主要形式。传统的单模态检索只能在一种模态下对比同种模态数据的相似性,并降序排序输出,无法满足人们多种多样跨模态检索的需求,跨模态可以使人们从多个角度高效获取并了解同一件事物的信息,因此逐渐成为热门的研究方向。本文的主要研究实现的是图像和文本之间的跨模态检索。
[0003]图像和文本有着不同的底层特征,图像的底层特征是颜色、纹理、形状等,而文字的底层特征是单词、短语和句子等。不难看出,图像和文本具有不同的表示和分布,图文两个模态的数据特征存在较大的异构鸿沟,无法直接比较两种模态间 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的细粒度跨模态图文检索的模型,其特征在于,所述具体步骤如下:使用Faster RCNN提取图像特征,使用BERT提取文本特征,使用一堆Transformer Encoder层构建的,既用于视觉数据管道,也用于文本数据管道,Transformer Encoder以实体的序列或集合作为输入,它可以对这些实体进行推理,而不考虑它们的内在性质,将图像中的显著区域视为视觉实体,将出现的单词视为文本实体,通过汇集区域词的相似度矩阵得到最终的图文的相似度得分。2.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。