当前位置: 首页 > 专利查询>清华大学专利>正文

基于跨模态互注意力机制的多模态文档检索方法及装置制造方法及图纸

技术编号:38157445 阅读:18 留言:0更新日期:2023-07-13 09:26
本申请涉及文档检索技术领域,特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置,其中,方法包括:建模文档的多模态表示,基于多模态互注意力机制得到目标文档感知的多模态文档表示,融合文档的自注意力向量化表示和多模态增强向量化表示,得到文档的多模态增强统一表示,计算目标文档和至少一个候选文档相关性分数并进行排序,检索到相关的文档。本申请实施例可以基于跨模态互注意力机制,通过获取文档多模态增强的统一表示,计算相关性分数以检索获得匹配文档,从而实现了文档多模态信息的充分利用,增强了文档各模态间的相关性,进而提升了文档检索结果的匹配度,使检索结果更加准确可靠。使检索结果更加准确可靠。使检索结果更加准确可靠。

【技术实现步骤摘要】
基于跨模态互注意力机制的多模态文档检索方法及装置


[0001]本申请涉及文档检索
,特别涉及一种基于跨模态互注意力机制的多模态文档检索方法及装置。

技术介绍

[0002]文档检索是自然语言处理领域的重要研究内容,指从众多文档中检索出和给定文档或搜索最相关的文档,是众多下游任务的研究基础。
[0003]随着互联网技术的不断发展,文档中所包含的信息逐渐增加,文档中包括文本、图像在内的多种信息,可分别对各模态进行单独建模,以实现多模态文档的检索。
[0004]然而,相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低了文档检索的准确性与针对性,亟待解决。

技术实现思路

[0005]本申请提供一种基于跨模态互注意力机制的多模态文档检索方法及装置,以解决相关技术中,各模态建模时忽略了不同模态之间的相关性,未考虑文档内与不同文档间的多模态内容交互,无法实现文档内多模态信息的有效利用,使文档的检索效果受到影响,降低本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态互注意力机制的多模态文档检索方法,其特征在于,包括以下步骤:建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列;基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文本的多模态向量化表示和图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示;基于互注意力机制,建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示;建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强向量化表示,得到所述文档的多模态增强统一表示;基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档。2.根据权利要求1所述的方法,其特征在于,在建模所述文档的多模态表示之前,还包括:对所述文档的文本数据进行预处理,过滤不满足预设条件的文本,并将过滤之后的文本转换为文字序列,得到用于建模的文本数据;对于所述文档的图片数据进行预处理,将图片转换为像素序列,对于图片的均值和方差进行归一化,得到用于建模的图片数据。3.根据权利要求1所述的方法,其特征在于,所述建模文档的多模态表示,分别得到所述文档的文本模态的第一向量化表示序列和图片模态的第二向量化表示序列,包括:基于词向量嵌入矩阵,编码所述文档中文本的词向量表示,得到所述文档的第一向量化表示序列;基于预训练的Mask

RCNN网络,对于所述文档的图片生成图片候选框;基于ResNet

50网络抽取所述图片候选框的特征,得到所述文档的第二向量化表示序列。4.根据权利要求1所述的方法,其特征在于,所述基于所述第一向量化表示序列和第二向量化表示序列,对所述文本模态和所述图片模态进行联合建模,分别得到文档文本的多模态向量化表示和文档图片的多模态向量化表示,以基于多模态互注意力机制建模文档不同模态之间的交互,建模文档的多模态增强向量化表示,包括:基于VilBERT对所述文本模态和所述图片模态进行联合建模,得到所述文本的多模态向量化表示和所述图片的多模态向量化表示;基于所述多模态互注意力机制建模文档不同模态之间的交互,并基于相关性矩阵建模文档内不同模态之间的相互关系,以获取所述文档内不同模态之间的交互,建模所述文档的多模态增强向量化表示。5.根据权利要求1所述的方法,其特征在于,所述基于互注意力机制建模所述文档和目标文档相同和不同模态之间的相关性,得到所述目标文档感知的多模态文档表示,包括:基于所述互注意力机制,对于所述文档和所述目标文档的同模态内容进行交互,建模所述文档和所述目标文档相同模态之间的相关性,得到目标文档感知的跨文档同模态文档增强表示;
基于文档间跨模态互注意力机制,对于所述文档和所述目标文档的不同模态内容进行交互,建模多文档多模态之间的相关性,得到所述目标文档感知的多模态文档表示。6.根据权利要求1所述的方法,其特征在于,所述建模文档模态内的自相关性,融合文档的自注意力向量化表示和所述多模态增强的向量化表示,得到文档的多模态增强统一表示基于多头自注意力机制,建模文档模态内的自相关性,得到所述文档的自注意力向量化表示;融合所述文档的自注意力向量化表示和文档的多种多模态增强的向量化表示,得到文档模态的多模态增强统一表示;基于文档的不同模态的多模态增强统一表示,融合得到所述多模态增强统一表示。7.根据权利要求1所述的方法,其特征在于,所述基于所述多模态增强统一表示,计算所述目标文档和至少一个候选文档相关性分数,并基于所述相关性分数对至少一个候选文档进行排序,检索到相关的文档,包括:基于所述多模态增强统一表示,计算所述目标文档和所述至少一个候选文档相关性分数;基于每个候选文档的相关性分数,对所述至少一个候选文档进行排序,确定所述相关的文档。8.一种基于跨模态互注意力机制的多模态文档检索装置,其特征在于,包...

【专利技术属性】
技术研发人员:黄永峰黄颖卓陈泽平何亮
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1