System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本引导的多模态关系抽取方法及装置制造方法及图纸_技高网

一种文本引导的多模态关系抽取方法及装置制造方法及图纸

技术编号:41268507 阅读:5 留言:0更新日期:2024-05-11 09:23
本发明专利技术公开了一种文本引导的多模态关系抽取方法及装置,所述方法包括:针对给定的图像,获得全局图像中的多个局部对象图像;获得给定文本的文本特征编码表示和该图像及局部对象图像的视觉特征编码表示;将文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示;通过交叉注意力机制将文本特征编码表示和该与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示;基于跨模态文本特征编码表示进行关系分类,得到给定文本中两个实体之间的语义关系类型。本发明专利技术可以降低不相关视觉信息的干扰,提高关系抽取的准确率。

【技术实现步骤摘要】

本公开涉及关系抽取,尤其涉及一种文本引导的多模态关系抽取方法及装置


技术介绍

1、关系抽取是指从非结构化的自然语言文本中抽取指定类型的实体、关系等事实信息,并形成结构化数据输出的文本处理技术。而多模态关系抽取是旨在从多种模态的数据中识别和抽取实体之间的关系,从而更全面地理解数据中的语义信息。

2、为了更有效地利用图片信息提高多模态关系抽取准确率,文献chen,xiang,ningyu zhang,ningyu zhang,lei li,yunzhi yao,shumin deng,chuanqi tan,feihuang,luo si and huajun chen.“good visual guidance makes a better extractor:hierarchical visual prefix for multimodal entity and relation extraction.”arxiv abs/2205.03521(2022)在bert模型中将视觉前缀添加到每一层的注意力计算中以融合视觉信息。该文献中提出了视觉前缀引导的融合机制,涉及串联对象级视觉表征作为bert中每个自我注意层的前缀,同时进一步为每一层设计了一个动态门,以生成与图像相关的路径,从而可以将各种聚合的层次化多尺度视觉特征作为增强ner和re的视觉前缀。从而提高多模态关系抽取的准确率。

3、然而上述方法假定所有输入信息对任务目标都是有用的,事实上,如文献bowenyu,mengge xue,zhenyu zhang,tingwen liu,yubin wang,and bin wang.2020.learningto prune dependency trees with rethinking for neural relation extraction.inproceedings of the coling,pages3842–3852.(2020)的实验表明,通常只有部分文本是有助于关系推理的。同时对于视觉输入而言,情况更为严重,因为并非所有的视觉信息都起到了积极的作用,尤其是在社交媒体数据方面。如文献alakananda vempala and danielpreo,tiuc-pietro.2019.categorizing and inferring the relationship between thetext and image of twitter posts.in proceedings of the acl,pages 2830–2840.(2019)的实验分析所述:超过33%的视觉信息在多模态关系抽取中没有起到上下文补充作用,甚至会引入大量噪音,降低关系抽取的性能。对于图像模态,噪声可以分为两个层次:1)在全局层次上,图像中的大多数区域对于目标实体的识别没有信息;2)在局部层次上,相应的明显区域也表达了比我们需要的更复杂的视觉语义。在这种情况下,冗余信息会干扰模型对图像中区域的注意力权重分配,从而阻碍最终任务的预测。因此需要对输入的图像对象特征进行有选择的进行筛选。

4、综上所述,多模态关系抽取研究中存在着模态噪音以及模态交互不足等问题,不能有效地利用多种模态信息,导致关系抽取性能不足。


技术实现思路

1、为了解决上述问题,在本专利技术提出了一种文本引导的多模态关系抽取方法及装置,简单来说就是在图片编码的过程中引入文本信息,使用该文本信息对图片编码器的输出进行调控,使得图片编码器的输出与文本信息相关,从而达到降低不相关视觉信息的干扰,提高关系抽取的准确率。同时为了更加多层次细粒度的实现视觉特征和文本特征的对齐融合,设计了基于交叉注意力的融合架构。

2、为达到上述目的,本专利技术的技术方案包括以下内容。

3、一种文本引导的多模态关系抽取方法,包括以下步骤:

4、针对给定的图像,获得全局图像中的多个局部对象图像;

5、获得给定文本的文本特征编码表示和所述图像及局部对象图像的视觉特征编码表示;

6、将所述文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示;

7、通过交叉注意力机制将所述文本特征编码表示和所述与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示;

8、基于所述跨模态文本特征编码表示进行关系分类,得到所述给定文本中两个实体之间的语义关系类型。

9、进一步地,所述针对给定的图像,获得全局图像中的多个局部对象图像,包括:

10、基于原始图片使用工具提取原始图像中的视觉对象,并对检测到的物体的概率设置一个置信阈值;

11、基于置信阈值,得到全局图像中的多个局部对象图像。

12、进一步地,所述获得给定文本的文本特征编码表示和所述图像及局部对象图像的视觉特征编码表示,包括:

13、用预训练的bert embedding获得给定文本的初始文本编码表征;

14、将所述初始文本编码表征输入到预训练的文本编码器中,获得文本特征编码表示;其中,所述文本编码器由若干层的bert layer组成;

15、采用预训练的clip embedding获得所述图像和所述多个局部对象图像的初始视觉编码表征;

16、将所述初始视觉编码表征输入到预训练的视觉编码器中,获得视觉编码表示;其中,所述视觉编码器由若干层的clip layer组成。

17、进一步地,将所述文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示,包括:

18、根据目标图像的初始视觉编码表征与所述文本特征编码表示的相似性进行重新加权,得到重新加权后的视觉特征;其中,所述目标图像包括:所述图像和每一局部对象图像;

19、将所述重新加权后的视觉特征送入视觉编码器的解码器中,生成自上而下的信号xtd后,将该信号xtd作为自上而下的输入反馈到视觉编码器的每一层自注意力模块,以更新该自注意力模块的value矩阵;

20、结合更新后的value矩阵进行目标图像的二次前向传播,得到包含所述图像和所述图像中的局部对象图像的视觉特征编码表示。

21、进一步地,视觉编码器训练损失其中,l为视觉编码器的编码层数,sg表示停止梯度,zl表示第l层编码后的输出,gl是指第l层的解码器,zl表示视觉编码器输出的图像特征表示,ξ表示文本特征表示,表示负样本。

22、进一步地,通过交叉注意力机制将所述文本特征编码表示和所述与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示,包括:

23、将第l层的文本特征编码表示和视觉特征编码表示分别投影到交叉注意力query向量、key向量和va本文档来自技高网...

【技术保护点】

1.一种文本引导的多模态关系抽取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述针对给定的图像,获得全局图像中的多个局部对象图像,包括:

3.如权利要求1所述的方法,其特征在于,所述获得给定文本的文本特征编码表示和所述图像及局部对象图像的视觉特征编码表示,包括:

4.如权利要求1所述的方法,其特征在于,将所述文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示,包括:

5.如权利要求4所述的方法,其特征在于,视觉编码器训练损失其中,L为视觉编码器的编码层数,sg表示停止梯度,zl表示第l层编码后的输出,gl是指第l层的解码器,zL表示视觉编码器输出的图像特征表示,ξ表示文本特征表示,表示负样本。

6.如权利要求1所述的方法,其特征在于,通过交叉注意力机制将所述文本特征编码表示和所述与文本语义更相关的视觉特征编码表示融合,获得跨模态文本特征编码表示,包括:

7.如权利要求1所述的方法,其特征在于,基于所述跨模态文本特征编码表示进行关系分类,得到所述给定文本中两个实体之间的语义关系类型,包括:

8.一种文本引导的多模态关系抽取装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-7任一项所述的文本引导的多模态关系抽取方法。

10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令在被执行时实现权利要求1至7中任一项所述的文本引导的多模态关系抽取方法。

...

【技术特征摘要】

1.一种文本引导的多模态关系抽取方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,所述针对给定的图像,获得全局图像中的多个局部对象图像,包括:

3.如权利要求1所述的方法,其特征在于,所述获得给定文本的文本特征编码表示和所述图像及局部对象图像的视觉特征编码表示,包括:

4.如权利要求1所述的方法,其特征在于,将所述文本特征编码表示作为视觉编码器的先验输入,基于自上而下的注意力机制,以后向解码反馈的方式,进一步引导视觉编码器学习与文本语义更相关的视觉特征编码表示,包括:

5.如权利要求4所述的方法,其特征在于,视觉编码器训练损失其中,l为视觉编码器的编码层数,sg表示停止梯度,zl表示第l层编码后的输出,gl是指第l层的解码器,zl表示视觉编码器输出的图像特征表示,ξ表示文本特征表示,表示负样本。...

【专利技术属性】
技术研发人员:徐永秀李世鑫许洪波
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1