System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于跨文档语义增强的实体识别方法技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于跨文档语义增强的实体识别方法技术

技术编号:41075310 阅读:4 留言:0更新日期:2024-04-24 11:33
本发明专利技术提供一种基于跨文档语义增强的实体识别方法,首先将文档的布局信息输入掩码生成层,基于可学习的注意力掩码机制获取对应的注意力掩码;其次将原始文本、图像和布局信息输入到特征提取网络,综合注意力掩码,得到每个词的词特征表示;然后将每个词的词特征表示存储至倒排索引中,在倒排索引中查询当前词的相关项,与当前词的词特征表示进行融合,得到该当前词的最终词特征表示;最后通过将每个词的最终词特征表示输入至分类器,输出在各个实体类别上的概率分布,从而判断词的实体类别。本发明专利技术的文档实体识别方法能够有效过滤当前文档中无关冗余信息,增强对视觉文档的理解能力,有助于模型进行实体识别,从而提高模型性能。

【技术实现步骤摘要】

本专利技术属于信息处理,具体涉及一种基于跨文档语义增强的实体识别方法


技术介绍

1、视觉文档是现实世界中非常常见的信息载体,比如新闻、简历、票据等。不同于普通的文本数据,视觉文档中的信息需通过不同模态进行建模,比如文本、视觉、布局等。在视觉文档中进行实体识别是理解文档的重要步骤,能够实现对诸如商业分析、智能教育等多种下游任务的有效支持。

2、视觉文档前期的探索从计算机视觉或自然语言处理的单一角度进行研究,从而忽略了视觉文档的多模态特性,导致视觉文档的信息抽取结果较差。为了解决这一问题,有工作引入图神经网络和自注意力机制从而捕获跨模态的交互,来达到更优的结果。近年来受大型预训练模型的启发,有工作利用自监督的预训练技术来从无标注数据中学习跨模态的知识。然而,以上方法存在两个缺陷。首先从文档内部角度出发,现有方法忽略了文档由多个语义相对独立的区域组成的事实,无差别地对各个词进行建模,导致容易分散局部关键信息的注意力,而且容易过拟合虚假特征。其次从文档间角度出发,现有方法观察到的信息仅限于单个文档,可能不足以识别实体。


技术实现思路

1、为解决上述问题,提供一种有效提升视觉文档理解能力的方法,本专利技术采用了如下技术方案:

2、本专利技术提供了一种基于跨文档语义增强的实体识别方法,其特征在于,包括以下步骤:步骤s1,将文档的布局信息输入掩码生成层,基于可学习的注意力掩码机制获取对应的注意力掩码;步骤s2,将文档的原始文本、图像和布局信息输入到特征提取网络中,综合注意力掩码,得到文档中每个词对应的词特征表示;步骤s3,建立倒排索引数据结构,将每个词的词特征表示存储至倒排索引中;步骤s4,在倒排索引中查询当前词的相关项,与当前词的词特征表示进行融合,得到该当前词的最终词特征表示;步骤s5,将每个词的最终词特征表示输入至分类器,由分类器输出在各个实体类别上的概率分布,从而判断词的实体类别。

3、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,在步骤s1中,掩码生成层通过建模二项分布融合gumbel softmax技术,从而获取输入的文档布局信息的注意力掩码序列,再将每个词对应的掩码序列拼接,得到文档的注意力掩码,注意力掩码序列的生成由文档中词之间的相对距离确定,相对距离越大,掩码为0的概率越大,相对距离越小,掩码为1的概率越大。

4、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,特征提取网络采用预训练模型layoutxlm,layoutxlm是一个处理多语言文档理解任务的多模态预训练模型,模型接收三种不同模态的输入,包括文本、布局和图像信息,三种不同模态的信息分别编码为文本编码、布局编码和视觉编码,文本编码和视觉编码拼接后与布局编码相加,得到模型的输入,经过若干层多模态的transformer进行编码,transformer每一层都是由多头自注意力机制和前馈神经网络组成,transformer最后一层输出的上下文相关表示可用于下游任务的分析。

5、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,词特征表示的获取过程如下:设定文档其中wi为文本信息,bi为布局信息,vi为图像信息,通过预训练模型layoutxlm融入注意力掩码后的计算过程如下:

6、

7、

8、hl+1=att(ql,kl)vl

9、其中,分别对应自注意力机制中的查询项、键项和值项,其上标表示预训练模型的层数,最终得到每个词对应的特征表示h=enc(d,m),其中enc()表示预训练模型layoutxlm。

10、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,在步骤s3中,每个词wi对应一个倒排索引的向量队列在存储时,将每个词的词特征表示插入至对应向量队列的尾部,该向量队列存储着词wi在个不同的文档中的上下文表示。

11、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,步骤s4的具体过程如下:首先在倒排索引中查询当前词wi对应向量队列的上下文表示其中然后将词wi在当前文档中的上下文表示hi与进行拼接得到并输入到跨文档注意力模块中,将hc通过线性变换分别得到键项和值项对于查询项,只对hi进行变换,得到最后按照如下公式进行跨文档注意力机制的计算,得到当前词的最终词特征表示

12、h=att(qc,kc)vc

13、

14、本专利技术提供的基于跨文档语义增强的实体识别方法,还可以具有这样的技术特征,其中,分类器采用softmax线性分类器,其输出的概率分布表示如下:

15、p=softmax(w*h+b)

16、其中,w是分类器的权重矩阵,w∈rd×c,b是分类器的偏置参数,b∈rc,p是输出的概率向量,p∈rc,每个维度对应着不同实体类别的概率,从而判断词所属的实体类别。

17、专利技术作用与效果

18、根据本专利技术的一种基于跨文档语义增强的实体识别方法,首先将文档的布局信息输入掩码生成层,基于可学习的注意力掩码机制获取注意力掩码;其次将原始文本、图像和布局信息输入到特征提取网络中,综合注意力掩码,得到词的词特征表示;然后将词特征表示存储至倒排索引中,在倒排索引中查询当前词的相关项,与当前词的特征表示进行融合;最后将融合得到的特征表示输入分类器,判断词的实体类别。由于设计了可学习的注意力掩码机制获取视觉文档布局信息的注意力掩码,因此有效过滤了当前文档中无关冗余信息,增强了对视觉文档的理解能力,避免了模型过拟合虚假特征,提高模型性能。还由于设计了跨文档注意力机制,因此丰富了实体相关的上下文信息,有助于模型进行实体的识别。

本文档来自技高网...

【技术保护点】

1.一种基于跨文档语义增强的实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

3.根据权利要求1所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

4.根据权利要求3所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

5.根据权利要求4所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

6.根据权利要求5所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

7.根据权利要求1所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

【技术特征摘要】

1.一种基于跨文档语义增强的实体识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

3.根据权利要求1所述的一种基于跨文档语义增强的实体识别方法,其特征在于:

4.根据权利要求3所述的一种基于跨文档语...

【专利技术属性】
技术研发人员:桂韬张奇黄萱菁乔梁程战战
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1