基于变体注意力及层次结构的业务文书信息抽取方法技术

技术编号:35021467 阅读:14 留言:0更新日期:2022-09-24 22:50
本发明专利技术涉及一种基于变体注意力及层次结构的业务文书信息抽取方法,属于自然语言处理领域。本发明专利技术首先对文书首先进行分类处理,将数据处理为模型所需的监督训练数据,输入到基于变体注意力及层次结构网络模型中进行训练,利用层次网络结构分别对词级、句级、段落级文书信息进行特征提取;将所需抽取信息的文书及所需抽取文书内容的标签作为输入,喂入已训练好的层次变体注意力网络模型中进行信息抽取;统计,最后对抽取的信息进行统计分析。本发明专利技术实现业务文书信息精确抽取技术,最终通过该技术抽取出文书信息后再对文书信息进行统计分析,实现专项业务相关信息抽取。实现专项业务相关信息抽取。实现专项业务相关信息抽取。

【技术实现步骤摘要】
基于变体注意力及层次结构的业务文书信息抽取方法


[0001]本专利技术属于自然语言处理领域,具体涉及一种基于变体注意力及层次结构的业务文书信息抽取方法。

技术介绍

[0002]如何从纷繁冗余的非结构化数据中抽取提炼出关键信息,是信息抽取的核心所在。且当前文书的信息抽取采用的为模板匹配的方式,需要首先制定相关模板,然后根据模板对文书内容进行匹配,这样做需要大量的人力来手动定制模板,效率较为低下。
[0003]本专利技术采用神经网络的方式进行文书的信息抽取。对于神经网络方式而言,目前的抽取技术主流分为:抽取式摘要,生成式摘要。信息抽取技术存在着:1. 冗余性

提取的句子不够精炼,关键词性重复出现,无法判定其在上下文的重要性;2.不必要性,存在不足以表达核心内容的语句;3.生硬性,抽取出来的核心信息直接生硬拼接,虽然每个词都是核心重点词汇,但是组合到一起却毫无意义,没有可读性。为了解决该弊端,提出层级模式的语义信息特征抽取结构,通过词级关联,句级关联,以及段落关联,让神经网络进行计算,找到文书中每个token之间的关联权重;并且引入Attention的变体AdaptiveAttention结构,在保持计算资源不增加的前提下,扩大token的上下文关联距离,从而实现精确的业务文书信息抽取。本专利技术所涉及的已知
技术实现思路
包括如下所示:
[0004]a)层级结构:首先在词层级提取每个token的特征,然后组合在一起,构成句层级特征,将句层级特征再组合成为段落级特征,这样构建出来的层次结构通过神经网络分别计算每个token,sentence,segment之间的关联权重,从而使得能够更加精准地抽取出文书中的相关信息。
[0005]b)Attention(注意力机制):传统的神经网络框架为Encoder

语义编码
ꢀ‑
Decoder,如图1所示,将文本信息通过Encoder映射到高维空间,提取特征,将提取到的特征保存于语义信息,然后再通过Decoder解码得到对应的信息,对于较短的文本可以使用,但缺陷在于,中间的语义编码向量长度是固定的,一旦语句过长,那么就会造成一部分的信息丢失,从而无法关注全文的语义信息。Attention机制的原理在于存在多个语义信息,如图2所示,每进行一次Encoder,就讲信息保存于语义信息中,给与每一次的编码信息分配不同的权重,从而使得可以处理更长文本的语句,tokens之间的关联距离更长。
[0006]c)Multi

HeadAttention(多头注意力机制):Multi

HeadAttention的核心思想在于使用多个Attention,每个Attention的权重系数不同,所以对于同一语句的关注点也不同,将多个Attention关联起来,就能实现关注范围更广的功能。
[0007]d)AdaptiveAttention(自适应注意力机制):AdaptiveAttention的目的是为了获取更远距离的关联权重,对于Attention而言,确实提升了关联距离,但是这个距离一般也就在2000tokens,更远的距离就无法获取了。AdaptiveAttention通过Transformer中multi

Head(多头机制)的思想观察到,每一个注意力机制起始并不是关注点都一样,例如HeadA关注点在于最近的几十个tokens,再往前的权重就很低;而HeadB则关注到全部的
tokens,所以AdaptiveAttention借助Mask函数,如公式(1)所示,在计算Attention权重时,使用文本和当前位置的距离作为输入,并利用可学习参数Z,对每个Attention分配权重,如公式(2)所示,从而实现关注到每个Attention所关注到的,即权重更大的,这样就可以避免关注权重小的值,而分配计算资源,从而实现计算资源不变,扩增上下文关联度距离。
[0008][0009]Mask函数:将context同token距离映射到[0,1][0010]Z:需要学习的参数,对于每个head而言,Z都是不同的 R:超参数,可手动设置,用于平滑
[0011]X:文本context同当前token的距离
[0012][0013]Attention函数:计算Attention权重时,使用context和当前位置的距离作为 Mask函数的输入,在计算过程中,z是需要学习的参数,对于每个head,z都是不同的。
[0014]t:当前token位置
[0015]t

r:相对位置
[0016]S:注意力广度
[0017]q=t

S:不同注意力广度下,距离当前token的位置。

技术实现思路

[0018](一)要解决的技术问题
[0019]本专利技术要解决的技术问题是如何提供一种基于变体注意力及层次结构的业务文书信息抽取方法,以解决当前文书的信息抽取采用的为模板匹配的方式,需要首先制定相关模板,然后根据模板对文书内容进行匹配,这样做需要大量的人力来手动定制模板,效率较为低下的问题。
[0020](二)技术方案
[0021]为了解决上述技术问题,本专利技术提出一种基于变体注意力及层次结构的业务文书信息抽取方法,该方法包括如下步骤:
[0022]步骤一:训练,首先对大批量文书进行分类处理,将分类好的文书处理为监督训练格式,将处理好的数据输入到层级式变体注意力神经网络模型中进行训练,分别对词级、句级、段落级的文本进行特征提取;
[0023]步骤二:预测,将需要提取的文书作为输入数据喂入训练完成的层级式变体注意力神经网络模型中,同时将需要抽取的信息标签作为输入,让训练好的模型进行信息抽取,在文书中找到最相关的词、句或段落;
[0024]步骤三:统计,对抽取出来的信息进行统计分析。
[0025]进一步地,所述步骤一中的对大批量文书进行分类处理,将分类好的文书处理为监督训练格式具体包括:接收文书训练数据,该数据为大量文书数据,首先将接收到的数据
进行分类处理,通过文书名,将输入的大批量文本数据分类;随后将待提取关键词的文书进行预处理,得到待提取关键词的文本对应的候选词,将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。
[0026]进一步地,所述步骤一中的层级式变体注意力神经网络模型包括词级模块、句级模块、段落级模块以及softmax层模块。
[0027]进一步地,所述词级模块包括:
[0028]Embedding:文本数据通过Embedding层,将中文字符转化成词向量Vector;
[0029]WordEncoder:编码层接收到Embedding层传来的词向量,通过双向的LSTM对词向量进行编码,获取到每个词的的双向语义特征作为特征向量;
[0030]WordAdaptiveAttention:将特征向量输入变本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于变体注意力及层次结构的业务文书信息抽取方法,其特征在于,该方法包括如下步骤:步骤一:训练,首先对大批量文书进行分类处理,将分类好的文书处理为监督训练格式,将处理好的数据输入到层级式变体注意力神经网络模型中进行训练,分别对词级、句级、段落级的文本进行特征提取;步骤二:预测,将需要提取的文书作为输入数据喂入训练完成的层级式变体注意力神经网络模型中,同时将需要抽取的信息标签作为输入,让训练好的模型进行信息抽取,在文书中找到最相关的词、句或段落;步骤三:统计,对抽取出来的信息进行统计分析。2.如权利要求1所述的基于变体注意力及层次结构的业务文书信息抽取方法,其特征在于,所述步骤一中的对大批量文书进行分类处理,将分类好的文书处理为监督训练格式具体包括:接收文书训练数据,该数据为大量文书数据,首先将接收到的数据进行分类处理,通过文书名,将输入的大批量文本数据分类;随后将待提取关键词的文书进行预处理,得到待提取关键词的文本对应的候选词,将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。3.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法,其特征在于,所述步骤一中的层级式变体注意力神经网络模型包括词级模块、句级模块、段落级模块以及softmax层模块。4.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法,其特征在于,所述词级模块包括:Embedding:文本数据通过Embedding层,将中文字符转化成词向量Vector;WordEncoder:编码层接收到Embedding层传来的词向量,通过双向的LSTM对词向量进行编码,获取到每个词的的双向语义特征作为特征向量;WordAdaptiveAttention:将特征向量输入变体注意力模型,通过变体注意力机制,对一个词的上下文关系进行连接,并且通过AdaptiveAttention能够增加关联词之间的距离,计算出每个词的词间关系权重。5.如权利要求4所述的基于变体注意力及层次结构的业务文书信息抽取方法,其特征在于,所述句级模块包括:SentenceEncoder:通过词级Embedding、WordEncoder和WordAdaptiveAttention获取到了每个词的特征向量,将每句话中每个词的特征向量进行矩阵相加的方式进行连接,从而将每句话中词级的特征构建成为句级特征S1、S2、

、Sn,n是文档中的句子数目;并且同样通过双向LSTM网络的模型进行编码来获取每个句子的语义信息,即通过词向量拼接得到句级别特...

【专利技术属性】
技术研发人员:陈炫言白雄文王红艳周益周郭旭东
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1