基于变体注意力及层次结构的业务文书信息抽取方法技术

技术编号：35021467 阅读：14 留言：0更新日期：2022-09-24 22:50

本发明专利技术涉及一种基于变体注意力及层次结构的业务文书信息抽取方法，属于自然语言处理领域。本发明专利技术首先对文书首先进行分类处理，将数据处理为模型所需的监督训练数据，输入到基于变体注意力及层次结构网络模型中进行训练，利用层次网络结构分别对词级、句级、段落级文书信息进行特征提取；将所需抽取信息的文书及所需抽取文书内容的标签作为输入，喂入已训练好的层次变体注意力网络模型中进行信息抽取；统计，最后对抽取的信息进行统计分析。本发明专利技术实现业务文书信息精确抽取技术，最终通过该技术抽取出文书信息后再对文书信息进行统计分析，实现专项业务相关信息抽取。实现专项业务相关信息抽取。实现专项业务相关信息抽取。

全部详细技术资料下载

【技术实现步骤摘要】
基于变体注意力及层次结构的业务文书信息抽取方法

[0001]本专利技术属于自然语言处理领域，具体涉及一种基于变体注意力及层次结构的业务文书信息抽取方法。

技术介绍

[0002]如何从纷繁冗余的非结构化数据中抽取提炼出关键信息，是信息抽取的核心所在。且当前文书的信息抽取采用的为模板匹配的方式，需要首先制定相关模板，然后根据模板对文书内容进行匹配，这样做需要大量的人力来手动定制模板，效率较为低下。
[0003]本专利技术采用神经网络的方式进行文书的信息抽取。对于神经网络方式而言，目前的抽取技术主流分为：抽取式摘要，生成式摘要。信息抽取技术存在着：1. 冗余性
‑
提取的句子不够精炼，关键词性重复出现，无法判定其在上下文的重要性；2.不必要性，存在不足以表达核心内容的语句；3.生硬性，抽取出来的核心信息直接生硬拼接，虽然每个词都是核心重点词汇，但是组合到一起却毫无意义，没有可读性。为了解决该弊端，提出层级模式的语义信息特征抽取结构，通过词级关联，句级关联，以及段落关联，让神经网络进行计算，找到文书中每个token之间的关联权重；并且引入Attention的变体AdaptiveAttention结构，在保持计算资源不增加的前提下，扩大token的上下文关联距离，从而实现精确的业务文书信息抽取。本专利技术所涉及的已知
技术实现思路
包括如下所示：
[0004]a)层级结构：首先在词层级提取每个token的特征，然后组合在一起，构成句层级特征，将句层级特征再组合成为段落级特征，这样构建出来的层次结构通过神...

【技术保护点】

【技术特征摘要】
1.一种基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，该方法包括如下步骤：步骤一：训练，首先对大批量文书进行分类处理，将分类好的文书处理为监督训练格式，将处理好的数据输入到层级式变体注意力神经网络模型中进行训练，分别对词级、句级、段落级的文本进行特征提取；步骤二：预测，将需要提取的文书作为输入数据喂入训练完成的层级式变体注意力神经网络模型中，同时将需要抽取的信息标签作为输入，让训练好的模型进行信息抽取，在文书中找到最相关的词、句或段落；步骤三：统计，对抽取出来的信息进行统计分析。2.如权利要求1所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述步骤一中的对大批量文书进行分类处理，将分类好的文书处理为监督训练格式具体包括：接收文书训练数据，该数据为大量文书数据，首先将接收到的数据进行分类处理，通过文书名，将输入的大批量文本数据分类；随后将待提取关键词的文书进行预处理，得到待提取关键词的文本对应的候选词，将待提取关键词的文书和各候选词分别输入到神经网络中以供训练。3.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述步骤一中的层级式变体注意力神经网络模型包括词级模块、句级模块、段落级模块以及softmax层模块。4.如权利要求2所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述词级模块包括：Embedding：文本数据通过Embedding层，将中文字符转化成词向量Vector；WordEncoder：编码层接收到Embedding层传来的词向量，通过双向的LSTM对词向量进行编码，获取到每个词的的双向语义特征作为特征向量；WordAdaptiveAttention：将特征向量输入变体注意力模型，通过变体注意力机制，对一个词的上下文关系进行连接，并且通过AdaptiveAttention能够增加关联词之间的距离，计算出每个词的词间关系权重。5.如权利要求4所述的基于变体注意力及层次结构的业务文书信息抽取方法，其特征在于，所述句级模块包括：SentenceEncoder：通过词级Embedding、WordEncoder和WordAdaptiveAttention获取到了每个词的特征向量，将每句话中每个词的特征向量进行矩阵相加的方式进行连接，从而将每句话中词级的特征构建成为句级特征S1、S2、
…
、Sn，n是文档中的句子数目；并且同样通过双向LSTM网络的模型进行编码来获取每个句子的语义信息，即通过词向量拼接得到句级别特...

【专利技术属性】
技术研发人员：陈炫言，白雄文，王红艳，周益周，郭旭东，
申请(专利权)人：北京计算机技术及应用研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人