一种基于主题特征和隐式句子结构的事件抽取方法技术

技术编号：31800634 阅读：20 留言：0更新日期：2022-01-08 11:01

本发明专利技术公开了一种基于主题特征和隐式句子结构的事件抽取方法，主要用于把含有事件信息的非结构化文本以结构化的形式呈现出来，在自动文摘、自动问答、信息检索等领域有着广泛的应用。本发明专利技术首先通过结合BERT和LDA获得文档的主题特征为句子级的事件抽取模型引入文档级的主题信息；其次抽取出BERT词嵌入表示中隐含的句法信息，并将该抽取过程与事件抽取进行联合建模，在避免了错误累积问题的同时为事件抽取引入重要的句法信息；最后模型使用基于Bi

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题特征和隐式句子结构的事件抽取方法

[0001]本专利技术属于信息抽取领域，涉及一种基于主题特征和隐式句子结构的事件抽取方法。

技术介绍

[0002]随着互联网的发展和普及，每天都有数以百万计的数据源以新闻文章、博客、论文等形式发布，越来越多的经验知识存储于文档中，而由于传统的知识存储方式带来了检索效率低下的问题，如何管理并且利用这些数据逐渐成为自然语言处理领域的核心问题。随着调查和研究发现，结构化的存储方式可以有效地提高人们检索和收集经验知识的能力。为了让机器更好地理解人类语言，信息抽取任务所研究的自动组织和处理数据的技术变得不可或缺。信息抽取任务的基本目标是自动地从非结构化或者半结构化的机器可读文档以及其他电子表示的来源中提取信息并存储为结构化的形式，以实现对互联网上海量文本信息的组织、管理以及分析。
[0003]事件抽取是信息抽取的核心任务之一，它的主要目标是从非结构化文本中抽取出结构化的事件信息，对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题，近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题，而文档级的联合方法存在建模复杂的问题；另外，由于事件触发词和事件元素在句子中的关系紧密，事件抽取任务十分依赖句法特征，然而只有少数方法在事件抽取中引入句法信息，但是这些依赖预训练工具的句法分析仍会对事件抽取造成错误累积；并且在相关数据集和现实应用中，句...

【技术保护点】

【技术特征摘要】
1.一种基于主题特征和隐式句子结构的事件抽取方法，其特征在于，该方法包括以下步骤：1)数据处理及主题特征抽取：将原始数据集重构成JSON格式，对于读取的数据集中的每个样本发明档，进行主题特征抽取，然后利用NLTK包中的分句工具对样本发明档进行分句得到样本句子；2)隐式句子结构抽取：对于每个样本句子，首先利用语言模型Bert获得句子中的词嵌入作为句子上下文特征，然后对于这个词嵌入序列，利用一种屏蔽机制对句子中各成分之间的相互影响程度进行计算，作为隐式句子结构特征，用于后续的事件抽取联合方法；3)基于级联式CRF的事件触发词抽取模块，采用一种级联的序列标注方法将抽取任务分解成边界标注和类型判别两个任务，先标记事件触发词的边界，然后判断其对应的事件类型；4)利用Bi
‑
LSTM融入句法信息的事件元素抽取模块，在正向和反向的递归过程中引入影响矩阵中的数据，在当前词节点及其强相关的词节点之间建立对应的联系，使得句法信息能够在LSTM节点之间传播，最终使句法信息融入单词的向量表示中；5)联合训练，以交叉熵损失函数来分别计算事件触发词抽取模块和事件元素抽取模块的损失，并且对事件触发词和事件元素抽取进行联合训练以避免错误累积问题，为了两个子任务的损失项在同一时刻收敛，最终的损失由两个子任务的损失之和表示。2.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法，其特征在于，所述步骤1)中，按照如下方式抽取出主题特征：1
‑
1)利用面向长句编码的Sentence
‑
Transformer得到每个文档具有上下文语义信息的上下文表示；1
‑
2)然后利用主题模型LDA得到每个文档的主题分布信息；1
‑
3)利用上述两个向量训练一个自编码器用于将这两个向量进行融合，以自编码器的结果作为每个文档的主题特征。3.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法，其特征在于，所述步骤2)中根据以下特征构建训练数据集：2
‑
1)将输入序列中的任意一个单词x
i
替换成屏蔽字符[MASK]得到新的输入序列，将该序列输入到BERT中得到的结果h
i
，将h
i
作为x
i
的表示；2
‑
2)更为了得到句子中其他成分x
j
对x
i
的影响，进而将输入序列中的x
j
也特换成屏蔽字符[MASK]，再输入BERT中得到x
i
的新表示H
ij
；2
‑
3)利用欧式距离来计算H
ij
和h
i
在语义空间中的距离f(x
i
,x<...

【专利技术属性】
技术研发人员：黄婉华，漆桂林，高桓，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人