当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于主题特征和隐式句子结构的事件抽取方法技术

技术编号:31800634 阅读:20 留言:0更新日期:2022-01-08 11:01
本发明专利技术公开了一种基于主题特征和隐式句子结构的事件抽取方法,主要用于把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。本发明专利技术首先通过结合BERT和LDA获得文档的主题特征为句子级的事件抽取模型引入文档级的主题信息;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,在避免了错误累积问题的同时为事件抽取引入重要的句法信息;最后模型使用基于Bi

【技术实现步骤摘要】
一种基于主题特征和隐式句子结构的事件抽取方法


[0001]本专利技术属于信息抽取领域,涉及一种基于主题特征和隐式句子结构的事件抽取方法。

技术介绍

[0002]随着互联网的发展和普及,每天都有数以百万计的数据源以新闻文章、博客、论文等形式发布,越来越多的经验知识存储于文档中,而由于传统的知识存储方式带来了检索效率低下的问题,如何管理并且利用这些数据逐渐成为自然语言处理领域的核心问题。随着调查和研究发现,结构化的存储方式可以有效地提高人们检索和收集经验知识的能力。为了让机器更好地理解人类语言,信息抽取任务所研究的自动组织和处理数据的技术变得不可或缺。信息抽取任务的基本目标是自动地从非结构化或者半结构化的机器可读文档以及其他电子表示的来源中提取信息并存储为结构化的形式,以实现对互联网上海量文本信息的组织、管理以及分析。
[0003]事件抽取是信息抽取的核心任务之一,它的主要目标是从非结构化文本中抽取出结构化的事件信息,对于信息检索、事理图谱的构造有重要作用。现有的事件抽取方法大致可以分为管道方法和联合方法。管道方法存在错误累积的问题,近期的大部分工作都采用联合方法进行事件抽取。然而大多数句子级的事件抽取联合方法缺少文本的整体信息以致无法很好地处理触发词的二义性问题,而文档级的联合方法存在建模复杂的问题;另外,由于事件触发词和事件元素在句子中的关系紧密,事件抽取任务十分依赖句法特征,然而只有少数方法在事件抽取中引入句法信息,但是这些依赖预训练工具的句法分析仍会对事件抽取造成错误累积;并且在相关数据集和现实应用中,句子中包含多个事件或者事件元素重叠的情况十分常见,但多数方法只考虑单事件和单元素角色,丢失了大量的事件信息。
[0004]为了改善上述问题,本专利技术提出一个基于主题特征和隐式句子结构的事件抽取联合方法。该方法首先通过结合BERT和LDA为句子级的事件抽取模型引入文档级的主题信息改善了触发词的二义性问题;其次抽取出BERT词嵌入表示中隐含的句法信息,并将该抽取过程与事件抽取进行联合建模,不仅为事件抽取引入重要的句法信息,同时也避免了错误累积问题;最后模型能够抽取单句中的多个触发词以及抽取实体在多个事件中的元素角色,改善多事件和事件元素重叠的问题。受益于引入主题特征和隐式句法特征以及联合建模的优势,所以构造一种基于主题特征和隐式句子结构的事件抽取方法,该方法在避免错误累积问题的同时引入主题特征和隐式句子结构信息,能够有效提高事件抽取的质量,有着非常大的研究意义。

技术实现思路

[0005]本专利技术提供一种事件抽取联合方法:对于触发词存在的二义性问题,一方面基于句子本身的表示获取其语义结构信息,另一方面通过主题建模获得主题分布表示,为事件抽取引入文档的整体上下文信息,以达到触发词消歧的作用;对于引入句法特征可能导致
的错误累积问题,研究抽取BERT词嵌入中隐含的句子结构信息的方法,并与事件抽取建立联合模型,在引入句法信息的同时避免错误累积的影响;对于多事件和事件元素重叠的问题,本专利技术模型能够在单个句子中识别多个事件以及判定一个候选实体在多个事件中扮演的元素角色。通过这些方法能够完成对上述挑战的改善以提高事件抽取的效果。
[0006]本专利技术利用预训练语言模型BERT进行隐式句子结构特征抽取并将其应用于和事件抽取的子任务进行联合抽取的过程。首先抽取BERT结果中隐含的句子结构信息;然后利用CRF模型级联地进行事件触发词抽取;接着利用Bi

LSTM模型将隐式句子结构信息引入事件元素抽取的过程;最后定义模型联合训练的损失函数,对各任务进行共同优化,以学习模型的最优参数。
[0007]一种基于主题特征和隐式句子结构的事件抽取方法,该方法包括以下步骤:
[0008]1)数据处理及主题特征抽取:将原始数据集重构成适合本专利技术模型的格式,对于读取的数据集中的每个样本专利技术档,进行主题特征抽取,然后利用NLTK包中的分句工具对样本专利技术档进行分句得到样本句子;
[0009]2)隐式句子结构抽取:对于每个样本句子,首先利用语言模型Bert获得句子中的词嵌入作为句子上下文特征,然后对于这个词嵌入序列,利用一种屏蔽机制对句子中各成分之间的相互影响程度进行计算,作为隐式句子结构特征,用于后续的事件抽取联合方法;
[0010]3)基于级联式CRF的事件触发词抽取模块,采用一种级联的序列标注方法将抽取任务分解成边界标注和类型判别两个任务;
[0011]4)利用Bi

LSTM融入句法信息的事件元素抽取模块,在正向和反向的递归过程中引入影响矩阵中的数据,在当前词节点及其强相关的词节点之间建立对应的联系,使得句法信息能够在LSTM节点之间传播,最终使句法信息融入单词的向量表示中;
[0012]5)联合训练:以交叉熵损失函数来分别计算事件触发词抽取模块和事件元素抽取模块的损失,并且对事件触发词和事件元素抽取进行联合训练以避免错误累积问题,为了两个子任务的损失项在同一时刻收敛,最终的损失由两个子任务的损失之和表示。
[0013]本专利技术主题特征抽取的优选方案中,所述步骤1)中,按照如下方式抽取出主题特征:
[0014]1‑
1)利用面向长句编码的Sentence

Transformer得到每个文档具有上下文语义信息的上下文表示;
[0015]1‑
2)然后利用主题模型LDA得到每个文档的主题分布信息;
[0016]1‑
3)利用上述两个向量训练一个自编码器用于将这两个向量进行融合,以自编码器的结果作为每个文档的主题特征。
[0017]本专利技术隐式句子结构抽取的优选方案中,所述步骤2)中根据以下特征构建训练数据集:
[0018]2‑
1)将输入序列中的任意一个单词替换成屏蔽字符[MASK]得到新的输入序列,将该序列输入到BERT中得到的结果h
i
,将h
i
作为x
i
的表示;
[0019]2‑
2)更为了得到句子中其他成分x
j
对x
i
的影响,进而将输入序列中的x
j
也特换成屏蔽字符[MASK],再输入BERT中得到x
i
的新表示H
ij

[0020]2‑
3)利用欧式距离来计算H
ij
和h
i
在语义空间中的距离f(x
i
,x
j
),最终得到句子中两两成分之间的影响程度矩阵该矩阵即为隐式句子结构信息,可以表征任意两个句子
成分之间的相互影响程度;
[0021]本专利技术事件触发词抽取的优选方案中,所述步骤3)中按照如下具体步骤对事件触发词进行抽取:
[0022]3‑
1)对于输入序列利用BERT模型分词并向量化,并将其与原标签序列对齐,包括去除“[CLS]”、“[SEP]”一类BERT的特殊表示,将对齐后的序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题特征和隐式句子结构的事件抽取方法,其特征在于,该方法包括以下步骤:1)数据处理及主题特征抽取:将原始数据集重构成JSON格式,对于读取的数据集中的每个样本发明档,进行主题特征抽取,然后利用NLTK包中的分句工具对样本发明档进行分句得到样本句子;2)隐式句子结构抽取:对于每个样本句子,首先利用语言模型Bert获得句子中的词嵌入作为句子上下文特征,然后对于这个词嵌入序列,利用一种屏蔽机制对句子中各成分之间的相互影响程度进行计算,作为隐式句子结构特征,用于后续的事件抽取联合方法;3)基于级联式CRF的事件触发词抽取模块,采用一种级联的序列标注方法将抽取任务分解成边界标注和类型判别两个任务,先标记事件触发词的边界,然后判断其对应的事件类型;4)利用Bi

LSTM融入句法信息的事件元素抽取模块,在正向和反向的递归过程中引入影响矩阵中的数据,在当前词节点及其强相关的词节点之间建立对应的联系,使得句法信息能够在LSTM节点之间传播,最终使句法信息融入单词的向量表示中;5)联合训练,以交叉熵损失函数来分别计算事件触发词抽取模块和事件元素抽取模块的损失,并且对事件触发词和事件元素抽取进行联合训练以避免错误累积问题,为了两个子任务的损失项在同一时刻收敛,最终的损失由两个子任务的损失之和表示。2.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法,其特征在于,所述步骤1)中,按照如下方式抽取出主题特征:1

1)利用面向长句编码的Sentence

Transformer得到每个文档具有上下文语义信息的上下文表示;1

2)然后利用主题模型LDA得到每个文档的主题分布信息;1

3)利用上述两个向量训练一个自编码器用于将这两个向量进行融合,以自编码器的结果作为每个文档的主题特征。3.根据权利要求1所述的基于主题特征和隐式句子结构的事件抽取方法,其特征在于,所述步骤2)中根据以下特征构建训练数据集:2

1)将输入序列中的任意一个单词x
i
替换成屏蔽字符[MASK]得到新的输入序列,将该序列输入到BERT中得到的结果h
i
,将h
i
作为x
i
的表示;2

2)更为了得到句子中其他成分x
j
对x
i
的影响,进而将输入序列中的x
j
也特换成屏蔽字符[MASK],再输入BERT中得到x
i
的新表示H
ij
;2

3)利用欧式距离来计算H
ij
和h
i
在语义空间中的距离f(x
i
,x<...

【专利技术属性】
技术研发人员:黄婉华漆桂林高桓
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1