文档级事件要素抽取方法、设备及介质技术

技术编号:36160112 阅读:14 留言:0更新日期:2022-12-31 20:07
本发明专利技术公开了一种文档级事件要素抽取方法、设备及介质,属于文档级事件要素抽取领域,包括如下步骤:获取句子向量,将各个句子向量进行拼接,获得初始篇章向量,同时将句子向量送入注意力机制网络,获取包含句子间隐含关系的篇章向量,并将二者向量进行混合表征,得到最终的文本篇章表示;进行事件句识别及要素抽取、中心句识别及事件要素以及跨句事件关系抽取;对中心句和事件间的相关关系进行数理统计,基于竞争性原则完成中心句筛选;基于要素补全模型,完成中心事件要素补全,得到完整的文档级事件要素。本发明专利技术具有完备性和实用型的优点。优点。优点。

【技术实现步骤摘要】
文档级事件要素抽取方法、设备及介质


[0001]本专利技术涉及文档级事件要素抽取领域,更为具体的,涉及一种文档级事件要素抽取方法、设备及介质。

技术介绍

[0002]随着互联网技术的蓬勃发展,网络空间里每天都会产生大量的数据信息,例如时事新闻、公司财报、电子病例等,从而极大丰富了人们获取信息的途径。这些网络信息具有多种多样的载体形式,比如文本、图片、音频和视频等,但这其中仍以文本所占比例最高。通过对文本的阅读,人类可以学习到事件发生的时间、地点、对象、动作等要素,从而了解当前社会和经济发展中的前沿问题,拓展知识储备。但是,信息的增量发展在给人类带来便利的同时,也给人类完全消化理解海量知识带来了挑战。如何从海量非结构化文本中高效筛选出我们所关注的事件知识,成为了信息爆炸时代下人类亟需解决的问题。
[0003]近年来,随着自然语言处理相关技术的飞速进步,事件抽取技术成为了信息处理领域的研究热点之一。事件抽取的核心任务是利用计算机从非结构化的自然语言文本中抽取出事件的要素信息,并以半结构化或结构化的形式进行表示。事件抽取的实现一方面可以为人类自动过滤出用户所关注的事件信息,从而极大提高人类获取有用信息的效率。另一方面,以结构化形式存储的事件要素信息更便于计算机去理解和处理,进一步奠定自然语言处理相关应用的数据基础,通过使用结构化事件信息构建知识图谱等方式,可以让计算机为人类提供诸如机器问答、信息关联检索、事件推理分析、智能创作等高级服务,例如,结构化的事件要素信息能够用于扩展知识库,并进行逻辑推理和预测。长期以来,政府需要及时地了解社会热门事件的爆发和演变并且及时地做出相应的反应,因而事件检测和监测一直是政府公共事务管理的重中之重。商业和金融领域的企业需要快速地发现产品的市场反应,从而推断信号进行风险分析和交易建议,这也可以依靠事件抽取技术。生物医学领域中可以将事件抽取技术用于识别生物分子状态的改变或者生物分子之间的相互作用,用于理解疾病和生理机制。总而言之,事件抽取技术可以造福于很多领域,具有极强的现实意义和良好的应用前景。
[0004]随着国内外各类事件抽取应用的不断拓展以及科学技术的不断进步,事件抽取相关研究的热度逐年上升。研究主要分为基于模式匹配的事件要素抽取和基于深度学习的事件要素抽取两方面。基于模式匹配的方法需要挖掘不同事件类型下的文本上下文论元关联特征,制定相应的模式匹配模板,进而通过模式匹配实现事件抽取。事件模板的制定方式经历了完全基于人工构建、从人工预分类语料上学习模板,再到利用知识库自动学习事件模板这三个阶段的发展,其目的是不断减少人工参与的工作量。比如,Riloff E等认为,事件最重要的事实往往出现在事件的第一次描述中,且事件相邻的文本中通常包含对事件角色的描述,进而利用自动构建的触发词词典开发了AutoSlog事件抽取系统,在MUC

4语料上实现了较好的效果;Surdeanu M等提出基于自动识别谓语论元的结构实现域独立的事件抽取模式。近年来,随着深度学习技术的飞速发展,也间接促进了事件抽取技术的发展,主要包
括CNN、RNN、GNN、复合神经网络、注意力机制等几大研究方向。比如,首先,Nguyen和Grishman率先将CNN用于事件检测任务,他们使用CNN预测句子中的事件触发词和事件类型,句子中每个字符首先转化为真实数值的表示向量,这个表示向量由词向量、位置向量和实体类型向量拼接而成,随后作为CNN网络的输入,每个字符经过CNN输出一个事件类型的分类结果;然后,Nguyen等人提出了一种联合事件抽取的双向RNN结构,联合抽取过程包括编码阶段和预测阶段,编码阶段使用二进制向量代替位置特征来表示依赖特征,以此来联合预测事件触发词和论元,预测阶段把触发词和论元之间的依赖关系分成触发词子类型之间的依赖关系、论元角色之间的依赖关系和触发词子类型与论元角色之间的依赖关系;Rao等人采用了一种语义分析技术一抽象意义表示(AMR),他们认为事件结构是AMR图结构的子图,并将事件抽取任务定义为AMR子图识别任务,训练了一个图谱LSTM模型来识别事件子图;其次,上述事件抽取方法在捕捉文本特征、关系和依赖关系上各有优劣,于是有很多研究工作通过将不同的神经网络结合起来,使用不同的神经网络来学习不同类型的特征,利用彼此的优点来应对事件抽取任务,其中T.H.Nguyen首先用Bi

LSTM模型获取初始的词表征向量,然后应用图卷积网络抽取事件,另外也有研究者提出将CNN和RNN结合起来抽取事件;最后,计算机视觉领域的注意力机制被越来越多的跨领域使用,用于自然语言处理任务中,吴等人应用论元信息来训练带有注意力机制的Bi

LSTM网络,魏等人采用基于自注意力的多分类模型来识别事件要素,同时关注句子中比较重要的部分内容和捕捉句子中不同的特征,增强事件要素的识别。
[0005]综上所述,深度学习理论的进步己经促使事件抽取相关研究取得了极大进步,但现有研究仍然存在很多和现实应用场景脱节的地方。一方面,受事件抽取数据集和任务自身难度的限制,现有事件抽取技术大多假设一个事件的全部要素信息均出现在单个句子之中,并将抽取的粒度局限于句子级别。但现实情况下,由于自然语言表述的灵活性,一个事件的全部要素信息往往分布在一篇文档中的多个句子里,同时多个句子也存在共享相同要素的情况。以句子为粒度的事件抽取显然难以满足现实的事件抽取需求。

技术实现思路

[0006]本专利技术的目的在于克服现有技术的不足,提供一种文档级事件要素抽取方法、设备及介质,具有完备性和实用型的优点等。
[0007]本专利技术的目的是通过以下方案实现的:
[0008]一种文档级事件要素抽取方法,包括以下步骤:
[0009]S1,将篇章文本进行分句得到句子片段,对句子片段进行字符编码、位置编码和类型编码,分别得到编码向量C、L、S;将编码向量C、L、S进行叠加得到句子级初始化向量后送入预训练模型,获取句子向量V
i
,所述预训练模型包括Bert预训练模型;将各个句子向量V
i
进行拼接,获得初始篇章向量V
initial
;同时将句子级初始化向量送入注意力机制网络,对不同的句子赋予不同的权重值,获取包含句子间隐含关系的篇章向量V
relation
;将V
initial
和V
relation
进行叠加混合表征,得到最终的文本篇章表示V
text

[0010]S2,基于步骤S1的文本篇章表示V
text
,通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取,对篇章向量进行分类完成中心句识别及要素抽取,同时获得事件相关关系;
[0011]S3,对中心句和事件间的相关关系进行数理统计,基于竞争性原则完成中心句筛选;
[0012]S4,基于要素补全模型,完成中心事件要素补全,得到完整的文档级事件要素。
[0013]进一步地,在步骤S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档级事件要素抽取方法,其特征在于,包括以下步骤:S1,将篇章文本进行分句得到句子片段,对句子片段进行字符编码、位置编码和类型编码,分别得到编码向量C、L、S;将编码向量C、L、S进行叠加得到句子级初始化向量后送入预训练模型,获取句子向量V
i
,所述预训练模型包括Bert预训练模型;将各个句子向量V
i
进行拼接,获得初始篇章向量V
initial
;同时将句子级初始化向量送入注意力机制网络,对不同的句子赋予不同的权重值,获取包含句子间隐含关系的篇章向量V
relation
;将V
initial
和V
relation
进行叠加混合表征,得到最终的文本篇章表示V
text
;S2,基于步骤S1的文本篇章表示V
text
,通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取,对篇章向量进行分类完成中心句识别及要素抽取,同时获得事件相关关系;S3,对中心句和事件间的相关关系进行数理统计,基于竞争性原则完成中心句筛选;S4,基于要素补全模型,完成中心事件要素补全,得到完整的文档级事件要素。2.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S1中,所述对句子片段进行字符编码、位置编码和类型编码,具体包括:基于字符表对每个句子片段中的字符进行字符编码,同时对字符所处的位置差异进行位置编码,对当前的句子再赋予一个类型编码。3.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S2中,所述通过序列标注方式对句子向量进行分类完成事件句识别及要素抽取,具体包括步骤:事件句标注采用0和1表示,0表示非事件句,1表示事件句,事件要素标注采用B

I

O表示,B表示要素起始位,I表示要素其它位,O表示非要素位,下标分别使用sub、obj、tim、loc、tri表示主体、客体、时间、地点、触发词,事件句识别通过对句向量中的[CLS]向量进行一个全连接线性变化,然后通过softmax二分类检测其是否为事件句;要素抽取通过对句向量中每个字符位向量进行一个全连接线性变化,通过softmax二分类检测其标志位,最终获得当前句子是否为事件句以及具体的事件要素信息。4.根据权利要求1所述的文档级事件要素抽取方法,其特征在于,在步骤S2中,所述对篇章向量进行分类完成中心句识别及要素抽...

【专利技术属性】
技术研发人员:廖泓舟代翔戴礼灿潘磊张武彭晓胡艳霞
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1