事件论元抽取方法技术

技术编号:39640844 阅读:9 留言:0更新日期:2023-12-09 11:07
本发明专利技术提出一种事件论元抽取方法

【技术实现步骤摘要】
事件论元抽取方法、装置


[0001]本专利技术涉及事件抽取
,尤其涉及一种基于句子级的事件论元抽取方法

装置


技术介绍

[0002]事件抽取是信息抽取领域中的重要任务之一,其目标是对于给定的非结构化文本,从中抽取出结构化的事件信息,包含事件触发词

事件类型

事件论元及其扮演的角色

按照所涉及文本范围的不同,事件抽取可以分为句子级和篇章级两类,本专利技术关注的是句子级事件抽取,下文在不引起混淆的情况下简称为事件抽取

目前,事件抽取任务通常采用基于深度学习的方法,根据结果获取方法的不同又可以分为两类:基于分类的方法和基于生成的方法

前者将事件抽取视为词级别的多分类任务,通过对输入文本中的所有单词进行标签分类得到最终的抽取结果;后者采用端到端的形式,直接生成事件的触发词和论元内容,通过生成内容与原文本进行对比定位得到最终的结构化事件结果

[0003]现有的事件抽取方法在两个子任务上均取得较好的效果,然而现有方法忽略了训练数据本身存在的失衡问题,这导致模型在训练过程中出现部分性能损失

所谓训练数据失衡包含两个方面,一方面是事件检测中不同的事件类型其训练样本在数量上的巨大差异,现有方法一般通过训练单一模型来识别所有事件类型,这种方法虽然能够简化算法的实现和管理,但是由于不同事件类型之间的数据量可能存在差异,单一模型在不同事件类型上的表现也可能存在偏差<br/>。
另一方面是事件论元抽取时论元角色在原始文本中存在与否所引起的数量上的不均衡,现有方法都假定句子中包含所有的论元角色

但实际上,一个句子往往并不包含所有的论元角色,模型训练的负样本构建过多,导致在测试集上的召回率非常低


技术实现思路

[0004]针对上述的问题,本专利技术提出一种事件论元抽取方法

装置,其通过事件类型表示增强的两阶段事件抽取方法来实现,解决了事件抽取中缺乏对训练数据失衡的考量的问题

[0005]为了实现上述目的,本专利技术一方面提供一种事件论元抽取方法,包含:
[0006]分别对训练数据

事件类型进行编码,得到触发词上下文语义表示

事件类型的表示;
[0007]将所述触发词上下文语义表示和事件类型的表示交互,得到含事件类型信息的触发词表示,并将所述触发词表示进行分类,预测事件类型;
[0008]根据具体的触发词和预测的事件类型,设计论元抽取模板,生成对应事件类型的论元抽取问题,并将待抽取文本与所述论元抽取问题拼接后编码,得到标签的上下文语义表示

待抽取句子各个词的上下文语义表示

论元角色的上下文语义表示;
[0009]拼接所述标签的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输
入判别网络得到判别概率;
[0010]拼接所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到标注概率;
[0011]结合所述判别概率和所述标注概率确定最终论元角色对应的抽取结果

[0012]可选的,对训练数据进行编码,得到触发词上下文语义表示,包含:
[0013]对训练数据进行预处理,
[0014]使用
BERT
预训练语言模型对预处理后的所述训练数据进行预编码,得到每个字经
BERT
预训练模型编码后的分布式语义表达;
[0015]聚合其中触发词对应的分布式语义表达,得到触发词上下文语义表示

[0016]可选的,对事件类型进行编码,得到事件类型的表示,包含:
[0017]根据事件类型的层级关系构建图神经网络,其中图节点为事件类型和子事件类型的标签节点,当子事件类型从属于事件类型时,其对应节点间出现连边;
[0018]在图节点间进行信息传递,得到事件类型的表示

[0019]可选的,将所述触发词上下文语义表示和事件类型的表示交互,得到含事件类型信息的触发词表示,包含:
[0020]将所述触发词上下文语义表示和事件类型的表示进行注意力计算,得到含事件类型信息的触发词特征;
[0021]依据所述触发词特征与所述触发词上下文语义表示的加权之和,得到所述触发词表示

[0022]可选的,根据事件的触发词和预测的事件类型,设计论元抽取模板,生成对应事件类型的论元抽取问题,包含:
[0023]将所述触发词

预测的事件类型

论元抽取模板进行拼接,得到论元抽取问题;
[0024]其中,事件类型提供给定事件类型的定义,事件的触发词描述指定需抽取论元的对应触发词,论元抽取模板表示给定事件类型的结构

[0025]可选的,将待抽取文本与所述论元抽取问题拼接后编码,得到标签的上下文语义表示

待抽取句子各个词的上下文语义表示

论元角色的上下文语义表示,包含:
[0026]将待抽取文本与所述论元抽取问题进行拼接后进行预处理并输入至
BERT
预训练语言模型进行预编码,得到标签的上
[0027]下文语义表示

待抽取句子各个词的上下文语义表示

以及论元角色对应片段的上下文语义表示;
[0028]聚合其中论元角色对应片段的上下文语义表示,得到需要抽取的论元角色的上下文语义表示

[0029]可选的,拼接所述标签的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到判别概率,包含:
[0030]选择标签的上下文语义表示与需要抽取的论元角色的上下文语义表示拼接,得到该论元角色在该文本中的判别特征;
[0031]将所述判别特征输入一个两层的判别网络进行特征建模;
[0032]通过
softmax
函数建模该论元角色在该文本中可抽取的概率,确定判别概率:
[0033][0034]其中,表示该论元角色在文本中没有答案的判别概率,表示该论元角色在文本中有答案的判别概率

[0035]可选的,拼接所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到标注概率,包含:
[0036]将所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示拼接,得到各个词针对该论元角色的抽取特征;
[0037]将所述抽取特征分别输入三个两层的判别网络,分别建模词作为角色对应论元指称的
start
标签特征
、end
标签特征和
BIO
标签特征;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种事件论元抽取方法,其特征在于,包含:分别对训练数据

事件类型进行编码,得到触发词上下文语义表示

事件类型的表示;将所述触发词上下文语义表示和事件类型的表示交互,得到含事件类型信息的触发词表示,并将所述触发词表示进行分类,预测事件类型;根据具体的触发词和预测的事件类型,设计论元抽取模板,生成对应事件类型的论元抽取问题,并将待抽取文本与所述论元抽取问题拼接后编码,得到标签的上下文语义表示

待抽取句子各个词的上下文语义表示

论元角色的上下文语义表示;拼接所述标签的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到判别概率;拼接所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到标注概率;结合所述判别概率和所述标注概率确定最终论元角色对应的抽取结果
。2.
根据权利要求1所述的方法,其特征在于,对训练数据进行编码,得到触发词上下文语义表示,包含:对训练数据进行预处理,使用
BERT
预训练语言模型对预处理后的所述训练数据进行预编码,得到每个字经
BERT
预训练模型编码后的分布式语义表达;聚合其中触发词对应的分布式语义表达,得到触发词上下文语义表示
。3.
根据权利要求1所述的方法,其特征在于,对事件类型进行编码,得到事件类型的表示,包含:根据事件类型的层级关系构建图神经网络,其中图节点为事件类型和子事件类型的标签节点,当子事件类型从属于事件类型时,其对应节点间出现连边;在图节点间进行信息传递,得到事件类型的表示
。4.
根据权利要求1所述的方法,其特征在于,将所述触发词上下文语义表示和事件类型的表示交互,得到含事件类型信息的触发词表示,包含:将所述触发词上下文语义表示和事件类型的表示进行注意力计算,得到含事件类型信息的触发词特征;依据所述触发词特征与所述触发词上下文语义表示的加权之和,得到所述触发词表示
。5.
根据权利要求1所述的方法,其特征在于,根据事件的触发词和预测的事件类型,设计论元抽取模板,生成对应事件类型的论元抽取问题,包含:将所述触发词

预测的事件类型

论元抽取模板进行拼接,得到论元抽取问题;其中,事件类型提供给定事件类型的定义,事件的触发词描述指定需抽取论元的对应触发词,论元抽取模板表示给定事件类型的结构
。6.
根据权利要求5所述的方法,其特征在于,将待抽取文本与所述论元抽取问题拼接后编码,得到标签的上下文语义表示

待抽取句子各个词的上下文语义表示

论元角色的上下文语义表示,包含:将待抽取文本与所述论元抽取问题进行拼接后进行预处理并输入至
BERT
预训练语言
模型进行预编码,得到标签的上下文语义表示

待抽取句子各个词的上下文语义表示

以及论元角色对应片段的上下文语义表示;聚合其中论元角色对应片段的上下文语义表示,得到需要抽取的论元角色的上下文语义表示
。7.
根据权利要求6所述的方法,其特征在于,拼接所述标签的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到判别概率,包含:选择标签的上下文语义表示与需要抽取的论元角色的上下文语义表示拼接,得到该论元角色在该文本中的判别特征;将所述判别特征输入一个两层的判别网络进行特征建模;通过
softmax
函数建模该论元角色在该文本中可抽取的概率,确定判别概率:其中,表示该论元角色在文本中没有答案的判别概率,表示该论元角色在文本中有答案的判别概率
。8.
根据权利要求7所述的方法,其特征在于,拼接所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示后,输入判别网络得到标注概率,包含:将所述待抽取句子中的各个词的上下文语义表示与需要抽取的论元角色的上下文语义表示拼接,得到各个...

【专利技术属性】
技术研发人员:靳小龙郭嘉丰程学旗黄林萌官赛萍
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1