一种端到端的多任务联合篇章级事件抽取方法及系统技术方案

技术编号:38842115 阅读:23 留言:0更新日期:2023-09-17 09:55
本发明专利技术涉及端到端的多任务联合篇章级事件抽取方法及系统,属自然语言处理领域;方法包括:筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;通过回归的方式对每种类型的事件数量做出预测;对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;利用片段打分方式识别文档中的实体作为候选论元;将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;通过多任务联合学习方式,实现端到端的篇章级事件抽取;根据上述功能模块化制成系统,对事件进行抽取,本发明专利技术预测了事件论元及论元角色的关系,缓解论元重叠问题。缓解论元重叠问题。缓解论元重叠问题。

【技术实现步骤摘要】
一种端到端的多任务联合篇章级事件抽取方法及系统


[0001]本专利技术涉及一种端到端的多任务联合篇章级事件抽取方法及系统,属于自然语言处理


技术介绍

[0002]篇章事件抽取(Document Event Extraction,DEE)是信息抽取的一个重要研究方向,旨在从非结构文本中抽取结构化事件类型和事件要素。
[0003]DEE包含事件检测和论元识别两个子任务,在事件检测阶段,之前的工作将此任务建模为触发词分类任务,预测给定句子中的每个单词是否是事件触发器以及所触发的事件类型。基于触发词的事件检测依赖于对触发词的识别,然而,触发词的识别并不是事件检测的目的,另外,相较于句子级的事件检测来说,文档的篇幅大,对于触发词的标注是耗时耗力的,于是出现了无触发词的事件检测。
[0004]在论元识别阶段,一个篇章存在多种事件类型的多个事件,可能是同一种事件类型下有多个事件,或者是不同的事件类型还存在多个事件;另外,还会存在同一个论元会充当多个事件的论元角色,这就是论元重叠问题。那么,对于论元属于哪个事件什么事件类型的哪种论元角色来说,论元的分配就变得尤其困难。已有的大多数篇章级事件抽取方法使用深度学习和联合学习进行特征交互,通过图构建的方式捕获事件类型和论元之间的关系,但是针对篇章事件中的论元重叠问题还是不能很好的解决。
[0005]另外,事件检测和论元识别并不是两个孤立的过程,对于在事件检测阶段获取到的具有上下文语义信息的伪触发词和在实体识别阶段得到的候选论元来说,如果它们属于同一事件的事件要素来说,它们的关系是紧密的,如果它们不属于同一事件要素来说,它们的关系是相对疏远的。基于此,我们将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系,缓解论元重叠问题。

技术实现思路

[0006]针对上述问题,本专利技术提供了一种端到端的多任务联合篇章级事件抽取方法及系统,本专利技术在没有标注触发词的情况下,通过对文档的编码获取具有上下文语义信息的词,从而完成事件类型的检测、事件数量的预测和伪触发词的识别;将候选论元特征与伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系,缓解论元重叠问题。
[0007]本专利技术的技术方案是:第一方面,本专利技术提供一种端到端的多任务联合篇章级事件抽取方法,所述方法的具体步骤如下:
[0008]步骤1:使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测,实体识别和事件论元识别三个模块的输入;
[0009]步骤2:在事件检测模块中,将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发
词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;
[0010]步骤3:在实体识别模块中,利用片段打分方式识别文档中的实体作为候选论元;
[0011]步骤4:在事件论元识别模块中,将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;
[0012]步骤5:将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取。
[0013]作为本专利技术的进一步方案,所述步骤1中包含以下步骤:
[0014]步骤1.1:对输入的文档d进行分句预处理操作,得到n个句子的文档:
[0015];
[0016]使用预训练语言模型PLM分词器对句子进行分词处理,每个句子表示为:
[0017];
[0018]其中,n代表文档的句子数,l代表句子切分项token的数量,代表token的特征维度;
[0019]步骤1.2:将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列:
[0020];
[0021]于是文档表示为:,其中,;
[0022]然后,针对事件检测模块、实体识别模块、事件论元识别模块,对句子向量进行三组线性变换,分别得到事件检测特征、实体识别特征、事件论元识别特征:
[0023]事件检测特征:;
[0024]实体识别特征:;
[0025]论元识别特征:;
[0026]其中,代表进行线性变换后的新的token特征维度。
[0027]作为本专利技术的进一步方案,所述步骤2中包含以下步骤:
[0028]步骤2.1:在事件检测模块中,将得到的事件检测特征再次进行两个线性变换得到两组特征:和:
[0029];
[0030];
[0031]其中,代表进行两个线性变换后的新的token特征维度;用作事件类型和事件数量的预测,用作伪触发词的识别;token代表句子切分项;
[0032]步骤2.2:将中所有句子的隐状态拼成一个长序列,,其中,N代表文档中的token数;
[0033]步骤2.3:将通过层归一化和线性层后得到文档中所有token对于每种事件类
型的分数:
[0034];
[0035]其中,N代表文档中的token数,m代表事件类型数;
[0036]步骤2.4:对于事件类型的预测,将事件类型的预测看作多分类任务,对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分:
[0037];
[0038]对文档的事件类型标签]和所得事件类型得分,采用交叉熵损失计算事件类型损失:
[0039];
[0040]均分别表示事件类型标签中的其中一个事件类型;
[0041]步骤2.5:对于事件数量的预测,将其看作回归任务,对每一种事件类型,将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量:
[0042];
[0043]对文档的每种事件类型对应的事件数量标签和所得每类事件的事件数量,采用均方误差损失计算事件数量损失:
[0044];均分别表示事件类型分别对应的事件数量;
[0045]步骤2.6:对于伪触发词的识别,认为对于每种事件类型来说贡献最大的token就是触发词;所以,首先针对文档中不定的k个事件和m种事件类型,从步骤2.3所得的文档中所有token对于每种事件类型的分数中,选出k组得分最高的token及其索引:
[0046];
[0047]然后通过索引,从找到伪触发词的特征,其中;
[0048]步骤2.7:为了后续计算,将伪触发词的特征进行维度变换得到最终的伪触发词的特征:
[0049];
[0050]其中,代表事件数量。
[0051]作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种端到端的多任务联合篇章级事件抽取方法,其特征在于:所述方法的具体步骤如下:步骤1:使用预训练语言模型对文本进行编码,得到每个句子的特征表示,然后经过线性变换获取事件检测特征、实体识别特征、事件论元识别特征三组特征分别作为事件检测,实体识别和事件论元识别三个模块的输入;步骤2:在事件检测模块中,将事件检测看作多分类任务,使用从预训练语言模型获取具有上下文语义信息的词,并筛选出对某种事件类型来说贡献最大的词作为伪触发词,来完成无触发词的事件检测;同时,通过回归的方式对每种类型的事件数量做出预测;另外,对于多个事件来说,针对每个事件及每种事件类型选出得分最高的词作为伪触发词,作为论元识别的最终的伪触发词特征;步骤3:在实体识别模块中,利用片段打分方式识别文档中的实体作为候选论元;步骤4:在事件论元识别模块中,将候选论元特征与最终的伪触发词特征融合,采用多标签分类方法,预测事件论元及论元角色的关系;步骤5:将事件检测、实体识别、事件论元识别三个模块通过现有的多任务联合学习方式进行联合优化训练,用训练好的模型实现端到端的篇章级事件抽取。2.根据权利要求1所述的端到端的多任务联合篇章级事件抽取方法,其特征在于:所述步骤1中包含以下步骤:步骤1.1:对输入的文档d进行分句预处理操作,得到n个句子的文档:;使用预训练语言模型PLM分词器对句子进行分词处理,每个句子表示为:;其中,n代表文档的句子数,l代表句子切分项token的数量,代表token的特征维度;步骤1.2:将文档的n个句子经过预训练语言模型PLM编码后,得到每个句子的向量序列:;于是文档表示为:,其中,;然后,针对事件检测模块、实体识别模块、事件论元识别模块,对句子向量进行三组线性变换,分别得到事件检测特征、实体识别特征、事件论元识别特征:事件检测特征:;实体识别特征:;论元识别特征:;其中,代表进行线性变换后的新的token特征维度。3.根据权利要求1所述的端到端的多任务联合篇章级事件抽取方法,其特征在于:所述步骤2中包含以下步骤:步骤2.1:在事件检测模块中,将得到的事件检测特征再次进行两个线性变换得到两组特征:和:
;;其中,代表进行两个线性变换后的新的token特征维度;用作事件类型和事件数量的预测,用作伪触发词的识别;token代表句子切分项;步骤2.2:将中所有句子的隐状态拼成一个长序列,,其中,N代表文档中的token数;步骤2.3:将通过层归一化和线性层后得到文档中所有token对于每种事件类型的分数:;其中,N代表文档中的token数,m代表事件类型数;步骤2.4:对于事件类型的预测,将事件类型的预测看作多分类任务,对于每一种事件类型取文档中所有token对于每种事件类型的分数最大的值作为对应事件类型的得分:;对文档的事件类型标签]和所得事件类型得分,采用交叉熵损失计算事件类型损失:;均分别表示事件类型标签中的其中一个事件类型;步骤2.5:对于事件数量的预测,将其看作回归任务,对每一种事件类型,将文档中所有token对于每种事件类型的分数经过sigmoid激活函数后取和作为每类事件的事件数量:;对文档的每种事件类...

【专利技术属性】
技术研发人员:线岩团秦海涛黄于欣相艳
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1