基于建模论元的事件共指消解方法、装置、设备和介质制造方法及图纸

技术编号：35823801 阅读：26 留言：0更新日期：2022-12-03 13:50

本申请涉及一种基于建模论元的事件共指消解方法、装置、计算机设备和存储介质。所述方法包括：构建了事件共指消解模型，包括事件抽取组件、提及编码器组件、共指得分器组件和事件共指链确定模块，通过显式建模论元信息，并且将论元划分为包含施事者、受事者、时间、地点和其他共五种角色，既可以满足分别处理对应角色论元的需求，也保证所有的论元信息都囊括其中，不会致使某些论元信息的缺失；通过在论元表示中引入置信分数，缓解错误传播带来的消极影响；通过设计一种门控过滤机制，利用触发词过滤论元中的噪声，进一步缓解错误传播，获取特定上下文中最有用的信息。本发明专利技术方法具有效果佳、适应性好的优点。适应性好的优点。适应性好的优点。

全部详细技术资料下载

【技术实现步骤摘要】
基于建模论元的事件共指消解方法、装置、设备和介质

[0001]本申请涉及事件图谱领域，特别是涉及一种基于建模论元的事件共指消解方法、装置、计算机设备和存储介质。

技术介绍

[0002]文档内事件共指消解是一种识别并聚类一段文本中指代相同真实事件的事件提及的任务。它是个富有挑战的研究，并且有很多应用。事件主要由触发词和事件论元构成。触发词是句子中能最清晰地描述事件发生的主要单词，而事件论元包括事件的其他重要信息，比如施事者、受事者、时间和地点等。
[0003]在ACE2005相关定义中，一个事件提及有且仅有一个触发词。相比于触发词，论元更复杂，如何合理使用论元帮助解决事件共指是一个难题。一方面，不同类型的事件具有不同角色的事件论元，并且单个事件同种角色的论元可能不止一个。另一方面，文本中的事件提及的论元不可能都存在，换句话说，对应某些角色的论元是缺失的。
[0004]先前在事件共指消解的工作通常直接使用标注好的事件信息(Bejan and Harabagiu,2010；Krause et al.,2016)，这...

【技术保护点】

【技术特征摘要】
1.一种基于建模论元的事件共指消解方法，其特征在于，所述方法包括：获取待进行事件共指消解的训练数据集；将所述训练数据集输入事件共指消解模型；所述事件共指消解模型包括事件抽取组件、提及编码器组件、共指得分器组件和事件共指链确定模块；所述事件抽取组件用于根据所述训练数据集中的文档数据得到多个事件提及；每个所述事件提及中包括事件的触发词、论元和事件子类型；所述论元被划分为施事者、受事者、时间、地点和其他共五种角色；所述提及编码器组件用于根据所述事件提及和对应文档的词元数据得到任一事件提及的触发词表示和论元角色的论元表示；其中所述论元表示中包括论元置信分数；进一步得到任意两个事件提及的触发词对表示和论元对表示，通过门控过滤机制，根据所述触发词对表示对所述论元对表示进行过滤，得到过滤后的论元对表示，进而根据所述触发词对表示和过滤后的论元对表示得到任意两个事件提及的提及对表示；所述共指得分器组件用于根据所述提及对表示得到任意两个事件提及的共指得分；所述事件共指链确定模块用于根据所述共指得分得到所述训练数据集中对应文档的预测事件共指链；通过所述训练数据集和所述预测事件共指链对所述事件共指消解模型进行训练，得到训练好的事件共指消解模型；将待进行事件共指消解的文档数据输入所述训练好的事件共指消解模型，得到所述文档数据对应的事件共指链数据。2.根据权利要求1所述的方法，其特征在于，根据所述事件提及和对应文档的词元数据得到任一事件提及的触发词表示和论元角色的论元表示，包括：获取所述事件抽取组件输出的k个事件提及{m1,m2,
…
,m
k
}和对应文档的n个词元数据；通过transformer编码器为每个输入词元形成上下文表示为X＝(X1,X2,
…
,X
n
)；其中，d表示每个词元编码后的向量维度；对于每个事件提及m
i
，所述事件提及m
i
的触发词表示t
i
被定义为其词元嵌入的平均值：其中，s
i
和e
i
分别表示触发词的开始和结束索引；所述事件提及m
i
对应角色r的论元表示为：对应角色r的论元表示为：其中，r∈{agent,patient,time,place,other}，agent,patient,time,place,other分别为施事者、受事者、时间、地点和其他共五种论元角色，是提及m
i
对应角色r的第l个论元的表示，和分别表示第l个论元的开始和结束索引，c表示第l个论元的置信分数，u表示m
i
对应角色r的论元个数；当m
i
对应角色r的论元缺省或不存在，使用d维0向量表示。
3.根据权利要求2所述的方法，其特征在于，进一步得到任意两个事件提及的触发词对表示和论元对表示，包括：给定两个事件提及m
i
和m
j
，分别定义触发词对表示和对应角色r的论元对表示为：，分别定义触发词对表示和对应角色r的论元对表示为：其中，FFNN
t
是一个的标准前馈神经网络，编码m
i
和m
j
的元素级相似性。4.根据权利要求3所述的方法，其特征在于，通过门控过滤机制，根据所述触发词对表示对所述论元对表示进行...

【专利技术属性】
技术研发人员：蒋国权，环志刚，丁鲲，刘浏，刘姗姗，张骁雄，刘茗，张慧，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人