一种基于短论元的细粒度事件信息抽取方法技术

技术编号:39518295 阅读:9 留言:0更新日期:2023-11-25 18:56
本申请提供了一种基于短论元的细粒度事件信息抽取方法

【技术实现步骤摘要】
一种基于短论元的细粒度事件信息抽取方法、装置和产品


[0001]本申请涉及知识工程信息抽取
,特别是一种基于短论元的细粒度事件信息抽取方法

装置和产品


技术介绍

[0002]事件抽取是信息抽取中的关键任务,是指从自然语言文本中抽取事件信息并将其以结构化的形式呈现出来,以供后续的分析应用,在自动摘要

自动问答

信息检索等领域有着广泛的应用

在事件抽取过程中,需要进行事件触发词检测及论元检测,即判断事件的事件类型以及该事件对应的事件要素

[0003]然而,现有的信息抽取方法过于简单,无法满足针对复杂事件的细粒度信息抽取要求,即对于较为复杂的事件描述文本,难以抽取得到清楚准确具体的事件信息

因此,有必要开发一种基于短论元的细粒度事件信息抽取方法

装置和产品,以提高对事件信息的抽取效果,以得到更为准确,结构更为清晰的事件信息,支撑对事件的深度认知和精准归纳


技术实现思路

[0004]鉴于上述问题,本申请实施例提供了一种基于短论元的事件信息抽取方法

装置和产品,以便克服上述问题或者至少部分地解决上述问题

[0005]本申请实施例的第一方面,提供了一种基于短论元的细粒度事件信息抽取方法,包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元

所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表

[0006]在一种可选的实施方式中,所述短论元抽取模型是通过如下步骤训练得到的:获取样本文本和所述样本文本中的多个样本事件论元;对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型

[0007]在一种可选的实施方式中,所述对所述样本事件论元进行拆分,得到样本事件短论元,包括:过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信
息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本

[0008]在一种可选的实施方式中,所述对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词

相关事件和短论元标签;对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签

[0009]在一种可选的实施方式中,所述短论元描述抽取模型是通过如下步骤训练得到的:获取样本文本;定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短论元实体之间的对应关系;利用标注后的样本文本,对预训练模型进行训练,得到所述短论元描述抽取模型

[0010]在一种可选的实施方式中,所述将所述事件短论元

所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,包括:从所述短论元描述中,过滤与所述事件短论元无关的短论元描述;按照所述事件短论元

所述事件短论元对应的触发词和所述短论元描述各自在所述待抽取文本中的位置,将过滤后的短论元描述和所述事件短论元进行一一匹配,生成多个匹配结果;根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表

[0011]在一种可选的实施方式中,所述根据所述事件短论元对应的触发词,对所述多个匹配结果进行递归,得到所述细粒度事件信息列表,包括:针对每个所述事件短论元对应的触发词,从所述多个匹配结果中确定出相关的多个候选匹配结果;将多个所述候选匹配结果进行组合,得到同一事件的一个或多个事件信息;根据各个事件的所述事件信息,生成所述细粒度事件信息列表

[0012]本申请实施例第二方面提出了一种基于短论元的细粒度事件信息抽取装置,所述装置包括:短论元抽取模块,用于利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;描述抽取模块,用于利用短论元描述抽取模型,从所述待抽取文本中抽取得到短
论元描述;所述短论元描述表示所述事件短论元的描述信息;事件信息生成模块,用于将所述事件短论元

所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表

[0013]在一种可选的实施方式中,所述装置还包括短论元抽取模型训练模块,所述短论元抽取模型训练模块,包括:第一样本文本获取子模块,用于获取样本文本和所述样本文本中的多个样本事件论元;第一定义子模块,用于对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;第一标注子模块,用于对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;第一训练子模块,用于利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型

[0014]在一种可选的实施方式中,所述第一定义子模块,包括:第一过滤单元,用于过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;第二过滤单元,用于拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;第三过滤单元,用于在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本

[0015]在一种可选的实施方式中,所述第一标注子模块,包括:短论元标注单元,用于对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词

相关事件和短论元标签;触发词标注单元,用于对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签

[0016]在一种可选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于短论元的细粒度事件信息抽取方法,其特征在于,所述方法包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元

所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表
。2.
根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述短论元抽取模型是通过如下步骤训练得到的:获取样本文本和所述样本文本中的多个样本事件论元;对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型
。3.
根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本事件论元进行拆分,得到样本事件短论元,包括:过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本
。4.
根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词

相关事件和短论元标签;对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签
。5.
根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述短论元描述抽取模型是通过如下步骤训练得到的:获取样本文本;定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短...

【专利技术属性】
技术研发人员:杨国利王圣韩宏伟刘艺白晓颖
申请(专利权)人:北京大数据先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1