【技术实现步骤摘要】
一种基于短论元的细粒度事件信息抽取方法、装置和产品
[0001]本申请涉及知识工程信息抽取
,特别是一种基于短论元的细粒度事件信息抽取方法
、
装置和产品
。
技术介绍
[0002]事件抽取是信息抽取中的关键任务,是指从自然语言文本中抽取事件信息并将其以结构化的形式呈现出来,以供后续的分析应用,在自动摘要
、
自动问答
、
信息检索等领域有着广泛的应用
。
在事件抽取过程中,需要进行事件触发词检测及论元检测,即判断事件的事件类型以及该事件对应的事件要素
。
[0003]然而,现有的信息抽取方法过于简单,无法满足针对复杂事件的细粒度信息抽取要求,即对于较为复杂的事件描述文本,难以抽取得到清楚准确具体的事件信息
。
因此,有必要开发一种基于短论元的细粒度事件信息抽取方法
、
装置和产品,以提高对事件信息的抽取效果,以得到更为准确,结构更为清晰的事件信息,支撑对事件的深度认知和精准归纳
。
技术实现思路
[0004]鉴于上述问题,本申请实施例提供了一种基于短论元的事件信息抽取方法
、
装置和产品,以便克服上述问题或者至少部分地解决上述问题
。
[0005]本申请实施例的第一方面,提供了一种基于短论元的细粒度事件信息抽取方法,包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描 ...
【技术保护点】
【技术特征摘要】
1.
一种基于短论元的细粒度事件信息抽取方法,其特征在于,所述方法包括:利用短论元抽取模型,从待抽取文本中抽取得到事件短论元和所述事件短论元对应的触发词,所述事件短论元表示事件论元中去除描述信息后的实体论元;利用短论元描述抽取模型,从所述待抽取文本中抽取得到短论元描述;所述短论元描述表示所述事件短论元的描述信息;将所述事件短论元
、
所述事件短论元对应的触发词和所述短论元描述进行匹配和递归,得到细粒度事件信息列表
。2.
根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述短论元抽取模型是通过如下步骤训练得到的:获取样本文本和所述样本文本中的多个样本事件论元;对所述样本事件论元进行拆分,得到样本事件短论元,所述样本事件短论元表示与事件直接相关的实体论元;对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注;利用标注后的样本文本,对预训练模型进行训练,得到所述短论元抽取模型
。3.
根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本事件论元进行拆分,得到样本事件短论元,包括:过滤所述样本事件论元中与所述样本触发词无关的样本事件论元;拆分并过滤所述样本事件论元中的远距离实体描述信息;所述远距离实体描述信息表示在文本中的位置与实体存在距离,但在语义信息中用于对该实体进行描述的文本信息;在所述样本事件论元为复合描述型实体的情况下,拆分并过滤所述样本事件论元中的复合描述信息,得到所述样本事件短论元,所述复合描述型实体表示实体信息与多个描述信息以组合词的形式存在的文本
。4.
根据权利要求2所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述对所述样本文本中的每个所述样本事件短论元和样本触发词进行标注,包括:对所述样本文本中的每个所述样本事件短论元,标注该样本事件短论元对应的样本触发词
、
相关事件和短论元标签;对所述样本文本中的每个所述样本触发词,标注该样本触发词对应的相关事件和触发词标签
。5.
根据权利要求1所述的基于短论元的细粒度事件信息抽取方法,其特征在于,所述短论元描述抽取模型是通过如下步骤训练得到的:获取样本文本;定义所述样本文本中的样本短论元描述和样本短论元实体,所述样本短论元描述包括复合类型描述和远距离描述;在所述样本文本中,标注出每一对所述样本短论元描述和所述样本短...
【专利技术属性】
技术研发人员:杨国利,王圣,韩宏伟,刘艺,白晓颖,
申请(专利权)人:北京大数据先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。