一种事件演化知识图谱构建方法、装置、设备及存储介质制造方法及图纸

技术编号:25185464 阅读:11 留言:0更新日期:2020-08-07 21:13
本申请涉及一种事件演化知识图谱构建方法、装置、设备及存储介质,该方法包括:获取新闻的中文新闻报道;从中文新闻报道中提取对应的事件要素,组合成与中文新闻报道对应的中文事件,事件要素包括:事件触发词和事件论元;基于事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。该方法可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。

【技术实现步骤摘要】
一种事件演化知识图谱构建方法、装置、设备及存储介质
本申请涉及自然语言处理
,尤其涉及一种事件演化知识图谱构建方法、装置、设备及存储介质。
技术介绍
事件是信息的一种特定的表现形式,事件抽取是自然语言处理中一个重要的研究方向。从自由文本中识别事件的发生并抽取事件的各元素的任务成为文本信息抽取与挖掘的研究难点。ACE2005(AutomaticContentExtraction2005)将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取。在指定的源语言数据中发现特定类型的事件,并且识别出与事件相关的信息填入先验的事件模板中。目前,事件抽取的研究大多是在ACE英文事件数据集上展开,由于该数据集是英文语料,且只针对特定领域的事件进行抽取,所以,导致事件抽取的领域不易扩展。同时,由于对英文事件的定义较为简单,事件关键要素稀疏,所以无法开展事件抽取的上层研究,上层研究可以包括事件的时序关联、事件的演化与事件的推理分析等。另外,现有技术大多利用无监督的聚类方法或者基于图计算的概率方法对中文事件进行抽取及对演化事件进行研究,由于现有技术难以准确捕捉中文事件间的联系性,所以现有技术针对中文事件研究得到的演化事件间大多关联性较低,因此,导致演化事件的预测过程无意义,演化事件的准确度不高。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种事件演化知识图谱构建方法、装置、设备及存储介质。第一方面,本申请实施例提供了一种事件演化知识图谱构建方法,包括:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。可选的,所述从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,包括:从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件;从所述中文新闻报道的正文中,查找与所述标题的匹配度最高的候选事件句;利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件。可选的,所述从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件,包括:提取所述标题中的事件触发词;在预设的事件表示模式中,将与从所述标题中提取到的事件触发词对应的数据项确定为待补充事件表示内容;从所述标题中,提取与所述待补充事件表示内容中的论元角色对应的事件论元;将提取到的事件论元补充到所述待补充事件表示内容中,得到所述标题级别事件。可选的,所述利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件,包括:在所述标题级别事件中,将空值所在的数据项确定为待补充数据项;将与所述待补充数据项对应的论元角色确定为对照项;将所述候选事件句中的与所述对照项对应的事件论元补充到所述标题级别事件中的所述待补充数据项上,得到所述中文事件。可选的,所述根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱,包括:将所述先验事理关系和多个所述中文事件输入图形数据库;生成所述事件演化知识图谱。可选的,还包括:获取先验事理知识;根据所述先验事理知识生成所述先验事理关系。第二方面,本申请实施例提供了一种事件演化知识图谱构建方法,包括:获取多个事件类型及与每个所述事件类型分别对应的多个子事件类型,及确定与每个所述子事件类型分别对应的初始触发词集合;扩展每个所述初始触发词集合,分别得到扩展后触发词集合;获取与每个所述子事件类型分别对应的论元角色;根据所述事件类型、所述子事件类型、所述扩展后触发词集合和所述论元角色,生成事件表示模式。第三方面,本申请实施例提供了一种事件演化知识图谱构建装置,包括:获取模块、提取模块、关联模块和构建模块;所述获取模块,用于获取新闻的中文新闻报道;所述提取模块,用于从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;所述关联模块,用于基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;所述构建模块,用于根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。第四方面,本申请实施例提供了一种事件演化知识图谱构建设备,包括:处理器、存储器、通信接口和总线;所述处理器、所述存储器与所述通信接口通过所述总线完成相互间的通信;所述通信接口用于外部设备之间的信息传输;所述处理器用于调用所述存储器中的程序指令,以执行如第一方面和第二方面中任一项所述方法的步骤。第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如第一方面和第二方面中任一项所述方法的步骤。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供一种事件演化知识图谱构建方法,该方法包括:获取新闻的中文新闻报道;从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。这样,在确定事件演化知识图谱的过程中使用了先验事理关系,进而可以明确定义演化事件间的演化关系,提高演化事件间的关联度,因此,可以缓解现有技术中存在的演化事件的准确度不高的问题,达到了提高演化事件的准确度的技术效果。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种事件演化知识图谱构建方法的流程图;图2为本申请实施例提供的先验事理关系的示意图;图3为本申请实施例提供的事件演化知识图谱的示意图;图4为本申请实施例提供的一种事件演化知识图谱构建装置的结构示意图;图5为本申请实施例提供的一种本文档来自技高网...

【技术保护点】
1.一种事件演化知识图谱构建方法,其特征在于,包括:/n获取新闻的中文新闻报道;/n从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;/n基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;/n根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。/n

【技术特征摘要】
1.一种事件演化知识图谱构建方法,其特征在于,包括:
获取新闻的中文新闻报道;
从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,所述事件要素包括:事件触发词和事件论元;
基于所述事件要素中的事件论元,针对每个不同新闻,将各自对应的多个不同中文事件进行关联;
根据事件触发词的先验事理关系,构建相关联的多个不同中文事件之间的事件演化知识图谱。


2.根据权利要求1所述的方法,其特征在于,所述从所述中文新闻报道中提取对应的事件要素,组合成与所述中文新闻报道对应的中文事件,包括:
从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件;
从所述中文新闻报道的正文中,查找与所述标题的匹配度最高的候选事件句;
利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件。


3.根据权利要求2所述的方法,其特征在于,所述从所述中文新闻报道的标题中,提取对应的事件要素,组合成与所述中文新闻报道的标题对应的标题级别事件,包括:
提取所述标题中的事件触发词;
在预设的事件表示模式中,将与从所述标题中提取到的事件触发词对应的数据项确定为待补充事件表示内容;
从所述标题中,提取与所述待补充事件表示内容中的论元角色对应的事件论元;
将提取到的事件论元补充到所述待补充事件表示内容中,得到所述标题级别事件。


4.根据权利要求2所述的方法,其特征在于,所述利用从所述候选事件句中提取到的事件要素,对所述标题级别事件中的事件要素进行补充,得到与所述中文新闻报道对应的中文事件,包括:
在所述标题级别事件中,将空值所在的数据项确定为待补充数据项;
将与所述待补充数据项对应的论元角色确定为对照项;
将所述候选事件句中的与所述对照项对应的事件论元补充到所述标题级别事件中的所述待补充数据项上,得到所述中文事件。


5.根据权利要求1...

【专利技术属性】
技术研发人员:贺敏王丽宏毛乾任李晨李熙
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1