时序知识图谱生成方法、装置、设备和介质制造方法及图纸

技术编号:24353640 阅读:47 留言:0更新日期:2020-06-03 02:06
本申请实施例公开了一种时序知识图谱生成方法、装置、设备和介质,涉及知识图谱技术,其中,该方法包括:获取包括时间信息的语料;对语料进行多元数据抽取,其中,多元数据包括实体对、实体关系、以及实体关系的目标时间区间,目标时间区间用于表示实体关系有效的期限;基于实体对、实体关系、以及实体关系的目标时间区间,生成时序知识图谱。本申请实施例提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行统一的规范化,提高了知识图谱中知识的时间信息的表达精度。

Generation method, device, equipment and medium of time series knowledge map

【技术实现步骤摘要】
时序知识图谱生成方法、装置、设备和介质
本申请实施例涉及计算机技术,具体涉及知识图谱技术,尤其涉及一种时序知识图谱生成方法、装置、设备和介质。
技术介绍
知识图谱是从语义角度用结构化信息表示现实世界知识的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识是指知识图谱中关于现实世界的客观事实的描述,通常包括实体对(主体S-客体Opair)与他们之间的关系(P),以SPO三元组的形式表示。然而,目前通用的知识三元组对知识的时间表达精度不高,只能通过离散时间状态进行简单表示。此外,时间作为一种度量方式,本身是可以进行计算操作的,由于知识的时间表达精度不高,导致知识不支持时间信息的计算。
技术实现思路
本申请实施例公开一种时序知识图谱生成方法、装置、设备和介质,以提出一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行统一的规范化,提高知识图谱中知识的时间信息的表达精度。第一方面,本申请实施例公开了一种时序知识图谱生成方法,包括:获取包括时间信息的语料;对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。上述申请中的一个实施例具有如下优点或有益效果:提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算。可选的,所述实体关系的目标时间区间的抽取过程包括:通过所述多元数据抽取,得到所述实体关系的多个时间区间;对所述多个时间区间进行融合处理,得到所述目标时间区间。上述申请中的一个实施例具有如下优点或有益效果:确保了时序知识图谱中各实体关系的有效时间区间的准确性和完整性。可选的,对所述多个时间区间进行融合处理,得到所述目标时间区间,包括:按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选;按照时间顺序对筛选后的时间区间进行整合,得到所述目标时间区间。可选的,按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选,包括:统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量;根据所述数量,确定每个时间区间的置信度;按照所述置信度,对所述多个时间区间进行筛选。可选的,所述方法还包括:确定所述目标时间区间的时间起点和时间终点是否存在空值;如果存在空值,则利用与当前语料不同来源的候选语料,确定所述空值的有效性。可选的,对所述语料进行多元数据抽取,包括:利用预先训练的特征提取模型,对所述语料中的每个语句进行特征提取;基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到所述多元数据。可选的,所述方法还包括:利用训练语料集和所述训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。可选的,对所述语料进行多元数据抽取,包括:分析所述语料中文本的主题或文本结构;如果所述文本的主题属于预设主题,或者所述文本结构属于预设文本结构,则采用不同的数据抽取方式抽取所述多元数据。上述申请中的一个实施例具有如下优点或有益效果:本实施例方案支持按照语料中文本结构和文本主题,采用不同的知识抽取方式对多元数据中的各数据进行灵活的区分抽取,有助于提高知识抽取的效率和准确性。可选的,所述采用不同的数据抽取方式抽取所述多元数据,包括:按照预设关系抽取方式从所述文本的语句中抽取所述实体关系,其中,所述预设关系抽取方式是指基于知识抽取需求而预先定义的确定实体关系的方式;通过对所述文本中的语句进行特征提取与词语分类标注,得到所述实体对、以及所述实体关系的目标时间区间。可选的,在对所述语料进行多元数据抽取之后,所述方法还包括:按照知识抽取需求,对所述抽取的实体对中的任一论元和所述抽取的实体关系进行消歧;对消歧后的实体对和消歧后的实体关系进行融合。上述申请中的一个实施例具有如下优点或有益效果:通过知识消歧和知识融合等后处理操作,可以提高用于构建时序知识图谱的多元数据的表达准确性和知识的全面性。可选的,所述获取包括时间信息的语料,包括:通过对所述时间信息的识别,得到包括所述时间信息的语料;其中,所述时间信息包括语料正文记载的时间、语料数据的推送时间、语料数据的更新时间、以及基于语料来源间接获取的时间。上述申请中的一个实施例具有如下优点或有益效果:通过按照时间信息筛选用于当前知识抽取的语料,确保了可用语料的针对性和语料质量,进而提高了知识抽取的效率。可选的,所述多元数据采用五元组数据形式,分别包括主体、实体关系、客体、关系生效时间起点、关系失效时间终点。第二方面,本申请实施例还公开了一种时序知识图谱生成装置,包括:语料获取模块,用于获取包括时间信息的语料;数据抽取模块,用于对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;图谱生成模块,用于基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。第三方面,本申请实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例任一所述的时序知识图谱生成方法。第四方面,本申请实施例还公开了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例任一所述的时序知识图谱生成方法。根据本申请实施例的技术方案,通过同时抽取实体对、实体关系、以及实体关系的目标时间区间,提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式,对构建时序知识图谱的数据格式进行了统一的规范化,使得时序知识图谱中可以准确的表达每个实体对的实体关系的有效期限,解决了现有技术中知识图谱中的时间信息表达精度较低的问题,提高了时间信息的表达精度,并且基于实体关系的时间区间,可以支持时间维度的知识计算,提高了对时序知识的灵活使用;并且,使得时序知识图谱能够支持更丰富的需要提供知识信息的场景。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的本文档来自技高网...

【技术保护点】
1.一种时序知识图谱生成方法,其特征在于,包括:/n获取包括时间信息的语料;/n对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;/n基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。/n

【技术特征摘要】
1.一种时序知识图谱生成方法,其特征在于,包括:
获取包括时间信息的语料;
对所述语料进行多元数据抽取,其中,所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间,所述目标时间区间用于表示所述实体关系有效的期限;
基于所述实体对、实体关系、以及所述实体关系的目标时间区间,生成时序知识图谱。


2.根据权利要求1所述的方法,其特征在于,所述实体关系的目标时间区间的抽取过程包括:
通过所述多元数据抽取,得到所述实体关系的多个时间区间;
对所述多个时间区间进行融合处理,得到所述目标时间区间。


3.根据权利要求2所述的方法,其特征在于,对所述多个时间区间进行融合处理,得到所述目标时间区间,包括:
按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选;
按照时间顺序对筛选后的时间区间进行整合,得到所述目标时间区间。


4.根据权利要求3所述的方法,其特征在于,按照所述多个时间区间中每个时间区间的置信度,对所述多个时间区间进行筛选,包括:
统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量;
根据所述数量,确定每个时间区间的置信度;
按照所述置信度,对所述多个时间区间进行筛选。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述目标时间区间的时间起点和时间终点是否存在空值;
如果存在空值,则利用与当前语料不同来源的候选语料,确定所述空值的有效性。


6.根据权利要求1所述的方法,其特征在于,对所述语料进行多元数据抽取,包括:
利用预先训练的特征提取模型,对所述语料中的每个语句进行特征提取;
基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到所述多元数据。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
利用训练语料集和所述训练语料集中每个语句的多元数据标记结果,训练得到多元数据抽取模型,使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。


8.根据权利要求1所述的方法,其特征在于,对所述语料进行多元数据抽取,包括:
分析所述语料中文本的主题或文本结构;
如果所述文本的主题属于预设主...

【专利技术属性】
技术研发人员:黄昉李双婕史亚冰蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1