时序知识图谱生成方法、装置、设备和介质制造方法及图纸

技术编号：24353640 阅读：57 留言：0更新日期：2020-06-03 02:06

本申请实施例公开了一种时序知识图谱生成方法、装置、设备和介质，涉及知识图谱技术，其中，该方法包括：获取包括时间信息的语料；对语料进行多元数据抽取，其中，多元数据包括实体对、实体关系、以及实体关系的目标时间区间，目标时间区间用于表示实体关系有效的期限；基于实体对、实体关系、以及实体关系的目标时间区间，生成时序知识图谱。本申请实施例提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式，对构建时序知识图谱的数据格式进行统一的规范化，提高了知识图谱中知识的时间信息的表达精度。

Generation method, device, equipment and medium of time series knowledge map

全部详细技术资料下载

【技术实现步骤摘要】
时序知识图谱生成方法、装置、设备和介质
本申请实施例涉及计算机技术，具体涉及知识图谱技术，尤其涉及一种时序知识图谱生成方法、装置、设备和介质。
技术介绍
知识图谱是从语义角度用结构化信息表示现实世界知识的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。知识是指知识图谱中关于现实世界的客观事实的描述，通常包括实体对(主体S-客体Opair)与他们之间的关系(P)，以SPO三元组的形式表示。然而，目前通用的知识三元组对知识的时间表达精度不高，只能通过离散时间状态进行简单表示。此外，时间作为一种度量方式，本身是可以进行计算操作的，由于知识的时间表达精度不高，导致知识不支持时间信息的计算。
技术实现思路
本申请实施例公开一种时序知识图谱生成方法、装置、设备和介质，以提出一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式，对构建时序知识图谱的数据格式进行统一的规范化，提高知识图谱中知识的时间信息的表达精度。第一方面，本申请实施例公开了一种时序知识图谱生成方法，包括：获取包括时间信息的语料；对所述语料进行多元数据抽取，其中，所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间，所述目标时间区间用于表示所述实体关系有效的期限；基于所述实体对、实体关系、以及所述实体关系的目标时间区间，生成时序知识图谱。上述申请中的一个实施例具有如下优点或有益效果：提出了一种基于包含时间区间的结构化数据格式生成时序知识图谱的方式，对构建时序知识图谱的数...

【技术保护点】
1.一种时序知识图谱生成方法，其特征在于，包括：/n获取包括时间信息的语料；/n对所述语料进行多元数据抽取，其中，所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间，所述目标时间区间用于表示所述实体关系有效的期限；/n基于所述实体对、实体关系、以及所述实体关系的目标时间区间，生成时序知识图谱。/n

【技术特征摘要】
1.一种时序知识图谱生成方法，其特征在于，包括：
获取包括时间信息的语料；
对所述语料进行多元数据抽取，其中，所述多元数据包括实体对、实体关系、以及所述实体关系的目标时间区间，所述目标时间区间用于表示所述实体关系有效的期限；
基于所述实体对、实体关系、以及所述实体关系的目标时间区间，生成时序知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述实体关系的目标时间区间的抽取过程包括：
通过所述多元数据抽取，得到所述实体关系的多个时间区间；
对所述多个时间区间进行融合处理，得到所述目标时间区间。

3.根据权利要求2所述的方法，其特征在于，对所述多个时间区间进行融合处理，得到所述目标时间区间，包括：
按照所述多个时间区间中每个时间区间的置信度，对所述多个时间区间进行筛选；
按照时间顺序对筛选后的时间区间进行整合，得到所述目标时间区间。

4.根据权利要求3所述的方法，其特征在于，按照所述多个时间区间中每个时间区间的置信度，对所述多个时间区间进行筛选，包括：
统计所述多个时间区间中每个时间区间对应的数据源在所述语料中的数量；
根据所述数量，确定每个时间区间的置信度；
按照所述置信度，对所述多个时间区间进行筛选。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
确定所述目标时间区间的时间起点和时间终点是否存在空值；
如果存在空值，则利用与当前语料不同来源的候选语料，确定所述空值的有效性。

6.根据权利要求1所述的方法，其特征在于，对所述语料进行多元数据抽取，包括：
利用预先训练的特征提取模型，对所述语料中的每个语句进行特征提取；
基于每个语句的提取特征，对每个语句中的词语进行分类标注，得到所述多元数据。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：
利用训练语料集和所述训练语料集中每个语句的多元数据标记结果，训练得到多元数据抽取模型，使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。

8.根据权利要求1所述的方法，其特征在于，对所述语料进行多元数据抽取，包括：
分析所述语料中文本的主题或文本结构；
如果所述文本的主题属于预设主...

【专利技术属性】
技术研发人员：黄昉，李双婕，史亚冰，蒋烨，张扬，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人