【技术实现步骤摘要】
构建行业知识图谱的多源数据和时间序列处理方法及装置
本专利技术属于知识图谱
,具体涉及一种构建行业知识图谱的多源数据和时间序列处理方法及装置。
技术介绍
在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,多源异构数据难以融合的问题日益凸显,数据关联显得尤其重要,如果缺乏联系,会形成信息孤岛,使得对大数据进行处理和分析时,局限于某一小的区域内而不能挖掘出更有价值的信息。近年来,知识图谱作为一种新的知识表示方法和数据管理模式,建立真实世界中存在的各种实体或概念及其关系,实现不同数据源的数据整合。对于垂直领域的知识图谱来说,数据源主要包括三种:一是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;二是网络上公开、抓取的数据,这部分数据通常是以网页形式存在的半结构化数据;三是纯文本资料、图像和视频等非结构化数据。理论上凭借知识图谱可解决多源异构数据的抽取、融合与存储问题,但对于垂直领域的知识图谱目前缺乏有效的多源数据处理方法,一些有名的领域知识库大多是领域专家手工构建的,虽然质量高 ...
【技术保护点】
1.一种构建行业知识图谱的多源数据和时间序列处理方法,其特征在于所述处理方法包括以下步骤:/n(S1)构建知识图谱的本体层,包括本体、本体属性以及本体关系;/n(S2)从多个数据源中抽取实体和实体属性,并对实体进行不一致性检验;/n(S3)对各实体的实体属性进行不一致性检验;/n(S4)实体之间的实体关系继承实体所对应的本体之间的本体关系;/n(S5)建立知识图谱数据库与时间序列数据库的索引。/n
【技术特征摘要】
1.一种构建行业知识图谱的多源数据和时间序列处理方法,其特征在于所述处理方法包括以下步骤:
(S1)构建知识图谱的本体层,包括本体、本体属性以及本体关系;
(S2)从多个数据源中抽取实体和实体属性,并对实体进行不一致性检验;
(S3)对各实体的实体属性进行不一致性检验;
(S4)实体之间的实体关系继承实体所对应的本体之间的本体关系;
(S5)建立知识图谱数据库与时间序列数据库的索引。
2.根据权利要求1所述的一种构建行业知识图谱的多源数据和时间序列处理方法,其特征在于步骤(S2)包括以下步骤:
(a)针对已有数据库中的结构化数据,进行结构化解析,提取实体和实体属性并存储至关系型数据库中;
针对来源于文档和图纸的半结构化数据和非结构化数据,创建具有固定格式和固定存储地址的标准数据表,所述固定格式包括实体及实体属性,根据所述固定存储地址将所述标准数据表定向联动存储至所述关系型数据库中;
针对来源于互联网上的半结构化或非结构化数据,通过爬虫技术进行采集、处理成结构化数据,提取实体和实体属性并存储至所述关系型数据库中;
(b)建立实体标准命名表,每个存储入所述关系型数据库中的实体遍历所述实体标准命名表,如所述实体标准命名表中不存在则报错并进行修改;在所述关系型数据库中预先设置实体的字段组的唯一性,所述字段组为单个字段或多个字段,在实体的字段组通过唯一性检测之后再存储入所述关系型数据库中。
3.根据权利要求2所述的一种构建行业知识图谱的多源数据和时间序列处理方法,其特征在于步骤(S3)包括以下步骤:
从所述关系型数据库中将每个本体相应的实体抽取并存储至知识图谱数据库中,将实体具备的与本体的本体属性相同的实体属性抽取至所述知识图谱数据库...
【专利技术属性】
技术研发人员:杜续,苏辉,张静,许丽萍,杨石飞,雷丹,
申请(专利权)人:上海勘察设计研究院集团有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。