基于知识图谱的数据服务平台的构建方法及系统技术方案

技术编号:21184510 阅读:23 留言:0更新日期:2019-05-22 15:07
本发明专利技术公开了一种基于知识图谱的数据服务平台的构建方法及系统,包括以下步骤:将多源异构数据进行清洗;针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。本发明专利技术有益效果:面向对象地和灵活地存储数据,充分挖掘非结构化和半结构化数据中蕴藏的知识信息,有助于为后期各种应用领域提供高质量的结构化数据。

Construction Method and System of Data Service Platform Based on Knowledge Map

The invention discloses a construction method and system of a data service platform based on knowledge atlas, which includes the following steps: cleaning multi-source heterogeneous data; querying the cleaned data, generating resource ID through redis; building OWL ontology and managing plug-ins, and storing the data using a determinant database. The invention has the advantages of object-oriented and flexible storage of data, full mining of knowledge information contained in unstructured and semi-structured data, and contributing to providing high-quality structured data for various later application fields.

【技术实现步骤摘要】
基于知识图谱的数据服务平台的构建方法及系统
本专利技术涉及工业物联网
,具体来说,涉及一种基于知识图谱的数据服务平台的构建方法及系统。
技术介绍
知识图谱旨在描述真实世界中存在的各种实体或概念,以及他们之间的关联关系,它的每一个实体用全局唯一确定的ID来标识,就如每个人都有一个身份证号码;第二个就是用属性-值对来刻画实体的内在特性,用关系来连接两个实体,刻画他们之间的关联。信息技术尤其是互联网的飞速发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量,对大数据数据的采集已经不再是技术问题,但其蕴藏的知识大量存在于非结构化的文本数据和大量半结构化的表格和网页以及生产系统的结构化数据中;传统的数据信息存储采用关系型数据库,其设计复杂、冗余度大且查询效率低,无法直接获取数据中需要推理、挖掘的隐性语义信息。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于知识图谱的数据服务平台的构建方法及系统,能够面向对象地和灵活地存储数据,充分挖掘数据中蕴藏的知识信息,有助于为后期各种应用领域提供高质量的结构化数据。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于知识图谱的数据服务平台的构建方法,包括以下步骤:将多源异构数据进行清洗;针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。进一步地,所述将多源异构数据进行清洗包括:针对不同数据源加载ETL插件获取ETL规则,构建实体后获取实体间的关系;调用资源服务子系统获取资源ID;将资源化后的数据生成结构化的数据对象。进一步地,所述将多源异构数据进行清洗之前还包括,利用数据采集客户端采集多源异构数据。进一步地,所述数据采集客户端包括数据获取程序组件、关联ID生成组件、关联ID发送组件和非主动服务响应组件。进一步地,所述针对清洗后的数据进行查询包括利用全文搜索引擎访问全局ID;在图数据库中,根据所述全局ID检索相互关联的实体,返回所有关联ID;在分布式数据存储系统中,根据所述关联ID检索结构化数据,返回相应属性结果。本专利技术的另一方面,提供一种基于知识图谱的数据服务平台的构建系统,包括:数据清洗模块,用于将多源异构数据进行清洗;资源服务子系统模块,用于针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;本体管理模块,用于构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。进一步地,所述数据清洗模块包括:实体构建模块,用于针对不同数据源加载ETL插件获取ETL规则,构建实体后获取实体间的关系;资源化模块,用于调用资源服务子系统获取资源ID;结构化数据对象模块,用于将资源化后的数据生成结构化的数据对象。进一步地,该系统还包括数据采集模块,所述数据采集模块用于利用数据采集客户端采集多源异构数据。进一步地,所述数据采集模块中数据采集客户端包括数据获取程序组件、关联ID生成组件、关联ID发送组件和非主动服务响应组件。进一步地,所述数据查询模块包括全局ID模块,用于利用全文搜索引擎访问全局ID;关联ID模块,用于在图数据库中,根据所述全局ID检索相互关联的实体,返回所有关联ID;结构化数据模块,用于在分布式数据存储系统中,根据所述关联ID检索结构化数据,返回相应属性结果。本专利技术的有益效果:面向对象地和灵活地存储数据,充分挖掘数据中蕴藏的知识信息,有助于为后期各种应用领域提供高质量的结构化数据。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的基于知识图谱的数据服务平台的构建方法的流程图;图2是根据本专利技术实施例所述的基于知识图谱的数据服务平台的构建系统的结构示意图;图3是根据本专利技术实施例所述的基于知识图谱的数据服务平台的构建系统的整体架构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,根据本专利技术实施例所述的一种基于知识图谱的数据服务平台的构建方法,包括以下步骤:将多源异构数据进行清洗;针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;具体的,资源服务子系统,通过redis自生成资源ID,并提供资源服务接口;工业对象数据经过数据采集与数据清洗流程后向全局ID生成模块申请ID,对象获取全局ID后将同步存储至各个存储介质中,以保证关联查询的可能;全局ID生成模块基于Redis数据库的计数器功能实现,能够生成自增的长整型id,同时由于Redis对线程安全的天然支持,保证了实体对象在多线程条件下申请id的唯一性。构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。具体的,本体管理,根据业务需求构建OWL本体,并实现本体的增删改查以及本体的推理,具体步骤为:通过工具把设计的本体转化成owl文件并导入到系统中;实现对本体的修改、查询、删除等功能;实现基于本体的规则推理。插件管理,提供插件的在线升级、热修复等版本管理和插件本体映射管理。数据存储包括实体数据存储和关系数据存储;其中,实体数据存储具体包括:存储系统基于HBase完成对工业实体的存储。HBase是一种分布式的面向列式存储的数据库。HBase的表可以有若干个列簇(family),每个列簇下可存储多个key-value形式的键值对。用行键(Rowkey)标识一行数据,每行数据所包含的键值对的数量可以灵活变化。考虑到HBase分区的负载均衡,本设计中采用全局ID的反转字符串作为HBase表的行键。每一行数据中之存储数据的非空字段以优化空间占用。HBase仅仅实现通过全局ID查询工业实体详情数据的功能,因此无需更多的辅助设计。关系数据存储具体包括:Neo4j是一种图数据库,能够很好的存储不同数据之间存在的关系。在一个Neo4j图中包含两种数据,分别是节点与关系。节点可以有多个键值对形式的属性,关系可以是有向的也可以是无向的。Neo4j对每个节点均分配一个Neo4j中的自带ID。考虑到优化Neo4j中的数据对空间占用的优化,本设计仅利用Neo4j存储实体之间的关系数据而不存储实体的具体属性。具体方法是,将Neo4j中的节点划分为两类:实体对象与维度数据。其中实体对象除了拥有Neo4j自动分配的ID值之外还要另外设置ID属性用于存储该对象对应的全局ID值。维度数据是指不同实体相关联的字段值,如行业类别,产品类别,地理位置等。进一步地,所述将多源异构数据进行清洗包括:针对不同数据源加载ETL插件获取基于条件随机场模型的ETL规则,然后构建实体,得到实体间的关系;其中,条件随机场(con本文档来自技高网...

【技术保护点】
1.一种基于知识图谱的数据服务平台的构建方法,其特征在于,包括以下步骤:将多源异构数据进行清洗;针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。

【技术特征摘要】
1.一种基于知识图谱的数据服务平台的构建方法,其特征在于,包括以下步骤:将多源异构数据进行清洗;针对清洗后的数据进行查询,将查询后的数据通过redis生成资源ID;构建OWL本体并对插件进行管理,将所述数据利用列式数据库进行存储。2.根据权利要求1所述的基于知识图谱的数据服务平台的构建方法,其特征在于,所述将多源异构数据进行清洗包括:针对不同数据源加载ETL插件获取ETL规则,构建实体后获取实体间的关系;调用资源服务子系统获取资源ID;将资源化后的数据生成结构化的数据对象。3.根据权利要求1所述的基于知识图谱的数据服务平台的构建方法,其特征在于,所述将多源异构数据进行清洗之前还包括,利用数据采集客户端采集多源异构数据。4.根据权利要求3所述的基于知识图谱的数据服务平台的构建方法,其特征在于,所述数据采集客户端包括数据获取程序组件、关联ID生成组件、关联ID发送组件和非主动服务响应组件。5.根据权利要求1-4任一项所述的基于知识图谱的数据服务平台的构建方法,其特征在于,所述针对清洗后的数据进行查询包括利用全文搜索引擎访问全局ID;在图数据库中,根据所述全局ID检索相互关联的实体,返回所有关联ID;在分布式数据存储系统中,根据所述关联ID检索结构化数据,返回相应属性结果。6.一种基于知识图谱的数据服务平台的构建系统,其特征在于,包括:数据清洗模块,用于将...

【专利技术属性】
技术研发人员:徐汕梁炬黄文锋张晶亮刘强单酉杨端卫未
申请(专利权)人:北京航天云路有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1