基于知识图谱的分布式多源异构数据管理系统及方法技术方案

技术编号:37636412 阅读:36 留言:0更新日期:2023-05-20 08:56
本发明专利技术公开了一种基于知识图谱的分布式多源异构数据管理系统及方法,属于数据管理领域,包括:与数据生产者和数据消费者进行通信的数据预处理单元,数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。本发明专利技术善于处理多源异构数据,能够在发挥现有各类数据管理系统优势的基础之上,方便、高效的对各类型数据进行统一纳管,实现了分布式环境下数据的统一查询,降低了对原有系统的改造,提高了数据查找的命中率。的命中率。的命中率。

【技术实现步骤摘要】
基于知识图谱的分布式多源异构数据管理系统及方法


[0001]本专利技术涉及数据管理领域,更为具体的,涉及一种基于知识图谱的分布式多源异构数据管理系统及方法。

技术介绍

[0002]随着物联网、云计算以及5G网络等新兴技术的不断发展,全球的数据量正以前所未有的速度累积和增长。2020年全球数据量已增长至惊人的40ZB,预计到2035年新增数据将高达2140ZB,其规模相当于地球沙滩上所有沙粒总和的2000倍,这其中,来自先进传感器采集的数据又占据了全球数据总数的大部分,其数据内容主要包括消息类、图片类、视频类数以及原始信号类等,其主要特征为数据规模大、数据类型丰富、数据语义多样。
[0003]目前,传统的数据管理方式一是基于某种固定的数据格式进行管理,例如关系型数据库主要针对结构化数据进行存储管理,非关系型数据库例如键值对数据库主要针对非结构化数据进行存储管理;二是利用Hadoop、Spark等大数据处理技术对原有数据管理系统进行改造,其改造难度大,花费成本高。同时,现阶段各行业缺乏统一的数据标准,使得大规模数据的统一集成、统一管理成为难本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的分布式多源异构数据管理系统,其特征在于,包括:与数据生产者和数据消费者进行通信的数据预处理单元,所述数据预处理单元包括数据模型对比转换单元和主题订阅发布管理单元;与数据预处理单元内的数据模型对比转换单元和主题订阅发布管理单元相连,以及与数据消费者进行通信的专家知识库;所述专家知识库基于知识图谱;与数据预处理单元中数据模型对比转换单元相连,以及与数据消费者进行通信的基础数据管理单元。2.根据权利要求1所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述数据预处理单元还包括:消息解析单元和数据对象主题提取单元;所述消息解析单元与数据生产者进行通信以及与数据对象主题提取单元相连;所述数据对象主题提取单元与消息解析单元相连,以及与主题订阅发布管理单元相连;所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信;所述数据模型对比转换单元与专家知识库以及基础数据管理单元进行通信。3.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述消息解析单元,用于对收到数据按照数据生产者所定义数据格式进行解析;所述数据对象主题提取单元,用于对解析后数据中的主题信息进行提取,如该数据中无主题信息则通过人工方式进行主题标注;所述数据对象主题提取单元,用于将提取的主题发送至主题订阅发布管理单元,主题订阅发布管理单元对该主题的数据发布请求进行缓存管理;所述主题订阅发布管理单元,用于通过主题向专家知识库发起查找主题请求,若未能找到相关主题,返回查找失败,当新增相关主题以及主题的数据模型后主题发布的流程方能继续,同时主题订阅发布管理单元向专家知识库写入数据生产者与对应主题的关系。4.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述基础数据管理单元包括关系型数据库和文件系统,其中关系型数据库保存结构化的数据,文件系统保存非结构化数据;非结构化数据的地址索引存储在关系型数据库中。5.根据权利要求4所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述专家知识库在所保存维护的知识图谱中查找对应主题预先定义好的数据模型;如果数据生产者发布的数据格式与数据模型格式不一致,则数据预处理单元中的数据模型对比转换单元根据该主题的数据模型对数据进行格式转换;数据预处理单元中的数据模型对比转换单元将转换后的数据存储至基础数据管理单元,基础数据管理单元对数据预处理单元处理后结构化的数据存储至关系型数据库,非结构化的数据存储至文件系统。6.根据权利要求2所述的基于知识图谱的分布式多源异构数据管理系统,其特征在于,所述主题订阅发布管理单元与数据对象主题提取单元以及专家知识库和数据消费者进行通信,具体包括:数据消费者通过主题订阅相关数据;数据预处理单元中主题订阅发布管理单元接收数据消费者发来的订阅主题信息;主题订阅发布管理单元向专家知识库查询订阅主...

【专利技术属性】
技术研发人员:卿宸李鹏罗玲张伟唐鸣跃左力刘学
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1