一种基于元数据的时空大数据管理方法技术

技术编号:32123447 阅读:26 留言:0更新日期:2022-01-29 19:10
本发明专利技术涉及数字信息数据处理技术领域,具体涉及一种基于元数据的时空大数据管理方法,建立时空数据业务元数据库;基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中;将数据仓库分析系统数据表中的数据导入至数据管理系统;通过数据管理系统获取元数据之间的关联关系并进行图形可视化,实现数据共享,数据高效存储、索引,元数据血缘关系可视化等功能,解决了传统的数据治理已经不能满足实时更新海量时空数据的要求的问题。不能满足实时更新海量时空数据的要求的问题。不能满足实时更新海量时空数据的要求的问题。

【技术实现步骤摘要】
一种基于元数据的时空大数据管理方法


[0001]本专利技术涉及数字信息数据处理
,尤其涉及一种基于元数据的时空大数据管理方法。

技术介绍

[0002]时空大数据是时空数据与时空数据的融合。时空大数据具有多源异构、海量、更新速度快等特点,因此对时空数据治理才能实现数据共享,数据的合理、高效利用,数据的高效存储、查询等;才能有效发挥时空大数据的真正价值。
[0003]传统的数据存储不足以支撑大规模的数据存储,数据管理无法实现数据之间关系的可视化,不能够满足用户索引数据的要求等问题;
[0004]为此传统的数据治理已经不能满足实时更新海量时空数据的要求,具有局限性。

技术实现思路

[0005]本专利技术的目的在于提供一种基于元数据的时空大数据管理方法,旨在解决传统的数据治理已经不能满足实时更新海量时空数据的要求的问题。
[0006]为实现上述目的,本专利技术提供了一种基于元数据的时空大数据管理方法,包括:
[0007]建立时空数据业务元数据库;
[0008]基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中;
[0009]将数据仓库分析系统数据表中的数据导入至数据管理系统;
[0010]通过数据管理系统获取元数据之间的关联关系并进行图形可视化。
[0011]其中,基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中的具体方式为:
[0012]基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集;
[0013]基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中。
[0014]其中,基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的具体方式为:
[0015]将数据库元数据进行分块;
[0016]对每个分块数据进行扫描,统计局部候项集,再计算局部候选项集频数;
[0017]将局部候选项集中的频数相加,并根据大小进行排序得到全局候选项集后输出结果;
[0018]将输出结果作为输入,计算并合并满足最小支持度的局部候选项集,将不满足最小支持度的项集进行剪枝,得到全局频繁项集。
[0019]其中,基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中的具体方式为:
[0020]将数据库元数据进行切分,并以键值对的形式表示;
[0021]将键值对扫描后调用生成关联规则的函数,产生与频繁项集对应的规则并以键值对的形式输出结果;
[0022]规约输出结果,以键值对的形式储存至数据仓库分析系统数据表中。
[0023]其中,通过数据管理系统获取元数据之间的关联关系并进行图形可视化的具体方式为:
[0024]配置钩子;
[0025]通过钩子感知数据仓库分析系统数据表的更新数据操作;
[0026]将更新的数据发送至数据管理系统;
[0027]数据管理系统对数据进行修改,获得元数据之间的血缘关系图形。
[0028]本专利技术的一种基于元数据的时空大数据管理方法,通过建立时空数据业务元数据库;基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中;将数据仓库分析系统数据表中的数据导入至数据管理系统;通过数据管理系统获取元数据之间的关联关系并进行图形可视化,实现数据共享,数据高效存储、索引,元数据血缘关系可视化等功能,基于元数据的管理可以通过从元数据的解析融合、生命周期管理以及变更管理等入手,实现血缘分析、影响分析、可视化等功能,解决了传统的数据治理已经不能满足实时更新海量时空数据的要求的问题。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本专利技术提供的一种基于元数据的时空大数据管理方法的流程图;
[0031]图2是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中的具体流程图;
[0032]图3是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的具体流程图;
[0033]图4是;基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中的具体流程图;
[0034]图5是通过数据管理系统获取元数据之间的关联关系并进行图形可视化的具体流程图;
[0035]图6是基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的工作原理图。
具体实施方式
[0036]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0037]请参阅图1至图6,本专利技术提供一种基于元数据的时空大数据管理方法,包括:
[0038]S1、建立时空数据业务元数据库;
[0039]所述的业务元数据表结构具体包括基础字段和深度字段,所述基础字段主要包括空间数据的类别、名称等属性,所述深度字段主要包括时空数据的合集以及对应的数据字典表。
[0040]S2、基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中;
[0041]所述并行化计算框架为MapReduce并行化计算框架,所述关联规则挖掘算法为Apriori的关联规则挖掘算法,数据仓库分析系统为Hive,数据管理系统为Atlas,通过改进的Apriori算法抽取位置服务元数据之间的隐含关联关系,将其输出的键值对存储于所述数据仓库分析系统(Hive)数据表中,由于Hive是建立在Hadopp之上的,所以Hive的数据都是存储在HDFS中的,解决了海量时空数据的存储、索引等问题,改进的Apriori算法将传统的apriori算法在MapReduce框架下进行并行化改进,改善了处理大规模时空元数据集时内存消耗大、时间消耗高的问题,所述Apriori的关联规则挖掘算法的核心思想:
[0042]首先扫描数据集,统计数据集中事务的数量,并找出一维频繁项集,根据最小支持度(minsupport)获得所有的频繁项集,然后一直迭代,直到不能发现新的多维频繁项集为止。要求找到不小于最小支持度(minsupport)和置信度(confidence)的数据集;
[0043]所述置信度计算公式:其中,X,Y是事件对象。
[0044本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元数据的时空大数据管理方法,其特征在于,包括:建立时空数据业务元数据库;基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中;将数据仓库分析系统数据表中的数据导入至数据管理系统;通过数据管理系统获取元数据之间的关联关系并进行图形可视化。2.如权利要求1所述的基于元数据的时空大数据管理方法,其特征在于,基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理,并将处理后的元数据存入到数据仓库分析系统数据表中的具体方式为:基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集;基于生成关联规则将处理后的元数据存入到数据仓库分析系统数据表中将处理后的元数据存入到数据仓库分析系统数据表中。3.如权利要求2所述的基于元数据的时空大数据管理方法,其特征在于,基于并行化计算框架引入关联规则挖掘算法对数据库元数据进行预处理生成频繁项集的具体方式为:将数据库元数据进行分块;对每个分块数...

【专利技术属性】
技术研发人员:黄建华殷文君纪元法张姚乔政涵
申请(专利权)人:桂林电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1