一种面向大数据平台的数据扫描方法及系统技术方案

技术编号:39601649 阅读:13 留言:0更新日期:2023-12-03 20:01
一种面向大数据平台的数据扫描方法包括:获取大数据平台待扫描的组件;确实待扫描的组件对应的扫描任务,预设扫描参数,下发扫描任务指令;分析每个扫描任务指令在查询数据集时所覆盖的子集,启动与覆盖的子集数量相同的

【技术实现步骤摘要】
一种面向大数据平台的数据扫描方法及系统



[0001]本专利技术涉及信息安全
,具体涉及一种面向大数据平台的数据扫描方法及系统


技术介绍


[0002]数据是国家

产业

行业和企业的基础性战略资源,是价值巨大的“金矿”。
当前企业数据资产体量不断增大,通过人工手段进行数据资产盘点,工作量大

质量差

效率低,已无法满足未来对数据价值挖掘的需求,具体表现为:企业对数据资产管理混乱,没有清楚地梳理,对于数据分布在哪些位置,关联了哪些业务等情况了解地不够清晰全面,导致数据共享和业务融合工作无法有序推进,信息化工作的创新发展

大数据应用统筹和数据价值的挖掘得不到有效开展

[0003]在大数据平台复杂的实际环境中,数据资产往往规模庞大,分散而不集中,若无法发现数据资产并梳理清晰,则无法满足数据资产科学高效管理需求

大数据平台存储大量数据,亟需掌握数据资产存储和分布位置,梳理数据量级,对大数据平台的数据库表和列进行扫描定位


技术实现思路


[0004]针对上述问题,本专利技术提供了一种面向大数据平台的数据扫描方法及系统,通过
MapReduce
计算框架实现大规模的数据集并行分析,用户可以通过数据扫描任务,对数据库表进行快速扫描识别,达到大数据平台组件中数据定位的目的

[0005]一种面向大数据平台的数据扫描方法,该方法包括以下步骤:
[0006]步骤1:获取大数据平台待扫描的组件;
[0007]步骤2:确认所述待扫描的组件对应的扫描任务,预设扫描参数,并将扫描任务指令下发,针对不同的数据存储类型,可以定义不同的扫描参数,实现了对大数据平台可自定义配置的扫描;
[0008]步骤3:分析所述扫描任务的每个扫描任务指令在查询数据集时所覆盖的子集,启动与所述覆盖的子集数量相同的
MapReduce
进程,可以减少分析任务总体
MapReduce
数量;
[0009]步骤4:扫描获取所述待扫描的组件中的数据库表,及所述数据库表对应的数据字段集合,所述数据字段集合中包含多组数据字段;
[0010]步骤5:分析所述数据字段集合中每组数据字段分别对应的类型和内容;
[0011]步骤6:通过所述预设扫描参数对所述数据字段集合中每组数据字段进行计算,得到所述待扫描的组件对应扫描任务的扫描结果

[0012]优选的,所述大数据平台待扫描的组件包括
HIVE、HBASE、HDFS。
[0013]优选的,所述数据字段为所述待扫描的组件中的数据属性信息

[0014]优选的,所述数据字段的类型至少为:字符串类型

整型

浮点型

时间戳类型

日期类型中的一种

[0015]一种面向大数据平台的数据扫描系统,所述系统包括:大数据扫描配置模块

大数据扫描执行模块

大数据扫描展示模块;其中,所述大数据扫描配置模块用于用于发起大数据组件扫描任务,自定义扫描参数,针对不同的数据存储类型,利用可配置的扫描方法进行数据扫描;向扫描执行模块下发扫描任务指令;大数据扫描执行模块用于执行大数据扫描任务,分析扫描任务指令来启动扫描进程,完成大数据扫描执行功能;大数据扫描展示模块用于查看大数据扫描任务进度,扫描结果更新及展示

[0016]本专利技术提供的一种面向大数据平台的数据扫描方法及系统,获取大数据平台待扫描的组件,通过扫描参数配置及扫描任务执行,获取所述当前任务对应的数据组件库表信息,并确定扫描对象中所有数据对应的数据字段集合,获取数据字段集合中每组数据字段类型及内容,从而确定扫描结果,实现了面向大数据平台数据组件的库表和列的数据扫描,统计数据量级;通过分析每个扫描指令来启动相应数量的扫描进程,可以减少分析任务总体
MapReduce
数量,从而减少任务调度方面的开销与延迟,提升任务整体分析性能,本专利技术实现面向大数据平台的数据扫描,可及时发现大数据平台存储的数据更新变化情况

附图说明

[0017]附图1是本专利技术实施例中一种面向大数据平台的数据扫描方法的流程图

附图2是本专利技术实施例中一中面向大数据平台的数据扫描系统的结构图

具体实施方式

[0018]为了使本专利技术技术方案更容易理解,现用具体实施例的方式,对本专利技术设计的一种面向大数据平台的数据扫描方法进行清晰

完整的描述

[0019]以下结合说明书附图1对本专利技术提供的一种基于
Elasticsearch
的数据脱敏方法进行说明,所述方法具体包括以下步骤:
[0020]步骤
100
:获取大数据平台的待扫描组件,所述大数据平台待扫描的组件包括
HIVE、HBASE、HDFS
,本实施中获取的组件为
HBASE
数据库

[0021]步骤
110
:确认所述待扫描的组件对应的扫描任务,预设扫描参数,并将扫描任务指令下发

[0022]步骤
120
:分析所述扫描任务的每个扫描任务指令在查询数据集时所覆盖的子集,启动与所述覆盖的子集数量相同的
MapReduce
进程,可以减少分析任务总体
MapReduce
数量;在
HBASE
数据库中,数据按照键值
Rowkey
进行划分,形成多个行键区间,每个行键区间作为相应数据表的子集,各个行键区间之间的
Rowkey
值是唯一的,根据数据表内的行键区间划分情况,可确定需要数据表相应的子集信息,根据子集信息,判断扫描任务中包含的扫描指令所覆盖的子集;将每个扫描指令的扫描起止行键与各子集的起止行键进行比较,从而判断每一扫描指令在数据表中对应覆盖的子集

[0023]步骤
130
:扫描获取所述待扫描的组件中的数据库表,及所述数据库表对应的数据字段集合,所述数据字段集合中包含多组数据字段;所述数据字段为所述待扫描的组件中的数据属性信息

[0024]步骤
140
:分析所述数据字段集合中每组数据字段分别对应的类型和内容;所述数据字段的类型至少为:字符串类型

整型

浮点型

时间戳类型

日期类型中的一种

[0025]步骤
150
:通过所述预设扫描参数对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向大数据平台的数据扫描方法,其特征在于,所述方法包括:步骤1:获取大数据平台待扫描的组件;步骤2:确认所述待扫描的组件对应的扫描任务,预设扫描参数,并将扫描任务指令下发;步骤3:分析所述扫描任务的每个扫描任务指令在查询数据集时所覆盖的子集,启动与所述覆盖的子集数量相同的
MapReduce
进程;步骤4:扫描获取所述待扫描的组件中的数据库表,及所述数据库表对应的数据字段集合,所述数据字段集合中包含多组数据字段;步骤5:分析所述数据字段集合中每组数据字段分别对应的类型和内容;步骤6:通过所述预设扫描参数对所述数据字段集合中每组数据字段进行计算,得到所述待扫描的组件对应扫描任务的扫描结果
。2.
如权利要求1所述的一种面向大数据平台的数据扫描方法,其特征在于,所述大数据平台待扫描的组件包括
HIVE、HBASE、HDFS。3.
如权利要求1所述的一种面向大数据平台的数...

【专利技术属性】
技术研发人员:张连新王成伟王靖午
申请(专利权)人:北京中科开明数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1