一种大数据处理预览的方法技术

技术编号:39505209 阅读:8 留言:0更新日期:2023-11-24 11:37
本发明专利技术提供了一种大数据处理预览的方法,包括:步骤1,在预处理配置环境中打开需要做清洗和转换配置的数据表并预览;步骤2,在数据表所在的存算引擎中创建一张空表,称为配置预览表;将步骤1预览的数据从数据表导入到配置预览表中,确保步骤1预览看到的数据与配置预览表中的数据完全相同;步骤3,在数据预览的基础上,给需要清洗和转换配置的数据按列配置转换规则;步骤4,将配置的转换规则应用到步骤2创建的配置预览表中;步骤5,提取配置预览表中所配置列经过转换处理的结果数据,呈现在用户页面上

【技术实现步骤摘要】
一种大数据处理预览的方法


[0001]本专利技术涉及一种大数据处理预览的方法


技术介绍

[0002]在大数据领域,为在数据处理前实现预览效果,实现所见即所得的数据清洗和转换配置,可以在数据处理前从大数据存储和计算引擎
(
以下简称存算引擎
)
中采样预览数据,以查看当前数据的分布和质量状况,根据看到的结果,采用对应的处理手段开展数据的清洗和转换,为了保证处理结果正确,一种好的思路是对处理手段先做验证确认,也就是数据清洗和转换的预览,现有技术方案通过对采样到内存中的预览数据,基于内存计算而不是存算引擎
(
如数据库
)
实现数据清洗和转换结果的预览,与实际的存算引擎的结算可能存在差异,导致最终清洗和转换的结果错误


技术实现思路

[0003]专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种大数据处理预览的方法,实现引擎相关的数据清洗和转换结果预览,保障所见即所得的数据清洗和转换配置正确有效

本专利技术方法包括如下步骤:
[0004]步骤1,在预处理配置环境中打开需要做清洗和转换配置的数据表
(
即原始表
)
,并预览;所述数据表存储在存算引擎中;
[0005]步骤2,在预览数据的同时,在数据表所在的存算引擎中创建一张空表,称为配置预览表,配置预览表的表结构与数据表相同,同时将步骤1预览的数据从数据表导入到配置预览表中,确保步骤1预览看到的数据与配置预览表中的数据完全相同;
[0006]步骤3,在数据预览的基础上,给需要清洗和转换配置的数据
(
即原始表中的全部数据
)
按列配置转换规则;
[0007]步骤4,将配置的转换规则应用到步骤2创建的配置预览表中;
[0008]步骤5,提取配置预览表中所配置列经过转换处理的结果数据,呈现在用户页面上

[0009]步骤1中,根据预先配置的采样算法自动从存算引擎的数据表中采样部分数据,并预览

[0010]步骤1中,所述采样算法自动从存算引擎的数据表中采样前
N

(
如前
1000

)
数据

[0011]本专利技术的另一实施方式中,步骤1中,所述采样算法自动从存算引擎的数据表中随机采样
N

(
比如
N
取值为
1000)
数据

[0012]步骤1中,所述存算引擎为关系型数据库,如
mysql、oracle。
[0013]本专利技术的另一实施方式中,步骤1中,所述存算引擎为大数据平台,如
hadoop


[0014]步骤4中,根据数据表所在的存算引擎的类型,生成对所配置的列数据的处理指令,下发到存算引擎中,并对配置预览表中的数据做转换处理

[0015]本专利技术还提供了一种存储介质,存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现所述一种大数据处理预览的方法

[0016]有益效果:在大数据清洗转换的场景,通过对待处理的数据表实现相同引擎的孪生预处理,即最大限度模拟真实处理环境,保证了最终的大数据加工处理的结果与预处理时的一致性,解决了现有技术不足带来的不可预知的数据处理问题

附图说明
[0017]下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述和
/
或其他方面的优点将会变得更加清楚

[0018]图1是需要做清洗和转换配置的数据表示意图

[0019]图2是给需要清洗和转换的数据按列配置转换规则示意图

具体实施方式
[0020]本专利技术提供了一种大数据处理预览的方法,包括如下步骤:
[0021]步骤1,在预处理配置环境中打开需要做清洗和转换配置的数据表
(
即原始表
)
,并预览;所述数据表存储在存算引擎中;
[0022]步骤2,在预览数据的同时,在数据表所在的存算引擎中创建一张空表,称为配置预览表,配置预览表的表结构与数据表相同,同时将步骤1预览的数据从数据表导入到配置预览表中,确保步骤1预览看到的数据与配置预览表中的数据完全相同;
[0023]步骤3,在数据预览的基础上,给需要清洗和转换配置的数据
(
即原始表中的全部数据
)
按列配置转换规则;
[0024]步骤4,将配置的转换规则应用到步骤2创建的配置预览表中;
[0025]步骤5,提取配置预览表中所配置列经过转换处理的结果数据,呈现在用户页面上

[0026]步骤1中,根据预先配置的采样算法自动从存算引擎的数据表中采样部分数据,并预览

[0027]步骤1中,所述采样算法自动从存算引擎的数据表中采样前
N

(
如前
1000

)
数据

[0028]本专利技术的另一实施方式中,步骤1中,所述采样算法自动从存算引擎的数据表中随机采样
N

(
比如
N
取值为
1000)
数据

[0029]步骤1中,所述存算引擎为关系型数据库,如
mysql、oracle。
[0030]本专利技术的另一实施方式中,步骤1中,所述存算引擎为大数据平台,如
hadoop


[0031]步骤4中,根据数据表所在的存算引擎的类型,生成对所配置的列数据的处理指令,下发到存算引擎中,并对配置预览表中的数据做转换处理

[0032]本专利技术还提供了一种存储介质,存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现所述一种大数据处理预览的方法

[0033]实施例
[0034]本实施例提供了一种大数据处理预览的方法,包括如下步骤:
[0035]步骤1,在预处理配置环境中打开需要做清洗和转换配置的数据表
(
这个数据表在
某个存算引擎中,可以是关系型数据库,如
mysql、oracle
,也可以是大数据平台,如
hadoop
等,数据量可能为几千万到几亿条
)
,系统根据预先配置的采样算法自动从存算引擎中采样数据,并预览,如图1所示;
[0036]步骤2,在预览数据的同时,在数据表所在的存算引擎中创建一张空表,称为配置预览表,表名可以为原表名
+
后缀“ConfigPreview”,表结构与上述数据表相同,同时将上述相同的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大数据处理预览的方法,其特征在于,包括以下步骤:步骤1,在预处理配置环境中打开需要做清洗和转换配置的数据表,并预览;所述数据表存储在存算引擎中;步骤2,在预览数据的同时,在数据表所在的存算引擎中创建一张空表,称为配置预览表,配置预览表的表结构与数据表相同,同时将步骤1预览的数据从数据表导入到配置预览表中,确保步骤1预览看到的数据与配置预览表中的数据完全相同;步骤3,在数据预览的基础上,给需要清洗和转换配置的数据按列配置转换规则;步骤4,将配置的转换规则应用到步骤2创建的配置预览表中;步骤5,提取配置预览表中所配置列经过转换处理的结果数据,呈现在用户页面上
。2.
根据权利要求1所述的方法,其特征在于,步骤1中,根据预先配置的采样算法自动从存算引擎的数据表中采样部分数据,并预览
。3.
根据权利要求2所述的方法,其特征在于,步骤1中,所述采样算法自...

【专利技术属性】
技术研发人员:章海锋
申请(专利权)人:江苏数兑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1