一种大数据处理方法及装置制造方法及图纸

技术编号:17248590 阅读:27 留言:0更新日期:2018-02-11 06:47
本发明专利技术公开了一种大数据处理方法及装置,用以简单、快速、完整的反映数据的数据形态。该方法包括:获取待处理的目标数据,获取预先制定的数据形态关键指标,数据形态关键指标包括数据的自身属性信息,根据预先制定的数据形态关键指标确定待处理的目标数据的数据形态。上述技术方案,用关键指标来反映某一部分数据的数据形态,从而可以简单、快速、完整的反映数据的数据形态。

【技术实现步骤摘要】
一种大数据处理方法及装置
本专利技术涉及大数据
,特别涉及一种大数据处理方法及装置。
技术介绍
在现有的大数据表中,数据非常丰富多样,且数据量庞大,从十几万到几百万甚至上亿都是有可能的,我们常有这样的需求,想知道某张表里的数据是长什么样子,便于进行数据的分析和应用,比如,数仓底层建模是数据分析的基石,建模的时候如何发现垃圾数据;数据应用的过程中,如果直接需要从大数据表里取数,对数据格式的要求十分严格,比如展示的字段长度、样式,或者是否允许有null值,1条没有处理到位的数据很可能就会让应用到数据的系统崩溃;定数据清洗需求和方案的时候,也必须摸清楚表里的数据大概是什么样子;通过这张表里的数据的异常,比如某个字段大部分为0,或者某个字段多出一个枚举值,来发现业务上、系统上的问题。目前一般只能通过数据量,或者通过某些业务逻辑,抽样一些数据,大致地估计表里的数据形态。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种大数据处理方法及装置。用以简单、快速、完整的反映数据的数据形态。本专利技术提供一种大数据处理方法,包括:获取待处理的目标数据;获取预先制定的数据形态关键指标,所述数据形态关键指标包括数据的自身属性信息;根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态。在一个实施例中,所述方法还可包括:将所述待处理的目标数据写入一张预定数据表中。在一个实施例中,所述根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态,可包括:接收输入的所述预定数据表的表名;根据所述预先制定的数据形态关键指标对所述预定数据表进行清洗,获得所述预定数据表中的目标数据的数据形态。在一个实施例中,所述根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态,还可包括:接收输入的所述预设数据表的待处理分区和/或接收输入的一个或多个待计算枚举值的字段。在一个实施例中,所述预先制定的数据形态关键指标可包括但不局限于以下指标中的一项或多项:所述预定数据表的数据量、所述预定数据表的一个或多个分区的数据量、指定复合主键的数据量、字段去重后的个数、字段的值为NULL的个数、字段值的最大值、字段值的最小值、字段值中最大长度、字段值中最小长度、指定字段的计算结果、字段中值为0的个数、字段中值为0的个数与整张表的数据量的百分比以及字段中值为NULL的个数与整张表的数据量的百分比。本专利技术还提供一种大数据处理装置,包括:第一获取模块,用于获取待处理的目标数据;第二获取模块,用于获取预先制定的数据形态关键指标,所述数据形态关键指标包括数据的自身属性信息;确定模块,用于根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态。在一个实施例中,所述装置还可包括:写入模块,用于将所述待处理的目标数据写入一张预定数据表中。在一个实施例中,所述确定模块,可包括:第一接收子模块,用于接收输入的所述预定数据表的表名;清洗子模块,用于根据所述预先制定的数据形态关键指标对所述预定数据表进行清洗,获得所述预定数据表中的目标数据的数据形态。在一个实施例中,所述确定模块,还可包括:第二接收子模块,用于接收输入的所述预设数据表的待处理分区和/或接收输入的一个或多个待计算枚举值的字段。在一个实施例中,所述预先制定的数据形态关键指标可包括但不局限于以下指标中的一项或多项:所述预定数据表的数据量、所述预定数据表的一个或多个分区的数据量、指定复合主键的数据量、字段去重后的个数、字段的值为NULL的个数、字段值的最大值、字段值的最小值、字段值中最大长度、字段值中最小长度、指定字段的计算结果、字段中值为0的个数、字段中值为0的个数与整张表的数据量的百分比以及字段中值为NULL的个数与整张表的数据量的百分比。本专利技术的实施例提供的技术方案可以包括以下有益效果:上述技术方案,通过获取待处理的目标数据,获取预先制定的数据形态关键指标,数据形态关键指标包括数据的自身属性信息,根据预先制定的数据形态关键指标确定待处理的目标数据的数据形态。由于用关键指标来反映某一部分数据的数据形态,从而可以简单、快速、完整的反映数据的数据形态。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种大数据处理方法的流程图;图2为本专利技术实施例中另一种大数据处理方法的流程图;图3为本专利技术实施例中另一种大数据处理方法的流程图;图4为本专利技术实施例中步骤S13的操作流程示意图;图5为本专利技术实施例中步骤S13的另一个操作流程示意图;图6为本专利技术实施例中步骤S13的另一个操作流程示意图;图7为本专利技术实施例中一种大数据处理装置的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。现有技术中一些获得大数据形态的方法中一般有两种方式,第一种,快速的方式,不够全面,比如百万级的数据,需要抽样多少数据才能全面了解整个的数据呢。第二种,全面的方式,不够快速简洁,可能有的算法工程师,数据分析师会用统计学的知识来详细分析数据,那样又太耗时,且有较强专业性,不是每个人都能做到,看得懂。目前没有一种快速、简单、全面的方式,了解上千万或上亿数据表里的数据是长什么样子。而本专利技术解决了上述问题,通过数据的关键指标来反映数据的数据形态。图1所示为本专利技术实施例中一种大数据处理方法的流程图,如图1所示,该大数据处理方法包括以下步骤S11-S13:步骤S11,获取待处理的目标数据。步骤S12,获取预先制定的数据形态关键指标,数据形态关键指标包括数据的自身属性信息。在一个实施例中,预先制定的数据形态关键指标可包括但不局限于以下指标中的一项或多项:预定数据表的数据量、预定数据表的一个或多个分区的数据量、指定复合主键的数据量、字段去重后的个数、字段的值为NULL的个数、字段值的最大值、字段值的最小值、字段值中最大长度、字段值中最小长度、指定字段的计算结果、字段中值为0的个数、字段中值为0的个数与整张表的数据量的百分比以及字段中值为NULL的个数与整张表的数据量的百分比。对数据进行处理前,需要定义要计算的数据形态关键指标,关键指标主要有:1)从整体表来看整表的数据量,或者一个分区的数据量。指定复合主键的数据量。2)每个字段计算的指标:字段去重后总量:这个字段去重后的个数NULL总量:这个字段的值为null的个数最大值:求这个字段值最大值,如果是非数值类的字段(string类型等),就按照max函数默认的逻辑计算。最小值:求这个字段值最大值,如果是非数值类的字段(string类型等),就按照min函数默认的逻辑计算。最大长度:这个字段值中的最大长度最大长度举例:这个字段值中最大长度中的其中一个字段值。最小长度:这个字段值中的最小长本文档来自技高网...
一种大数据处理方法及装置

【技术保护点】
一种大数据处理方法,其特征在于,包括:获取待处理的目标数据;获取预先制定的数据形态关键指标,所述数据形态关键指标包括数据的自身属性信息;根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态。

【技术特征摘要】
1.一种大数据处理方法,其特征在于,包括:获取待处理的目标数据;获取预先制定的数据形态关键指标,所述数据形态关键指标包括数据的自身属性信息;根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述待处理的目标数据写入一张预定数据表中。3.如权利要求2所述的方法,其特征在于,所述根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态,包括:接收输入的所述预定数据表的表名;根据所述预先制定的数据形态关键指标对所述预定数据表进行清洗,获得所述预定数据表中的目标数据的数据形态。4.如权利要求3所述的方法,其特征在于,所述根据所述预先制定的数据形态关键指标确定所述待处理的目标数据的数据形态,还包括:接收输入的所述预设数据表的待处理分区和/或接收输入的一个或多个待计算枚举值的字段。5.如权利要求2所述的方法,其特征在于,所述预先制定的数据形态关键指标包括以下指标中的一项或多项:所述预定数据表的数据量、所述预定数据表的一个或多个分区的数据量、指定复合主键的数据量、字段去重后的个数、字段的值为NULL的个数、字段值的最大值、字段值的最小值、字段值中最大长度、字段值中最小长度、指定字段的计算结果、字段中值为0的个数、字段中值为0的个数与整张表的数据量的百分比以及字段中值为NULL的个数与整张表的数据量的百分比。...

【专利技术属性】
技术研发人员:王颖
申请(专利权)人:无线生活杭州信息科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1