一种数据统计方法、统计装置及计算机可读存储介质制造方法及图纸

技术编号:37607393 阅读:9 留言:0更新日期:2023-05-18 11:59
本发明专利技术实施例提供了一种数据统计方法、统计装置及计算机可读存储介质,用于提升数据的处理效率和错误数据的查找率。本发明专利技术实施例方法包括:获取业务数据;若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表;将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表;将所述各个统计维度表中的业务数据按照预设时间段执行去重处理,得到预设时间段内的业务数据以进行存储。预设时间段内的业务数据以进行存储。预设时间段内的业务数据以进行存储。

【技术实现步骤摘要】
一种数据统计方法、统计装置及计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据统计方法、统计装置及计算机可读存储介质。

技术介绍

[0002]在各个复杂的业务场景中,如快递业务、财务业务和后勤管理业务,每天都面临超大量级的的数据量。
[0003]当数据量级超1T以上时,每天都有新增百万级以上的数据量,而若要基于这种“大量级表”的数据进行后期多维度统计及去重的业务处理,会占用非常大的服务器资源,耗时长且任务容易因内存不足而失败。

技术实现思路

[0004]本专利技术实施例提供了一种数据统计方法、统计装置及计算机可读存储介质,用于对大量级数表进行拆分、分区计算,以提升数据的计算效率,此外还可以在预设时间段内数据出错时,快速追溯到出错时段内的数据,提升了错误数据的定位速度和查找效率。
[0005]本申请实施例第一方面提供了一种数据统计方法,包括:
[0006]获取分布式文件系统数仓中的业务数据;
[0007]若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表;
[0008]将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表;
[0009]将所述各个统计维度表中的业务数据按照预设时间段执行去重处理,得到预设时间段内的业务数据以进行存储。
[0010]优选的,待获取的所述业务数据存储于分布式文件系统数仓中的数据明细层DWD,所述分布式文件系统数仓至少包括数据明细层DWD和数据服务层DWS;
[0011]将所述业务数据按照预设字段执行分类,以得到各个主题表,包括:
[0012]将所述数据明细层DWD中的业务数据按照预设字段执行分类,将分类后的业务数据存储至预先建立在数据服务层DWS中的各个主题表。
[0013]优选的,所述数仓还包括数据应用层ADS,所述数据统计方法还包括:
[0014]将所述预设时间段内的业务数据存储至所述数据应用层ADS。
[0015]优选的,将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表,包括:
[0016]从所述各个主题表中筛选出待分区数据;
[0017]将所述待分区数据写入预先建立的分析维度表中;
[0018]采用与所述分析维度对应的分区字段将所述各分析维度表中的数据执行分区处理,以得到各个统计维度表。
[0019]优选的,在将所述待分区数据写入预先建立的分析维度表中之前,所述方法还包
括:
[0020]判断待分区数据的分析维度和所述待分区数据之间是否存在一对多或者多对多的关系;
[0021]若是,则预先建立与分析维度的维度数相同个数的分析维度表。
[0022]优选的,在若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表之前,所述方法还包括:
[0023]通过shell语句或sql语句查询业务数据的大小。
[0024]优选的,所述业务数据包括业务增量数据。
[0025]本申请实施例第二方面提供了一种数据统计装置,包括:
[0026]获取单元,用于获取业务数据;
[0027]分类单元,用于若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表;
[0028]分区单元,用于将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表;
[0029]去重单元,用于将所述各个统计维度表中的数据按照预设时间段执行去重处理,得到预设时间段内的业务数据以进行存储。
[0030]优选的,待获取的所述业务数据存储于分布式文件系统数仓中的数据明细层DWD,所述分布式文件系统数仓至少包括数据明细层DWD和数据服务层DWS;
[0031]所述分类单元具体用于:
[0032]将所述数据明细层DWD中的业务数据按照预设字段执行分类,将分类后的业务数据存储至预先建立在数据服务层DWS中的各个主题表。
[0033]优选的,所述数仓还包括数据应用层ADS,数据统计装置还包括:
[0034]存储单元,用于将所述预设时间段内的业务数据存储至所述数据应用层ADS。
[0035]优选的,分区单元具体用于:
[0036]从所述各个主题表中筛选出待分区数据;
[0037]将所述待分区数据写入预先建立的分析维度表中;
[0038]采用与所述分析维度对应的分区字段将所述各分析维度表中的数据执行分区处理,以得到各个统计维度表。
[0039]优选的,数据统计装置还包括:
[0040]判断单元,用于判断待分区数据的分析维度和所述待分区数据之间是否存在一对多或者多对多的关系;
[0041]建立单元,用于若待分区数据的分析维度和所述待分区数据之间存在一对多或者多对多的关系,则预先建立与分析维度的维度数相同个数的分析维度表。
[0042]优选的,数据统计装置还包括:
[0043]查询单元,用于通过shell语句或sql语句查询业务数据的大小。
[0044]优选的,所述业务数据包括业务增量数据。
[0045]本申请实施例还提供了一种计算机装置,包括存储器和处理器,该处理器在执行
存储于存储器上的计算机程序时,用于实现本申请实施例第一方面的数据统计方法。
[0046]本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理执行时,用于实现本申请实施例第一方面的数据统计方法。
[0047]本申请实施例还提供了一种计算机程序产品,其上存储有计算机程序,该计算机程序被计算机设备执行时,用于实现本申请实施例第一方面的数据统计方法。
[0048]从以上技术方案可以看出,本专利技术实施例具有以下优点:
[0049]本申请实施例中,获取业务数据;若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表;将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表;将所述各个统计维度表中的业务数据按照预设时间段执行去重处理,得到预设时间段内的业务数据以进行存储。
[0050]因为本申请实施例对业务数据执行分类拆分,并将分类拆分后的数据执行分区计算,从而提升了数据的计算效率,此外本申请实施例按照预设时间段对业务数据执行存储,从而使得数据在计算出错时,可以快速追溯到出错时段内的数据,提升了错误数据的定位速度和查找效率。
附图说明
[0051]图1为本申请实施例中数据统计方法的一个实施例示意图;
[0052]图2为本申请实施例中数据统计方法的另一个实施例示意图;
...

【技术保护点】

【技术特征摘要】
1.一种数据统计方法,其特征在于,包括:获取业务数据;若所述业务数据超出预设大小,和/或所述业务数据的计算涉及到多个字段和多个维度中的至少一项,将所述业务数据按照预设字段执行分类,以得到各个主题表;将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表;将所述各个统计维度表中的业务数据按照预设时间段执行去重处理,得到预设时间段内的业务数据以进行存储。2.根据权利要求1所述的数据统计方法,其特征在于,待获取的所述业务数据存储于分布式文件系统数仓中的数据明细层DWD,所述分布式文件系统数仓至少包括数据明细层DWD和数据服务层DWS;将所述业务数据按照预设字段执行分类,以得到各个主题表,包括:将所述数据明细层DWD中的业务数据按照预设字段执行分类,将分类后的业务数据存储至预先建立在数据服务层DWS中的各个主题表。3.根据权利要求2所述的数据统计方法,其特征在于,所述分布式文件系统数仓还包括数据应用层ADS,所述数据统计方法还包括:将所述预设时间段内的业务数据存储至所述数据应用层ADS。4.根据权利要求1所述的数据统计方法,其特征在于,将所述各个主题表按照分析维度执行分区处理,以得到各个统计维度表,包括:从所述各个主题表中筛选出待分区数据;将所述待分区数据写入预先建立的分析维度表中;采用与所述分析维度对应的分区字段将所述各分析维度表中的数据执行分区处理,以得到各个统计维度表。5.根据权利要求4所述的数据统计方法,其特征在于,在将所述待分区数据写入预先...

【专利技术属性】
技术研发人员:丁有胜孙飞熊
申请(专利权)人:金蝶蝶金云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1