一种通用全量数据的处理方法技术

技术编号:33782635 阅读:39 留言:0更新日期:2022-06-12 14:37
本发明专利技术提供的一种通用全量数据的处理方法包括:获取用户结果数据,包括冷数据和热数据;根据所述用户结果数据创建分区表;首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;遍历所有的用户,获得最新的全量用户末次订单数据。保障数据完整性的同时,有效降低数据处理的资源和时间开销。据处理的资源和时间开销。据处理的资源和时间开销。

【技术实现步骤摘要】
一种通用全量数据的处理方法


[0001]本专利技术涉及网约车领域,尤其涉及一种通用全量数据的处理方法。

技术介绍

[0002]大数据时代,用数据说话,不论是互联网或传统企业,都积累大量的数据,且数据主题、种类繁多。数据分析需求越来越重要,但是数据来源种类繁多,数据内容又分门别类,想要处理这些数据,获取有价值的结果,需要投入很多的人力和时间成本。
[0003]数据量太大时,无法处理全量数据,可能导致数据的准确性降低,影响运营和抉择;处理全量数据的硬件资源和时间成本越积越多,直接影响了数据产出时效性;没有通用性的方法处理各种不同的数据类型。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种通用全量数据的处理方法。
[0005]根据本专利技术的一个方面,提供了一种通用全量数据的处理方法包括:
[0006]获取用户结果数据,包括冷数据和热数据;
[0007]根据所述用户结果数据创建分区表;
[0008]首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;
[0009]处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;
[0010]将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;
[0011]遍历所有的用户,获得最新的全量用户末次订单数据。
[0012]可选的,所述冷数据为封存不变的数据,所述热数据为动态变化的数据。
[0013]可选的,所述将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据具体包括:
[0014]使用fulljoin全连接冷数据分区表和热数据分区表,条件是用户,优先取B表的末次订单号,取不到时再取冷数据分区表的末次订单号,结果数据保存在所述分区表中,获得合并数据表。
[0015]本专利技术提供的一种通用全量数据的处理方法包括:获取用户结果数据,包括冷数据和热数据;根据所述用户结果数据创建分区表;首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;遍历所有的用户,获得最新的全量用户末次订单数据。保障数据完整性的同时,有效降低数据处理的资源和时间开销。
20220301A1B00610高德 [0034]用户结果数据
[0035]用户末次订单号(统计日期最近的订单号)A1B006B1B005C1B003
[0036]处理过程如下:
[0037]步骤1:创建分区表last_order_user_day;
[0038]步骤2:首次处理初始化冷数据,只处理一次:计算冷数据用户的末次完成订单,结果数据保存在分区表last_order_user_day的分区dt=20220101中,标注为A表;
[0039]用户表
[0040]创建日期用户订单号订单状态编号订单来源扩展列20150101A1P00110APP 20150101B1B00250高德 20160101C1B00315百度 20220101A1B00440高德 [0041]A表
[0042]用户末次订单号(统计日期最近的订单号)A1B004B1B002C1B003
[0043]步骤3:处理热数据,每天处理:计算热数据用户的末次完成订单,结果数据保存在last_order_user_day的分区dt=20220301中,标注为B表。
[0044]用户表
[0045]创建日期用户订单号订单状态编号订单来源扩展列20220301B1B00510百度 20220301A1B00610高德 [0046]B表
[0047]用户末次订单号(统计日期最近的订单号)A1B006B1B005
[0048]步骤4:合并冷热数据(每天处理):使用fulljoin全连接AB表,条件是用户,优先取B表的末次订单号,取不到时再取A表的末次订单号,结果数据保存在last_order_user_day的分区dt=20220301中(标注为C表);
[0049]C表
[0050]用户末次订单号(统计日期最近的订单号)A1B006B1B005
C1B003
[0051]步骤5:以后每天按照步骤3处理。
[0052]步骤6:以后每天按照步骤4处理后,需要把A表改为C表,即CB表按照步骤4处理得到最新的全量用户末次订单数据。
[0053]实施例2
[0054]用户和订单来源组合结果数据
[0055]用户订单来源末次订单号(统计日期最近的订单号)A1APPP001A1高德B006B1高德B002B1百度B005C1百度B003
[0056]处理过程如下:
[0057]假设当前日期是20220301
[0058]步骤1:创建分区表last_order_usersource_day
[0059]步骤2:首次处理初始化冷数据,只处理一次:计算冷数据用户的末次完成订单,结果数据保存在last_order_usersource_day的分区dt=20220101中,标注为A表。
[0060]创建日期用户订单号订单状态编号订单来源扩展列20150101A1P00110APP 20150101B1B00250高德 20160101C1B00315百度 20220101A1B00440高德 [0061]得到结果A表
[0062]用户订单来源末次订单号(统计日期最近的订单号)A1APPP001A1高德B004B1高德B002C1百度B003
[0063]步骤3:处理热数据,每天处理:计算热数据用户的末次完成订单,结果数据保存在last_order_usersource_day的分区dt=20220301中,标注为B表。
[0064]创建日期用户订单号订单状态编号订单来源扩展列20220301B1B00510百度 20220301A1B00610高德 [0065]得到结果B表
[0066]用户订单来源末次订单号(统计日期最近的订单号)A1高德B006B1百度B005
[0067]步骤4:合并冷热数据,每天处理:使用fulljoin全连接AB表,条件是用户,优先取B
表的末次订单号,取不到时再取A表的末次订单号,结果数据保存在last_order_user_day的分区dt=20220301中,标注为C表。
[0068]得到结果C表
[0069]用户订单来源末次订单号(统计日期最近的订单号)A1APPP001A1高德B006B1高德B本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通用全量数据的处理方法,其特征在于,所述处理方法包括:获取用户结果数据,包括冷数据和热数据;根据所述用户结果数据创建分区表;首次处理初始化所述冷数据,计算所述冷数据用户的末次完成订单,获得冷数据结果,并将所述冷数据结果保存至所述分区表中,获得冷数据分区表;处理所述热数据,计算所述热数据用户的末次完成订单,获得热数据结果,并保存至所述分区表中,获得热数据分区表;将所述冷数据分区表和所述热数据分区表合并,获得用户末次订单数据;遍历所有的用户,获得最新的全量...

【专利技术属性】
技术研发人员:曾科源
申请(专利权)人:首约科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1