【技术实现步骤摘要】
时序数据的处理方法和装置
本专利技术总体说来涉及数据处理领域,更具体地说,涉及一种针对时序数据的处理方法、装置、系统及存储介质。
技术介绍
在对时序数据进行处理的过程中,不可避免地存在数据倾斜问题。数据倾斜是指大量数据被分配到一个计算节点上执行计算,使得这些数据的计算速度远低于平均计算速度,导致整个计算过程过慢。时序数据是严格按照时间顺序记录或生成的数据列,针对时序数据的处理不同于一般数据,具有与时间相关的限制条件,时序数据的这一特性,使得现有的数据倾斜处理方案不适于应用于时序数据,解决时序数据中的数据倾斜问题。因此,需要一种能够解决时序数据中的数据倾斜问题的方案。
技术实现思路
本专利技术的示例性实施例旨在克服时序数据处理过程中的数据倾斜问题。根据本专利技术的第一个方面,提出了一种时序数据的处理方法,其中,时序数据包括多条按时间顺序记录的数据记录,每条数据记录包括一个或多个字段,该方法包括:统计时序数据中与预定字段名对应的各字段值的频数,或与预定字段名组合对应的各字段值组合的频数 ...
【技术保护点】
1.一种时序数据的处理方法,其中,所述时序数据包括多条按时间顺序记录的数据记录,每条所述数据记录包括一个或多个字段,该方法包括:/n统计所述时序数据中与预定字段名对应的各字段值的频数,或与预定字段名组合对应的各字段值组合的频数;/n按照时间顺序将各个频数大于或等于第一预定阈值的字段值或字段值组合所对应的数据记录拆分成预定数量个子时序数据;以及/n将所述预定数量个子时序数据分配给多个计算节点。/n
【技术特征摘要】
1.一种时序数据的处理方法,其中,所述时序数据包括多条按时间顺序记录的数据记录,每条所述数据记录包括一个或多个字段,该方法包括:
统计所述时序数据中与预定字段名对应的各字段值的频数,或与预定字段名组合对应的各字段值组合的频数;
按照时间顺序将各个频数大于或等于第一预定阈值的字段值或字段值组合所对应的数据记录拆分成预定数量个子时序数据;以及
将所述预定数量个子时序数据分配给多个计算节点。
2.根据权利要求1所述的处理方法,还包括:
根据所述子时序数据中的数据记录的处理结果对数据的依赖关系,将处理所述数据记录所需但所述子时序数据中缺失的数据记录添加到所述子时序数据中。
3.根据权利要求2所述的处理方法,其中,根据所述子时序数据中的数据记录的处理结果对数据的依赖关系将处理所述数据记录所需但所述子时序数据中缺失的数据记录添加到所述子时序数据中的步骤包括:
遍历所述子时序数据中的每一条数据记录,根据该条数据记录的处理结果对数据的依赖关系,判断该子时序数据中是否包含处理该条数据记录所需的全部数据记录;
在判定所述子时序数据中不包含处理该条数据所需的全部数据的情况下,获取缺失的数据记录,并将获取的数据记录添加到该子时序数据。
4.根据权利要求2所述的处理方法,还包括:
将所述缺失的数据记录标记为冗余数据。
5.根据权利要求4所述的处理方法,其中,
所述计算节点忽略所述冗余数据的处理,或者<...
【专利技术属性】
技术研发人员:姚均霖,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。