一种数据处理方法及装置制造方法及图纸

技术编号:11167376 阅读:64 留言:0更新日期:2015-03-19 01:00
本申请公开了一种数据处理方法及装置,包括:取待处理数据记录的至少一个待处理维度的维度数据;并针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对该待处理数据记录进行处理的数据处理单元;并将该待处理数据记录分发给选择的数据处理单元;以及由选择的数据处理单元对该待处理数据记录的该待处理维度的维度数据进行处理。采用本申请实施例提供的方案,提高了进行数据处理的效率。

【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及计算机
中的数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
目前,在计算机技术和互联网技术的实际应用中,经常需要对大量的数据进行统计、聚合计算以及分析等处理,例如,数据求和、数据去重、求取数据最大值以及求取数据最小值等处理。 现有技术中,在对流数据进行处理时,数据源通过消息中间件将数据记录以分批的形式发送到数据处理设备,数据处理设备针对数据记录的待处理维度的维度数据进行处理,并得到该批次数据记录的处理结果,进一步的,还可以将对多个批次数据记录进行处理得到的多个处理结果进行综合累加处理,并将数据记录和最终得到的数据结果存储到数据库中。 在现有技术的上述方案中,数据设备对数据记录的处理是串行进行的,必须等待上一条数据记录被处理完成后,再处理下一条数据记录,并且针对一个批次的数据记录,仅能对一个维度的维度数据进行处理,当需要针对多个数据维度进行处理时,也只能是依次进行的,从而导致对数据处理的效率较低。
技术实现思路
有鉴于此,本申请实施例提供一种数据处理方法及装置,用于解决现有技术中存在的进行数据处理的效率较低的问题。 本申请实施例通过如下技术方案实现: 本申请实施例提供了一种数据处理方法,包括: 获取待处理数据记录的至少一个待处理维度的维度数据; 针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元; 将所述待处理数据记录分发给选择的数据处理单元; 由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理。 本申请实施例提供的上述数据处理方法中,针对数据记录的不同维度预先设定了对应的数据处理单元,从而使得针对不同维度的维度数据,可以由各维度对应的数据处理单元并行处理,并且,针对每个维度设定了对应的多个数据处理单元,所以可以针对多个待处理数据记录的该维度的维度数据并行处理,从而提高了进行数据处理的效率。 进一步的,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元,具体包括: 确定该待处理维度的维度数据的哈希码; 使用该维度数据的哈希码对与该待处理维度对应的多个数据处理单元的数量取余,得到余数值; 从所述多个数据处理单元中,选择单元ID为所述余数值的数据处理单元,作为将要对所述待处理数据记录进行处理的数据处理单元。 这样,能够根据该待处理维度的维度数据的哈希码,准确地从多个数据处理单元中,选择将要对该待处理数据记录进行处理的数据处理单元。 进一步的,由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理,具体包括: 选择的数据处理单元确定所述待处理数据记录的唯一标识数据的哈希码; 根据所述唯一标识数据的哈希码的后预设数量位,从保存已接收数据记录的多个数据集中,确定与所述唯一标识数据的哈希码的后预设数量位对应的数据集,作为待查询数据集,所述多个数据集中每个数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位相同,且不同数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位不同; 当确定的所述待查询数据集中不存在所述待处理数据记录时,对所述待处理数据记录的该待处理维度的维度数据进行处理。 这样,在对待处理数据记录的该维度数据进行处理时,首先根据保存已接收数据记录的多个数据集进行去重处理,其去重处理时不再需要从所有已接收数据记录中查询,只需要从多个数据集之一中查询即可,减少了去重处理的计算量,从而进一步提高了进行数据处理的效率。 进一步的,上述数据处理方法,还包括: 根据所述多个数据集中保存的数据记录的时间戳,对所述多个数据集中满足预设丢弃条件的数据记录进行丢弃处理,数据记录的时间戳为该数据记录被保存到数据集的时间信息。 这样,可以节省数据集的存储空间,并且可以减少数据集中存储的数据记录的数据量,以便在去重处理过程中减少查询时间,提高查询效率。 进一步的,上述数据处理方法,还包括: 针对该待处理维度,对所述多个数据处理单元分别对各自接收的数据记录的该待处理维度的维度数据进行处理后得到的处理结果,进行综合累加处理。 本申请实施例还提供一种数据处理装置,包括: 获取单元,用于获取待处理数据记录的至少一个待处理维度的维度数据; 选择单元,用于针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元; 分发单元,用于将所述待处理数据记录分发给选择的数据处理单元; 数据处理单元,用于对分发到的所述待处理数据记录的该待处理维度的维度数据进行处理。 本申请实施例提供的上述数据处理装置中,针对数据记录的不同维度预先设定了对应的数据处理单元,从而使得针对不同维度的维度数据,可以由各维度对应的数据处理单元并行处理,并且,针对每个维度设定了对应的多个数据处理单元,所以可以针对多个待处理数据记录的该维度的维度数据并行处理,从而提高了进行数据处理的效率。 进一步的,选择单元,具体用于确定该待处理维度的维度数据的哈希码;并使用该维度数据的哈希码对与该待处理维度对应的多个数据处理单元的数量取余,得到余数值;以及从所述多个数据处理单元中,选择单元ID为所述余数值的数据处理单元,作为将要对所述待处理数据记录进行处理的数据处理单元。 这样,能够根据该待处理维度的维度数据的哈希码,准确地从多个数据处理单元中,选择将要对该待处理数据记录进行处理的数据处理单元。 进一步的,数据处理单元,具体用于确定所述待处理数据记录的唯一标识数据的哈希码;并根据所述唯一标识数据的哈希码的后预设数量位,从保存已接收数据记录的多个数据集中,确定与所述唯一标识数据的哈希码的后预设数量位对应的数据集,作为待查询数据集,所述多个数据集中每个数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位相同,且不同数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位不同;以及当确定的所述待查询数据集中不存在所述待处理数据记录时,对所述待处理数据记录的该待处理维度的维度数据进行处理。 这样,在对待处理数据记录的该维度数据进行处理时,首先根据保存已接收数据记录的多个数据集进行去重处理,其去重处理时不再需要从所有已接收数据记录中查询,只需要从多个数据集之一中查询即可,减少了去重处理的计算量,从而进一步提高了进行数据处理的效率。 进一步的,上述数据处理装置,还包括: 丢弃单元,用于根据所述多个数据集中保存的数据记录的时间戳,对所述多个数据集中满足预设丢弃条件的数据记录进行丢弃处理,数据记录的时间戳为该数据记录被保存到数据集的时间信息。 这样,可以节省数据集的存储空间,并且可以减少数据集中存储的数据记录的数据量,以便在去重处理过程中减少查询时间,提高查询效率。 进一步的,上述数据处理装置,还包括: 综合累加单元,用于针对该待处理维度,对所述多个数据处理单元分别对各自接收的数据记录的该待处理维度的维本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:获取待处理数据记录的至少一个待处理维度的维度数据;针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元;将所述待处理数据记录分发给选择的数据处理单元;由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括: 获取待处理数据记录的至少一个待处理维度的维度数据; 针对每个待处理维度,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元;将所述待处理数据记录分发给选择的数据处理单元; 由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理。2.如权利要求1所述的方法,其特征在于,根据该待处理维度的维度数据,从预先设定的与该待处理维度对应的多个数据处理单元中,选择将要对所述待处理数据记录进行处理的数据处理单元,具体包括: 确定该待处理维度的维度数据的哈希码; 使用该维度数据的哈希码对与该待处理维度对应的多个数据处理单元的数量取余,得到余数值; 从所述多个数据处理单元中,选择单元10为所述余数值的数据处理单元,作为将要对所述待处理数据记录进行处理的数据处理单元。3.如权利要求1所述的方法,其特征在于,由选择的数据处理单元对所述待处理数据记录的该待处理维度的维度数据进行处理,具体包括: 选择的数据处理单元确定所述待处理数据记录的唯一标识数据的哈希码; 根据所述唯一标识数据的哈希码的后预设数量位,从保存已接收数据记录的多个数据集中,确定与所述唯一标识数据的哈希码的后预设数量位对应的数据集,作为待查询数据集,所述多个数据集中每个数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位相同,且不同数据集中保存的数据记录的唯一标识数据的哈希码的后预设数量位不同; 当确定的所述待查询数据集中不存在所述待处理数据记录时,对所述待处理数据记录的该待处理维度的维度数据进行处理。4.如权利要求3所述的方法,其特征在于,还包括: 根据所述多个数据集中保存的数据记录的时间戳,对所述多个数据集中满足预设丢弃条件的数据记录进行丢弃处理,数据记录的时间戳为该数据记录被保存到数据集的时间信肩、05.如权利要求1-4任一所述的方法,其特征在于,还包括: 针对该待处理维度,对所述多个数据处理单元分别对各自接收的数据记录的该...

【专利技术属性】
技术研发人员:黄晓锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1