【技术实现步骤摘要】
本专利技术涉及数据分析,更具体地说,涉及一种数据分配方法和装置。
技术介绍
在需要同时分析大量的数据时,通常使用分布式的计算方式,将大量的数据划分成一份份小数据之后再分别在不同的数据处理终端上并行分析,或者在同一个数据处理终端的不同处理器上并行分析。这些数据处理终端或者数据处理终端上的线程被定义为计算结点。 以移动运营商分析用户的话单数据为例,为了快速分析指定时间段的话单数据,移动运营商通常将话单数据按照应用的需要分配给不同的计算终端同时进行,这涉及到对数据分析任务的划分,划分后的各个子任务之间应相互独立,所占数据的份额应大致相同,以便充分利用计算终端的多核多线程计算能力,同时划分后的各个子任务还应做到完成时间的均衡,以使总的计算时间最少。比如说有两个应用一个是统计每个用户在不同的扇区下通话的次数,一个是统计每个扇区下不同用户通话的次数,前者需要按照用户(通常是用户的手机号码),后者需要按照小区(通常是小区的编号)对话单数据进行划分,这样才能够使划分的任务独立互不影响。按照上述方法确定了数据划分的字段(如用户的手机号码、小区的编号)后,还需要确定需划分的子任务的 ...
【技术保护点】
一种数据分配方法,其特征在于,包括如下步骤:S1、获取需要分析的多个数据;S2、依据数据分析需求确定用于划分所述需要分析的多个数据的字段;S3、针对每个数据,将步骤S2中确定出的字段对应的值与预先确定的计算结点的个数执行取模运算;S4、将所述需要分析的多个数据中取模运算后的值相同的数据分入同一计算结点。
【技术特征摘要】
【专利技术属性】
技术研发人员:王立,祝林,
申请(专利权)人:深圳市网信联动技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。