【技术实现步骤摘要】
本专利技术涉及一种模式动态分区的方法,属于数据处理
,特别是分布式数据处理
技术介绍
在传统模式分区方面,一般采用随机分区方法对模式进行分区,即通过一个通用的哈希函数对每个模式产生一个哈希值,然后采用轮询方式对每个哈希值分配一个分区值。在分布式处理过程中,一般是以最慢的任务作为整个作业的处理时间。当采用随机分区方法对数据分区后,如模式的分布不均衡时,一些模式频繁出现,一些模式偶尔出现,模式出现的个数不均衡,这就导致每个分区的模式个数不均匀,一些分区的模式个数较多,一些分区的模式个数较少。这将使得在分布式处理作业时,模式个数较多的分区处理速度比模式个数较少的分区慢,即各个分区的处理性能不一致,从而降低了整个数据处理的性能。
技术实现思路
本专利技术要解决的技术问题是提供一种分区速度快、处理效率高的模式动态分区的方法。为了解决上述技术问题,本专利技术的技术方案是提供一种模式动态分区的方法,其特征在于,该方法由以下3个步骤组成:步骤1、模式实时抽取当处理系统接收到新的数据序列{x1,x2,…,xk
【技术保护点】
一种模式动态分区的方法,其特征在于,该方法由以下3个步骤组成:步骤1、模式实时抽取当处理系统接收到新的数据序列{x1,x2,...,xk},k为正整数,系统将从中抽取出新的子序列{x1,...,xh},h为不大于k的正整数,并把抽取出的新的子序列{x1,...,xh}包装成一个新模式;步骤2、模式动态分类经过步骤1的模式抽取后,在处理系统中存储了相当的模式,然后对这些模式进行分类,其中每个分类包含了一个中心点,这个中心点代表着这个分类,这样就得到了多个中心点的集合;当系统接收到新的模式时,计算新模式与各个中心点的距离,从中选择一个最近的中心点作为新模式的分类;步骤3、模式动态部署模式动态分类后,每个模式已经获得了一个分类号,还需要对模式进行部署,即把模式分配到每台处理机器上;模式动态部署方法如下:首先统计出模式的出现频数,进而计算出当前部署在每台处理机器上的模式总频数,从中选择一台总频数最小的机器作为下一个模式的处理机器,如此迭代,实现每台机器上的模式总频数尽量平衡。
【技术特征摘要】
1.一种模式动态分区的方法,其特征在于,该方法由以下3个步骤组成:步骤...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。