一种模式动态分区的方法技术

技术编号：15228380 阅读：58 留言：0更新日期：2017-04-27 13:01

本发明专利技术提供了一种模式动态分区的方法，当处理系统接收到新的数据序列，从中抽取出新的子序列，并把该子序列包装成一个新模式；在处理系统中存储了相当的模式后，对这些模式进行分类，每个分类包含了一个中心点，这样就得到多个中心点的集合；当系统接收到新模式时，计算新模式与各个中心点的距离，从中选择一个最近的中心点作为新模式的分类；最后把模式分配到每台处理机器上；首先统计出模式的出现频数，进而计算出当前部署在每台处理机器上的模式总频数，从中选择一台总频数最小的机器作为下一个模式的处理机器，如此迭代，实现每台机器上的模式总频数尽量平衡。本发明专利技术提供的方法分区速度快，处理效率高，自动负载均衡，提高了系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种模式动态分区的方法，属于数据处理
，特别是分布式数据处理

技术介绍
在传统模式分区方面，一般采用随机分区方法对模式进行分区，即通过一个通用的哈希函数对每个模式产生一个哈希值，然后采用轮询方式对每个哈希值分配一个分区值。在分布式处理过程中，一般是以最慢的任务作为整个作业的处理时间。当采用随机分区方法对数据分区后，如模式的分布不均衡时，一些模式频繁出现，一些模式偶尔出现，模式出现的个数不均衡，这就导致每个分区的模式个数不均匀，一些分区的模式个数较多，一些分区的模式个数较少。这将使得在分布式处理作业时，模式个数较多的分区处理速度比模式个数较少的分区慢，即各个分区的处理性能不一致，从而降低了整个数据处理的性能。
技术实现思路
本专利技术要解决的技术问题是提供一种分区速度快、处理效率高的模式动态分区的方法。为了解决上述技术问题，本专利技术的技术方案是提供一种模式动态分区的方法，其特征在于，该方法由以下3个步骤组成：步骤1、模式实时抽取当处理系统接收到新的数据序列{x1，x2，…，xk

【技术保护点】
一种模式动态分区的方法，其特征在于，该方法由以下3个步骤组成：步骤1、模式实时抽取当处理系统接收到新的数据序列{x1，x2，...，xk}，k为正整数，系统将从中抽取出新的子序列{x1，...，xh}，h为不大于k的正整数，并把抽取出的新的子序列{x1，...，xh}包装成一个新模式；步骤2、模式动态分类经过步骤1的模式抽取后，在处理系统中存储了相当的模式，然后对这些模式进行分类，其中每个分类包含了一个中心点，这个中心点代表着这个分类，这样就得到了多个中心点的集合；当系统接收到新的模式时，计算新模式与各个中心点的距离，从中选择一个最近的中心点作为新模式的分类；步骤3、模式动态部署模式动态分类后，每个模式已经获得了一个分类号，还需要对模式进行部署，即把模式分配到每台处理机器上；模式动态部署方法如下：首先统计出模式的出现频数，进而计算出当前部署在每台处理机器上的模式总频数，从中选择一台总频数最小的机器作为下一个模式的处理机器，如此迭代，实现每台机器上的模式总频数尽量平衡。

【技术特征摘要】
1.一种模式动态分区的方法，其特征在于，该方法由以下3个步骤组成：步骤...

【专利技术属性】
技术研发人员：杨定裕，
申请(专利权)人：上海电机学院，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人