【技术实现步骤摘要】
一种获取数据流频繁项的方法
本申请涉及数据挖掘领域,具体涉及获取数据流频繁项的方法。
技术介绍
数据挖掘技术主要应用于数据密集型场景中。随着信息技术的广泛应用,二十世纪末在数据挖掘的应用中出现了一种新的数据处理模型——数据流(DataStream)。该模型用以处理按时间顺序到达的连续序列,具备以下六个特点:(1)规模大,(2)有序,(3)不确定,(4)快速,(5)无界,(6)流式。数据流挖掘,就是在数据流上提取隐含的和潜在有用的信息和知识的过程。特别是,数据流算法要求在流式环境下执行。所述算法的处理前提是不保存观测数据全集,并在单次扫描的前提下完成。该类问题的求解着重考虑两方面:(1)数据实时到达,需要做快速的处理和响应;(2)由于通常在内存中处理数据,因此需要重点对空间利用率进行优化。如何在有限的运算空间中处理无限的数据是该类算法的难度所在。
技术实现思路
本申请提供一种获取数据流频繁项的方法;以解决在有限的运算空间中处理无限的数据的问题。为了解决上述技术问题,本申请实施例提供了如下的技术方案:一种获取数据流频繁项的方法,其特征在于,包括:从数据流中获取数据项;在预 ...
【技术保护点】
1.一种获取数据流频繁项的方法,其特征在于,包括:从数据流中获取数据项;在预设数量的数据结构集中,根据所述数据项生成频繁项的数据结构集;其中,所述数据结构中包括与数据项相关联的统计信息。
【技术特征摘要】
1.一种获取数据流频繁项的方法,其特征在于,包括:从数据流中获取数据项;在预设数量的数据结构集中,根据所述数据项生成频繁项的数据结构集;其中,所述数据结构中包括与数据项相关联的统计信息。2.根据权利要求1所述的方法,其特征在于,所述数据结构,至少包括以下数据:数据项,数据项的统计频度和累计误差。3.根据权利要求1所述的方法,其特征在于,根据所述数据项生成频繁项的数据结构集具体包括串行算法:针对单个的处理核对进行处理,得到若干分支结果;并行算法:针对串行算法得到的分支结果进行合并处理,并得到整合结果。4.根据权利要求1所述的方法,其特征在于,所述串行算法具体包括:步骤SS2,对数据项si的处理,具体如下:步骤SS21,若数据结构集中的数据结构ci的数据项ai与所述获取的数据项si相同,则数据结构ci的统计频度fi加1;步骤SS22,若所述获取的数据项si没有与数据结构集中的数据结构的数据项相同的,但存在空闲计数器ci=(null,0,0),null表示空,则将获取的数据项si分配给空闲的计数器ci=(null,0,0),并设置统计频度fi为1;步骤SS23,若所述获取的数据项si没有与数据结构集中的数据结构的数据项相同的,也不存在空闲计数器ci=(null,0,0),则数据结构集中的所有数据结构ci的数据项ai的统计频度fi均减1;步骤SS3,整理数据结构集,具体步骤如下:步骤SS31,如果数据结构集中的数据结构ci=(ai,fi,ei)统计频度fi>0,则对其累积误差加1得到ci=(ai,fi,ei+1);步骤SS32,如果数据结构集中的数据结构ci=(ai,fi,ei)统计频度fi=0,则使数据结构ci=(null,0,0)。5.根据权利要求1所述的方法,其特征在于,所述并行算法包括数据分块和概要合并两大部分,定义输入流S由n个数据元素构成,P为并行处理核的个数,则并行算法步骤包括:步骤SP1,数据分块;在此部分,每一个处理核将遵循一定的规则,把当前到来的所有数据进行分块,具体的分块规则根据具体应用而定,具体步骤如下:步骤SP11,若为二路并行,数据分块可按照数据项si下标的奇偶次序进行均分,并使得每个处理核分到或个元素即可;步骤SP12,若为N路并行,其中N>2,数据分块可按照数据项si下标次序的模运算结果进行划分,并使得每个处理核分到到或个元素即可;步骤SP2,每个处理核对分配到数据项si,依照串行算法所描述的方法进行数据概要的提取,提取结果存入哈希表中以备后续汇合部分使用,一般按照数据结构ci=(ai,fi,ei)存储,数据项ai为关键字,另还包含该数据项ai对应的统计频度fi以及累积误差ei;步骤SP3,令各路哈希表按照数据项的统计频度F=[f1,…,f1,…,FII]进行排序,一般按照频度排序,记录下每张哈希表S'统计频度最小项的频度值min',min'=min(F=[f1,…,f1,…,FII]),min表示求最小值;步骤SP4,对步骤SP2中提取的各路数据概要进行合并,分为二路并行和N路并行,N>2;步骤SP41,若为二路并行,具体步骤为:步骤SP411,步骤SP2生成的两张哈希表分别为S1、S2,概要合并策略可描述为:首先遍历扫描S1每一个数据项,检查S1中的每一项是否出现在S2中;步骤SP412,若S1中数据项同时出现在S2中,则将数据项相同的S1、S2的数据结构进行合并,对相应的统计频次和累积误差求和,并将数据结构中数据的求...
【专利技术属性】
技术研发人员:李文海,谭薇薇,谢晨阳,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。