当前位置: 首页 > 专利查询>复旦大学专利>正文

一种高效的流数据模式挖掘方法技术

技术编号:20745262 阅读:31 留言:0更新日期:2019-04-03 10:24
本发明专利技术属于数据挖掘技术领域,具体是一种高效的流数据模式挖掘方法。本发明专利技术采用最小化验证误差模型来作为聚类划分标准,分两步找出流数据中的隐藏模型。第一步为序列聚类,即:基于增强动态规划方法,找出将数据流划分为多个连续数据段的最优划分;第二步为迭代聚类,即:基于期望最大化方法的工作原理和最优划分的数据段特征,对数据段进行迭代聚类,进而找出流数据中的隐藏模型。实验结果表明,本发明专利技术能够对流数据进行有效划分与聚类,错误率较低,且运行时间与数据集大小和数据段多少呈线性相关,效率较高。

【技术实现步骤摘要】
一种高效的流数据模式挖掘方法
本专利技术属于数据挖掘
,具体涉及流数据模式挖掘方法。
技术介绍
许多应用需要处理特征不断变化的流数据。但是,这些数据特征不会任意改变,而是由隐藏的模型控制。模型变化,数据也会跟着发生变化。当模型固定时,数据显示出稳定的特征。例如,在语音识别中,系统在“包含语音”和“不包含语音”两个模型之间切换。因此,我们观察到的流数据是不同模型相互交替的过程,这种数据具有两个关键特征:(1)模型改变不可预测,但这些模型在改变的过程中会重复出现;(2)模型的单次出现而生成的数据通常不完整,无法从这些不完整数据中学习到模型。从流数据中找出所有控制着数据生成且交替出现的隐藏模型,不仅能够使我们理解潜在系统的动态,更能使我们预测模型在未来生成的实例。但是,从流数据中挖掘隐藏模型存在两个主要挑战,即:数据分段和从不完美的数据分段中重构模型。数据分段的任务是对流进行划分,划分后使得每个段都是“内部同质的”,或者换句话说,每个段的数据由单个模型生成。每个段中的数据仅代表某个模型的单次出现,且通常只是模型的不完整甚至偏向表示。因此,我们的第二个挑战是通过数据分割得到的分段重建精确模型。现有的研究已经解决了在无监督和有监督学习环境中挖掘流数据的很多问题。但是,大多数方法主要关注最新数据,并丢弃与当前数据分布不一致的历史数据。这就像是在不断拍摄流数据的快照,但只关注最新的快照。由于模型可能仅持续很短的时间就被另一个模型突然替换,因此这种方法只能利用最新的快照。但是,从这些有限的快照中不太可能获得模型的全貌。因此通过这些方法产生的模型通常是不完整的,对新数据的预测能力很差。
技术实现思路
针对以上问题,本专利技术提出一种错误率低、运行效率高的流数据模式挖掘方法。本专利技术提供的高效的流数据模式挖掘方法,主要以最小化验证误差为聚类划分标准,通过两个步骤找出流数据中的隐藏模型:我们称其为验证误差最小化(ValidationErrorMinimization,VEM)方法。具体步骤如下:(1)序列聚类。基于增强动态规划方法,找出将数据流划分为多个连续数据段的最优划分(即:使验证误差最小的划分);其中,每个数据段是流数据的一个连续片段,对应着一个模型生成的一个实例;(2)迭代聚类。基于类似于EM算法的方法,迭代聚类算法,不断地对序列聚类划分的数据段进行再聚类,在每个聚类上训练模型,直至收敛,得到流数据中的所有隐藏模型。相比于传统聚类方法采用的距离函数作为聚类划分标准,本专利技术采用更普适的验证误差来作为聚类划分标准,其目标函数为:其中,m=1+|{(di,di+1)|di∈Dj,di+1∈Dk,j≠k}|,为数据段个数;δ≥0是一个调整数据段个数的规范化参数。式(1)中,P为数据集D={d1,…,dn}的一个不相交的聚类,即令为类Di的模型;为模型在数据集Di上的误差,定义为我们的目标是找到令公式(1)最小化的P。本专利技术的特点是:以验证误差最小化为聚类划分标准,分两步找出流数据中的隐藏模型。第一步基于增强动态规划方法,找出将数据流划分为多个连续数据段的近似最优划分;第二步基于期望最大化方法的工作原理和最优划分的数据段特征,对数据段进行迭代聚类,进而找出流数据中的所有隐藏模型。实验结果表明,本专利技术能够对流数据进行有效划分与聚类,错误率较低,且运行时间与数据集大小和数据段多少呈线性相关,效率较高。附图说明图1为候选模型选择示意图,(γ=2,p=1)。图2为模型指派示意图,(γ=2,p=1)。图3为从最优划分D1,9推导最优划分D1,10示意图。图4为序列聚类的性能。图5为迭代聚类的性能。具体实施方式一、序列聚类令Di,j表示从di到dj的子序列。令Pi,j是使得式(1)最小的最优划分。序列聚类的目标是找到P1,n,即使得整个序列的VEM最小的划分。这个问题具有最优子结构,可以用动态规划求解。假设我们知道了D1,j和Dj+1,n的最优序列聚类为P1,j和Pj+1,n(1≤j<n),求整个序列的聚类P1,n。结果有两种可能的情况:整个序列为最优聚类,或者P1,j与Pj+1,n的所有子序列聚类构成最优聚类。接下来只需求和的最小值对应的划分,即为最优序列聚类结果。直接采用动态规划算法计算上述划分需要计算n2个模型,时间复杂度为n3,难以满足大规模数据的应用要求,需要对算法进行改进。为提高算法执行效率,减少计算模型数量,本专利技术依据广覆盖和多样性的原则,预选部分数据序列(本专利技术称之为枢纽段),并在枢纽段上计算出相应的数据模型(本专利技术称之为候选模型)。本专利技术方法选择γ和p两个参数控制枢纽段的生成。γ控制k层枢纽段为k-1层枢纽段长度的多少倍,控制枢纽段长度的多样性,p为同层相邻枢纽段首尾数据标号之差,控制枢纽段相互交叠程度。图1展示了γ=2,p=1的全部枢纽段,每个枢纽段的候选模型为(表示第k层第i个模型)。接下来,对于任意数据序列Di,j,我们为其指派一个最接近于目标模型的候选模型H(Di,j)。H(Di,j)是包含在Di,j中最长枢纽段上的模型,如果有多个符合此条件的枢纽段,则选择最后一个枢纽段上的模型。图2给出了两个例子。模型指派后,将式(1)中所有段上学得的模型替换为对应的备选模型H(Di,j),新的目标函数为:找式(2)下的最优划分,就是找使Q*(P1,n)最小的最优划分P1,n。新目标函数是在数量较少的候选模型上计算划分误差,从而有效提升计算效率。候选模型有k层,将按照问题规模和层次逐步求解子问题。为描述方便,下面用Q*i表示Q*(P1,i),目标是求Q*n。如果给定数据段的指派模型在层次k上,则将对应的划分记为用表示层次k上的最后一个候选模型。用表示划分的误差,则有:因此,将求解Q*n的问题转化为求解对任意i,k求解子问题Q*i,下面说明怎样找出使达到最小的划分注意到最后一个数据段的指派模型是在k层上,因此分以下两种情形进行讨论:(1)当时,最后一个数据段的指定模型是固定的,因此仅需在最后一个数据段后面加一条数据di。可根据根据下式求得:(2)当时,需要找到使达到最小的最后一个数据段的起始位置,这个位置x的范围在i′一直到最左端位置i-bk+1之间,且有因此,可以通过在P1,x-1添加一个新的数据段Dx,i得到此时的可根据根据下式求得:二、迭代聚类由序列聚类算法输出的每个数据段表示隐藏模型的一个快照,一个模型可能有多个快照。迭代聚类的目标是将这些快照聚类到不同模型下。该问题的目标可以进行如下形式化:给定数据段序列P={D1,…,Dm},找到一个数据段序列的划分使下式的划分误差达到最小:为求解上述问题,本专利技术基于期望最大化方法的工作原理,设计迭代聚类算法,在线性时间内求出使Q(T)达到最小的近似解。算法基本原理如下:算法维护一个模型集初始时为空。然后算法交替执行赋值步和更新步,直到收敛,赋值步赋给每个数据段最有可能的模型,更新步基于赋值步的输出结果重新学习每个模型。(1)赋值步。从中赋给每个数据段Di在其上具有最小验证误差的模型。在算法初始阶段,是空的,算法先在所有数据段Di上学得一个模型对每个数据段Di,从中找到使验证误差ε(O,Di)最小的模型O,并把Di赋给模型O。如果O不在中则将其加入其中。(2)更新步。更新中的本文档来自技高网
...

【技术保护点】
1.一种高效的流数据模式挖掘方法,其特征在于,以最小化验证误差为聚类划分标准,通过两个步骤找出流数据中的隐藏模型:称其为验证误差最小化方法;具体步骤如下:(1)序列聚类;基于增强动态规划方法,找出将数据流划分为多个连续数据段的最优划分,即:使验证误差最小的划分;其中,每个数据段是流数据的一个连续片段,对应着一个模型生成的一个实例;(2)迭代聚类;基于类似于EM算法的方法,迭代聚类算法,不断地对序列聚类划分的数据段进行再聚类,在每个聚类上训练模型,直至收敛,得到流数据中的所有隐藏模型;其中,采用验证误差来作为聚类划分标准,其目标函数为:

【技术特征摘要】
1.一种高效的流数据模式挖掘方法,其特征在于,以最小化验证误差为聚类划分标准,通过两个步骤找出流数据中的隐藏模型:称其为验证误差最小化方法;具体步骤如下:(1)序列聚类;基于增强动态规划方法,找出将数据流划分为多个连续数据段的最优划分,即:使验证误差最小的划分;其中,每个数据段是流数据的一个连续片段,对应着一个模型生成的一个实例;(2)迭代聚类;基于类似于EM算法的方法,迭代聚类算法,不断地对序列聚类划分的数据段进行再聚类,在每个聚类上训练模型,直至收敛,得到流数据中的所有隐藏模型;其中,采用验证误差来作为聚类划分标准,其目标函数为:其中,m=1+|{(di,di+1)|di∈Dj,di+1∈Dk,j≠k}|,为数据段个数;δ≥0是一个调整数据段个数的规范化参数;式(1)中,P为数据集D={d1,...,dn}的一个不相交的聚类,即令为类Di的模型;为模型在数据集Di上的误差,定义为目标是找到令公式(1)最小化的P。2.根据权利要求1所述的高效的流数据模式挖掘方法,其特征在于,步骤(1)所述序列聚类的流程为:令Di,j表示从di到dj的子序列,令Pi,j是使得式(1)最小的最优划分;序列聚类的目标是找到P1,n,即使得整个序列的VEM最小的划分;对此问题,采用动态规划求解;假设已知道D1,j和Dj+1,n的最优序列聚类为P1,j和Pj+1,n(1≤j<n),求整个序列的聚类P1,n;结果有两种情况:整个序列为最优聚类,或者P1,j与Pj+1,n的所有子序列聚类构成最优聚类;接下来只需求和的最小值对应的划分,即为最优序列聚类结果;依据广覆盖和多样性的原则,预选部分数据序列,称之为枢纽段,并在枢纽段上计算出相应的数据模型,称之为候选模型;选择γ和p两个参数控制枢纽段的生成;γ控制k层枢纽段为k-1层枢纽段长度的多少倍,控制枢纽段长度的多样性,p为同层相邻枢纽段首尾数据标号之差,控制枢纽段相互交叠程度;每个枢纽段的候选模型为表示第k层第i个模型;接下来,对于任意数据序列Di,j,为其指派一个最接近于目标模型的候选模型H(Di,j);H(Di,j)是包含在Di,j中最长枢纽段上的模型,如果有多个符合此条件的枢纽段,则选择最后一个枢纽段上的模型;模型指派后,将式(1)中所有段...

【专利技术属性】
技术研发人员:周水庚陈金勇严传续刘朝斌陈勇
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1