基于反馈控制系统的高维流数据聚类方法技术方案

技术编号:35506020 阅读:33 留言:0更新日期:2022-11-09 14:18
本发明专利技术公开了基于反馈控制系统的高维流数据聚类方法,包括S1:建立基于反馈控制系统的高维流数据聚类系统包括窗内主成分分析模块、反馈流聚类模块以及反馈控制器;S2:数据进入窗内主成分分析模块将高维数据处理为低维数据块;S3:反馈流聚类模块接收主成分分析模块降维后的低维数据块;S4:反馈控制器收到反馈流聚类模块的聚类结果;通过实时分析聚类结果,并引入判别分数以采取预备策略,调节窗内主成分分析和反馈流聚类中的超参数;利用该算法可以执行在高维数据流环境中的聚类分析。所述算法的构建基于三阶段的闭环结构,分别为窗内主成分分析WPCA、反馈流聚类FSC以及反馈控制器FC,解决了在高维流环境下聚类的参数自适应的难题并提高了最终结果的质量。应的难题并提高了最终结果的质量。应的难题并提高了最终结果的质量。

【技术实现步骤摘要】
基于反馈控制系统的高维流数据聚类方法


[0001]本专利技术公开涉及高维流数据降维及聚类
,尤其涉及基于反馈控制系统的高维流数据聚类方法。

技术介绍

[0002]随着信息时代的到来,数据正以指数形式急剧增长,导致很难通过人工计算或是传统批处理模式进行数据分析以便用于辅助决策,这也对数据挖掘提出了新的挑战。聚类分析作为数据挖掘中一个重要的分支,同时也是获取数据本质的有效技术之一,它的目标就是将一个对象集合通过一定的算法分成由相似的对象组成多个簇并使簇内的相似度最大化。现有的传统聚类算法,如K

Means聚类、Spectral clustering、基于密度的聚类、网格聚类、层次聚类,虽然已被广泛使用,但它们总是以批处理模式进行聚类。由于批处理模式总是要求将一个完整的数据集载入内存后再进行离线计算,因此一旦数据实时产生的速度超过了处理数据的速度,批处理模式就无法对这种连续产生且无限增长的数据—流数据进行有效的聚类分析,比如直播场景所提供的视频流、战斗机执行任务时对地图的实时分析以及网购活动所产生的数据等。而针对上述视频或图片这样的数据来说,数据不再以单一维度或几个维度的形式存在,而是具有上百维度的特点,这使得对这样的高维数据进行聚类成为一个经典的难题。
[0003]由于高维数据的维度过高,在全维空间构成的稀疏数据使得传统聚类算法中衡量对象相对远近距离的度量指标失效。为了能找到决定高维数据中样本差异的特征,相当数量的子空间聚类算法被提出。此类算法将原始空间分为不同的子空间,并找到存在于多个可能重叠的子空间中的簇。由于子空间聚类算法是将特征选择和传统聚类算法相结合以完成对高维数据的聚类,所以此类算法仍然是基于批处理模式的并且仅能处理高维数据的聚类,而无法应用于实际生活中广泛存在的高维流数据。
[0004]综上所述,提出一个能够处理流数据并兼顾高维数据的聚类算法是有必要的。

技术实现思路

[0005]鉴于此,本专利技术公开提供了基于反馈控制系统的高维流数据聚类方法,该算法能够处理流数据并兼顾高维数据的聚类;
[0006]本专利技术提供的技术方案,具体为,基于反馈控制系统的高维流数据聚类方法,包括如下步骤:
[0007]S1:建立基于反馈控制系统的高维流数据聚类系统,所述系统依次包括窗内主成分分析模块、反馈流聚类模块以及反馈控制器;其中所述系统为闭环体系结构;
[0008]S2:数据进入窗内主成分分析模块迭代降维,将高维数据处理为低维数据块;
[0009]S3:反馈流聚类模块接收来自上游主成分分析模块降维后的低维数据块,经过二重迭代聚类先输出一个待分析最终聚类效果的簇群,再进行簇聚合;
[0010]S4:二重迭代过程结束,反馈控制器收到反馈流聚类模块的聚类结果;反馈控制器
将聚类结果作为输入进行分析,根据算法得到最合适的调整策略,并传输反馈控制信号给上游的窗内主成分分析模块和反馈流聚类模块,最终反馈控制系统自适应地控制高维流数据的聚类过程。
[0011]进一步地,S2中窗内主成分分析模块对高维数据流降维的方法包括:
[0012]S21:窗内主成分分析模块从下游反馈控制器接收反馈信号,根据反馈信号信息确定降维的最小k值,并按照窗口属性对窗口数据进行调整;
[0013]S22:对窗口内的数据矩阵进行奇异值分解,定义窗口数据矩阵为A,求出协方差矩阵 A
T
A,AA
T
,其中对于A
T
A,特征值和特征向量是λ
i
和v
i
;对于AA
T
,特征向量是λ
i
和u
i
;根据公式:A
·
v
i
=λ
i
·
u
i
,得到奇异值矩阵A;
[0014]S23:根据k的最大奇异值和相应的特征向量提取形式矩阵P的原始数据矩阵,再乘以P 的转置矩阵得到低维度矩阵R,即后续算法所需的低维数据块。
[0015]进一步地,S3中聚类过程分为两个阶段,分别是窗口内聚类阶段和簇聚合阶段;
[0016]所述簇聚合阶段采用滑动窗口来采集数据,通过滑动窗口的每一个数据对象都进行WC 次降维聚类;
[0017]若窗口中的每一次聚类都保证了当前数据对象能被正确地归纳到所属簇中,则认为当前数据对象没有聚类误差;
[0018]若存在任何一次当前数据对象不应属于现存簇时,则创建二重迭代的聚类形式进行处理新簇并等待合并簇阶段再次聚合;
[0019]所述窗口内聚类阶段用于判断FBMC是否存在,若不存在则代表算法还未开始,初始化 FBMC簇群集合,在初始化阶段,算法将样本集D

进行快速的网格聚类,完成对样本空间的简易分割,每个网格中心即为簇中心、网格长度为半径,并进入下次循环,遍历窗口中的每个数据实例x
i
,计算它与每个簇中心的距离,其中将距离小于阈值的x
i
加入对应FBMC中,若不存在这样的FBMC使其距离小于所述阈值,则以该数据实例x
i
为中心建立新的FBMC,直到数据流终止,其中为计算FBMC的中心,使用簇中C1的加权平均值(指数加权衰减函数
·
计算权重)除以总节点数;利用C2计算簇半径。
[0020]进一步地,所述簇聚合阶段:将从窗内聚合阶段接收到的簇群进行二次聚合,二次聚合时,簇和簇之间存在三种情况:包含、相交、分离;其中,分离:两个簇群都不用进行任何处理,均保留;若两个簇呈现包含关系,被包含的簇不进行处理,直接保留;另一个簇在剔除了相交部分后也保留;若两个簇呈现相交关系,则输出三个簇,分别是两个簇的交集以及两个差集;
[0021]进一步地,所述反馈控制系统设置的超参数包括:滑动窗口尺寸、滑动距离、降低维度目标;指定簇半径、距离种类曼哈顿距离;反馈控制系统通过自动化的反馈控制策略调整超参数;其中自动化的反馈控制策略是:反馈控制系统接收来自反馈流聚类模块的簇群,并对该簇群进行评分,在系统内部发生不同的情况时依据得分选出具体的反馈措施,以及与前置模块有冲突时的解决策略。
[0022]进一步地,令反馈得分SF为HDBI、HDVI、SVI、轮廓系数s(i)的加权和;w
i
代表窗口i的权重,其数学公式表示如下:
[0023][0024]反馈策略根据各指标的加权和SF进行调整,当SF大于75%时,所述反馈控制系统保持其初始设置;当SF小于50%时,反馈控制系统则保存当前数据并将其发送回上游阶段,以便下一次迭代;
[0025]当SF大于50%且小于75%,同时反馈控制系统的当前维数大于SVI计算的最低维数时,反馈控制系统将在以下几种策略中进行轮询调用:
[0026](1)将初始窗口大小加倍。窗口越大,就越接近批处理环境中的集群结果;
[0027](2)缩小窗口的滑动步长。这将增加聚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于反馈控制系统的高维流数据聚类方法,其特征在于,包括如下步骤:S1:建立基于反馈控制系统的高维流数据聚类系统,所述系统依次包括窗内主成分分析模块、反馈流聚类模块以及反馈控制器;其中所述系统为闭环体系结构;S2:数据进入窗内主成分分析模块迭代降维,将高维数据处理为低维数据块;S3:反馈流聚类模块接收来自上游主成分分析模块降维后的低维数据块,经过二重迭代聚类先输出一个待分析最终聚类效果的簇群,再进行簇聚合;S4:二重迭代过程结束,反馈控制器收到反馈流聚类模块的聚类结果;反馈控制器将聚类结果作为输入进行分析,根据算法得到最合适的调整策略,并传输反馈控制信号给上游的窗内主成分分析模块和反馈流聚类模块,最终反馈控制系统自适应地控制高维流数据的聚类过程。2.根据权利要求1所述的基于反馈控制系统的高维流数据聚类方法,其特征在于,S2中窗内主成分分析模块对高维数据流降维的方法包括:S21:窗内主成分分析模块从下游反馈控制器接收反馈信号,根据反馈信号信息确定降维的最小k值,并按照窗口属性对窗口数据进行调整;S22:对窗口内的数据矩阵进行奇异值分解,定义窗口数据矩阵为A,求出协方差矩阵A
T
A,AA
T
,其中对于A
T
A,特征值和特征向量是λ
i
和v
i
;对于AA
T
,特征向量是λ
i
和u
i
;根据公式:A
·
v
i
=λ
i
·
u
i
,得到奇异值矩阵A;S23:根据k的最大奇异值和相应的特征向量提取形式矩阵P的原始数据矩阵,再乘以P的转置矩阵得到低维度矩阵R,即后续算法所需的低维数据块。3.根据权利要求1所述的基于反馈控制系统的高维流数据聚类方法,其特征在于,S3中聚类过程分为两个阶段,分别是窗口内聚类阶段和簇聚合阶段;所述簇聚合阶段采用滑动窗口来采集数据,通过滑动窗口的每一个数据对象都进行WC次降维聚类;若窗口中的每一次聚类都保证了当前数据对象能被正确地归纳到所属簇中,则认为当前数据对象没有聚类误差;若存在任何一次当前数据对象不应属于现存簇时,则创建二重迭代的聚类形式进行处理新簇并等待合并簇阶段再次聚合;所述窗口内聚类阶段用于判断FBMC是否存在,若不存在则代表算法还未开始,初始化FBMC 簇群集合,在初始化阶段,算法将样本集D
...

【专利技术属性】
技术研发人员:丁国辉孙露露魏茹张琦刘宇琪王言开姜超姜文李尧朱帅王磊尹海军范纯龙
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1