【技术实现步骤摘要】
一种基于自适应PCA的流数据进化聚类方法及装置
[0001]本专利技术涉及应用于流数据实时搜索推荐、实时计算分析、实时异常检测等流数据聚类分析场景的一种自适应PCA的流数据进化聚类方法及装置。
技术介绍
[0002]当今互联网时代的流数据在我们的日常生活中随处可见,比如在电子商务的实时用户行为分析、实时商品推荐;在网络安全领域的异常检测、实时判断;在流数据下的机器学习模型自适应实时更新与调整等等。
[0003]我们常常使用聚类方法来学习流数据的数据点分布,判断一些数据点是否在训练数据分布之外来识别异常,聚类可以有效地学习流数据的正常相似性特征并生成模型,但由于异常或者故障状态的数据少之又少,对异常的学习效果也是不尽如人意的。即使数据流经过不断的学习,得到的聚类模型逐渐成型,当遇到“概念漂移”和异常行为时,模型的检测可靠性就可能会存在一定的问题。这就需要一个能够对流数据特征进行更好地分析提取的处理方式,以及一个更好的聚类方法,同时对于流数据,也需要重视流式计算的高效性。
技术实现思路
[0004]本专利 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应PCA的流数据进化聚类方法,其特征在于,包括如下步骤:(1)获取一批包含n维特征的n个流数据,组合成n
×
n的数据矩阵;针对数据矩阵进行PCA预处理得到矩阵W
i
。矩阵W
i
的每列为一个特征向量w
j
,j=1,
…
,n,每一个特征向量对应的特征值为λ
j
,j=1,
…
,n;(2)保留W
i
中的前m
i
列特征向量,得到降维后的主成分矩阵P
i
,m
i
表示第i批流数据的维度参数,按照如下方法进行更新:其中,参数τ是自定义的指数加权平均参数;λ
j
为第j个排序后的特征值;z表示满足保留信息比例的最小特征值个数;θ为预设的保留信息比例,根据更新的m
i
确定特征值选取个数,最后通过指数加权平均的方法向上取整得到最终选取的降维维度的更新值;(3)采用指数加权平均的方式将降维后的主成分矩阵P
i
与上一批的均衡化主成分矩阵P
′
i
‑1进行结合,得到当前批的均衡化主成分矩阵P
′
i
,起始的均衡化主成分矩阵P
′0为全零矩阵。最后用P
′
i
实现流数据向主成分映射,得到降维的数据矩阵X
′
i
:P
′
i
=αP
′
i
‑1+(1
‑
α)P
i
X
′
i
=X
i
P
′
i
其中,α为加权平均系数。X
i
为获取的第i批流数据的n
×
n的数据矩阵;(4)通过进化聚类的方式将降维后的数据矩阵聚类分为微簇和宏簇,实现进化聚类的图结构信息更新,信息中包含聚类中心C
i
。如果m
i
=m
i
‑1,则不更新聚类中心,如果m
i
≠m
i
‑1,则聚类中心C
i
需要先维度调整后再更新,将上一批流数据的聚类中心C
i
‑1和均衡化主成分矩阵P
i
′
‑...
【专利技术属性】
技术研发人员:陈伟,高杨,段明江,鲁萍,黄滔,张讯飞,
申请(专利权)人:浙江邦盛科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。