本发明专利技术公开了一种基于谱旋转的一步谱聚类方法,涉及计算机大数据信息技术领域,解决的技术问题是提供一种谱聚类步骤精简且聚类准确率高的谱聚类方法,该方法通过将关系矩阵的学习,谱表示的学习,k‑means聚类的优化和转换矩阵的学习集成到一个框架中,使用原始数据集的降低维度后的低维特征空间来学习关系矩阵,通过对原始k‑means结果的旋转来寻找较优的聚类划分超平面,得到较优的聚类划分结果。本发明专利技术精简了谱聚类步骤,对大数据的聚类时间复杂度为线性,编写代码时只涉及到简单的数学模型,易于实施且聚类准确率高。
【技术实现步骤摘要】
一种基于谱旋转的一步谱聚类方法
本专利技术涉及计算机大数据信息
,尤其涉及一种基于谱旋转的一步谱聚类方法。
技术介绍
随着互联网特别是移动互联网的飞速发展,大量的数据不断的被收集和整理。当前大数据知识发现的主要研究包括:划分、聚类、检索、增量学习,这四个方面。而聚类因其能帮助发现大数据中的隐藏信息而成为研究的热点。在众多的聚类方法中谱聚类以其能在任意形状的样本空间上聚类且收敛于全局最优解而成为研究的热门方向。现有技术谱聚类方法通常分为三大步,先是关系矩阵构建,然后是谱表示的学习,最后使用谱划分方法对得到的谱表示进行聚类划分,通过使用k-means对拉普拉斯矩阵进行特征值分解后的前d个特征向量所构成的矩阵进行聚类,即为最后的聚类结果。对现有技术的谱聚类方法而言,构建新的可靠的高质量的关系矩阵是其重要的一个步骤,而现有技术谱聚类方法构建的关系矩阵是从原始的欧式特征空间得到的,不能很准确的反映数据之间的真实的关系,进而以此关系矩阵进行后续的处理无法得到准确的子空间划分。除此之外,使用k-means进行最后的聚类划分所选择的划分平面并不是真实数据集分布的较优划分平面,因而对聚类准确率有较大的影响。
技术实现思路
针对现有技术的不足,本专利技术所解决的技术问题是提供一种谱聚类步骤精简且聚类准确率高的谱聚类方法。为解决上述技术问题,本专利技术采用的技术方案是一种基于谱旋转的一步谱聚类方法,通过将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,使用原始数据集的降低维度后的低维特征空间来学习关系矩阵,通过对原始k-means结果的旋转来寻找较优的聚类划分超平面,得到较优的聚类划分结果,包括如下步骤:(1)将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,设立目标函数,具体过程如下:设立目标函数为:对应的约束条件为:s.t.,Y∈{0,1},yi1=1,RTR=I,S∈S,WTXTXW=I;其中,X是训练集,xi表示数据集的第i个样本,W是需要学习的属性的系数矩阵,S是训练集样本之间的关系矩阵;目标函数的第一项和第二项是为了在原始数据集的低维特征空间中学习出能更好的表示样本之间关系的关系矩阵,可消除原始数据集中可能的噪音数据带来的聚类结果不够准确的问题,同时学习到更好的谱表示;第三项是为了通过谱旋转使预测的结果更加接近真实聚类结果从而提高聚类准确率;约束条件的第一项Y∈{0,1},yi1=1是为了让Y成为指示矩阵即矩阵的每一行只有一个1,其余元素均为0的矩阵;第二项RTR=I是为了让投影后的样本尽可能分开,方便后续的聚类划分;第三项S∈S是为了约束关系矩阵的取值;第四项WTXTXW=I是为了使降维新构成的样本XW是按正交投影的方式得到,使得到的谱表示更加合理准确;(2)对目标函数进行求解,得出聚类结果,具体分步骤如下:1)初始化矩阵S、W、Y、R为整个迭代过程提供一个初始值,其中,S使用热核函数构建,W是一个完全随机的矩阵,Y是一个随机的指示矩阵,R是一个单位矩阵;2)固定其他变量,使用ADMM框架更新W,设置XW-Z=0,此时目标函数如下:其中,Z是为了优化W引入的新的变量,U是使用拉格朗日乘子法后的残差项,右上角标T表示迭代的次数;更新W的方式如下:3)固定其他变量更新Y,此时目标函数如下:其中,右下角标F表示使用F范数对误差进行限制,使得每个样本的预测误差都得到了考虑;更新Y的方式如下:其中,yi,j表示指示矩阵Y中的每个元素的值,G是一个全1的矩阵,j是表示使G-XWR最小的k的值;4)固定其他变量更新R,此时目标函数如下:更新R的方式如下:R=JMT,WTXTY=JΣMT;其中,J、M表示对WTXTY进行特征值分解后的左右两个酉矩阵;5)固定其他变量更新S,此时目标函数如下:其中,α、β表示调节误差和限制项的实数系数,W是样本的系数矩阵,S是样本的相似度矩阵;更新S的方式如下:其中,θ表示引入拉格朗日乘子项,ρ表示的是用来调节该乘子项的系数;6)Y稳定,重复分步骤2)至分步骤5),直到两次计算的结果变化小于给定的阈值或迭代次数达到给定的阈值即结束迭代,此时的Y即为聚类的结果;7)输出聚类结果Y,对于测试数据集,同样是先执行分步骤1)初始化S、W、Y、R矩阵后,重复执行分步骤2)至分步骤5),直到结果稳定,得到的Y矩阵就是测试集的聚类结果。与现有技术相比,本专利技术有益效果:本专利技术简化了现有技术谱聚类需要的关系矩阵的学习、谱表示的学习、k-means聚类的优化和转换矩阵的学习的三个步骤,只需要一个步骤就可以得到聚类结果,对大数据的聚类时间复杂度为线性,编写代码时只涉及到一些简单的数学模型,易于实施,且在分步骤2)至分步骤5)的计算过程中考虑了保持原始数据集样本在低维特征空间中的结构特性,同时在对k-means结果进行旋转时考虑了较优的超平面,因此聚类准确率得到了保障。附图说明图1为本专利技术的方法流程图;图2为monk数据集收敛效果图。具体实施方式下面结合附图和实施例对本专利技术的具体实施方式作进一步的说明,但不是对本专利技术的限定。实施例:以UCI的数据集monk为例来说明本专利技术的具体实施过程,该数据集是人们为了测试僧侣问题解决效果的一个添加了噪音的人工数据集,内部包含有相同属性空间上的一组三个人工领域。该数据及有432个样本,属性维度为6(每个领域用两个维度说明),样本的真实类别为2类。该数据集合因为添加了噪音样本,能很好地检测本专利技术的算法对噪音的兼容能力。图1示出了一种基于谱旋转的一步谱聚类方法,通过将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,使用原始数据集的降低维度后的低维特征空间来学习关系矩阵,通过对原始k-means结果的旋转来寻找较优的聚类划分超平面,得到较优的聚类划分结果,包括如下步骤:(1)将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,设立目标函数,具体过程如下:设立目标函数为:对应的约束条件为:s.t.,Y∈{0,1},yi1=1,RTR=I,S∈S,WTXTXW=I;其中,X是训练集,xi表示数据集的第i个样本,W是需要学习的属性的系数矩阵,S是训练集样本之间的关系矩阵;目标函数的第一项和第二项是为了在原始数据集的低维特征空间中学习出能更好的表示样本之间关系的关系矩阵,可消除原始数据集中可能的噪音数据带来的聚类结果不够准确的问题,同时学习到更好的谱表示;第三项是为了通过谱旋转使预测的结果更加接近真实聚类结果从而提高聚类准确率;约束条件的第一项Y∈{0,1},yi1=1是为了让Y成为指示矩阵即矩阵的每一行只有一个1,其余元素均为0的矩阵;第二项RTR=I是为了让投影后的样本尽可能分开,方便后续的聚类划分;第三项S∈S是为了约束关系矩阵的取值;第四项WTXTXW=I是为了使降维新构成的样本XW是按正交投影的方式得到,使得到的谱表示更加合理准确;(2)对目标函数进行求解,得出聚类结果,具体分步骤如下:1)初始化矩阵S、W、Y、R为整个迭代过程提供一个初始值,其中,S使用热核函数构建,W是一个完全随机的矩阵,Y是一个随机的指示矩阵,R是一个单本文档来自技高网...
【技术保护点】
1.一种基于谱旋转的一步谱聚类方法,其特征在于,通过将关系矩阵的学习,谱表示的学习,k‑means聚类的优化和转换矩阵的学习集成到一个框架中,使用原始数据集的降低维度后的低维特征空间来学习关系矩阵,通过对原始k‑means结果的旋转来寻找较优的聚类划分超平面,得到较优的聚类划分结果,包括如下步骤:(1)将关系矩阵的学习,谱表示的学习,k‑means聚类的优化和转换矩阵的学习集成到一个框架中,设立目标函数;(2)对目标函数进行求解,得出聚类结果。
【技术特征摘要】
1.一种基于谱旋转的一步谱聚类方法,其特征在于,通过将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,使用原始数据集的降低维度后的低维特征空间来学习关系矩阵,通过对原始k-means结果的旋转来寻找较优的聚类划分超平面,得到较优的聚类划分结果,包括如下步骤:(1)将关系矩阵的学习,谱表示的学习,k-means聚类的优化和转换矩阵的学习集成到一个框架中,设立目标函数;(2)对目标函数进行求解,得出聚类结果。2.根据权利要求1所述的基于谱旋转的一步谱聚类方法,其特征在于,步骤(1)的具体过程如下:设立目标函数为:对应的约束条件为:s.t.,Y∈{0,1},yi1=1,RTR=I,S∈S,WTXTXW=I;其中,X是训练集,xi表示数据集的第i个样本,W是需要学习的属性的系数矩阵,S是训练集样本之间的关系矩阵;目标函数的第一项和第二项是为了在原始数据集的低维特征空间中学习出能更好的表示样本之间关系的关系矩阵,可消除原始数据集中可能的噪音数据带来的聚类结果不够准确的问题,同时学习到更好的谱表示;第三项是为了通过谱旋转使预测的结果更加接近真实聚类结果从而提高聚类准确率;约束条件的第一项Y∈{0,1},yi1=1是为了让Y成为指示矩阵即矩阵的每一行只有一个1,其余元素均为0的矩阵;第二项RTR=I是为了让投影后的样本尽可能分开,方便后续的聚类划分;第三项S∈S是为了约束关系矩阵的取值;第四项WTXTXW=I是为了使降维新构成的样本XW是按正交投影的方式得到,使得到的谱表示更加合理准确。3.根...
【专利技术属性】
技术研发人员:朱晓峰,童涛,朱永华,郑威,张师超,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。