一种基于L制造技术

技术编号:29587002 阅读:114 留言:0更新日期:2021-08-06 19:46
本发明专利技术公开了一种基于L

【技术实现步骤摘要】
一种基于L2,1范数的大规模数据快速聚类方法
本专利技术涉及机器学习、数据分析领域,具体涉及基于L2,1范数的大规模数据快速聚类方法。
技术介绍
聚类分析也称集群分析,是数据统计与数据分析领域的重要组成部分,也是无监督学习任务中被研究最多、应用也最为广泛的一种技术。聚类分析根据数据中样本的特征,将数据划分为多个不同大小的簇,使研究人员可以初步了解数据空间的结构和特点,同时也为下一步的数据分析、数据处理等环节奠定了基础。随着互联网、大数据和人工智能等技术应用于社会生活的各个领域,其产生的海量数据需要通过聚类分析来处理。然而,传统的聚类方法在处理这些大规模数据时已经很难满足人们对计算速度和精确度的要求。同时,真实数据中存在着大量非线性和非高斯分布的噪声,这些噪声难以去除,极大地影响了聚类结果的准确性。
技术实现思路
本专利技术的目的是进一步提高聚类分析技术在面对大规模数据集聚类任务时的性能,使聚类过程在拥有快速计算特性的同时,消除大规模数据中的噪声影响,达到较高的精确度。为了达到上述目的,本专利技术采用如下技术方本文档来自技高网...

【技术保护点】
1.一种基于L

【技术特征摘要】
1.一种基于L2,1范数的大规模数据快速聚类方法,其特征在于:该方法使用L2,1范数衡量K-means方法和谱聚类结果的误差,同时采用基于锚点图的谱聚类,提高计算效率的同时,提高精确度;具体步骤如下:
步骤1:粗聚类结果生成:采用K-means方法对原始数据操作生成粗聚类结果;
设X={x1,x2,...,xn}∈Rn×d为有c个簇的大规模数据集,其中,n为样本个数,d为样本的特征维度数;首先,使用K-means方法来获得一个粗聚类结果,得到的聚类指示矩阵记为C∈Rn×c;具体来说,如果样本xi在第j个簇中,则Cij=1,否则Cij=0,其中,Cij表示矩阵C中第i行,第j列的元素;
步骤2:生成锚点及锚点图:采用K-means方法生成锚点,并基于高斯核函数进行度量生成锚点图;
设U={u1,u2,…,um}∈Rm×d为采用K-means方法生成的锚点,其中,m为锚点个数,d为样本的特征维度数;则原始数据与其锚点之间的锚点图G可由下式计算:



式中,Gij表示矩阵G中第i行,第j列的元素。xi·和uj·分别代表X和U中第i个样本点和第j个锚点,uk·表示第k个锚点;Δi表示{1,2,…,m}的一个子集,{1,2,…,m}为U中xi的k近邻个数;
本方法使用高斯核函数ψ定义xi和uj之间的边的权值,高斯核函数的定义如下:



其中,参数σ是一个可以通过经验确定的自由参数;a,b均为任意维度相等的向量;
步骤3:基于锚点图的拉普拉斯矩阵进行谱聚类:
由步骤1和步骤2,得到数据集X与其锚点图G之间对应的相似度矩阵W:
W=GGT
设为度矩阵,其中第i个对角元素I是大小为n×n的单位矩阵;则归一化拉普拉斯矩阵L由下式给出:



步骤4:使用L2,1范数约束粗聚类结果和谱聚类结果之间的误差为最小值,并得到目标函数;
目标函数表述如下:
Q(Y)=||C-Y||2,1+λTr(YTLY)
其中,||C-Y||2,1表示矩阵(C-Y)的L2,1范数,λ是正则化参数,Y表示最大概率聚类矩阵,即由Y得到最终聚类结果,YT为Y的转置矩阵;
上式中目标函数Q(Y)的第一项为重构误差,能够保证最终的聚类结果尽可...

【专利技术属性】
技术研发人员:张雪涛张劲节杨奔刘银川王飞
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1