一种基于树状基学习器的混合特征数据聚类方法及系统技术方案

技术编号:32163624 阅读:17 留言:0更新日期:2022-02-08 15:17
本发明专利技术属于混合特征数据集聚类技术领域,公开了一种基于树状基学习器的混合特征数据聚类方法及系统,其方法包括步骤:S1、对样本集进行随机子采样生成N个不同的子样本集;S2、对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;S3、基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;S4、将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样本集最终的聚类结果。本发明专利技术设计了高纬度、混合特征情况下的数据聚类方法,可解决数据集维度过高以及连续特征和离散特征混合情况下无法明确定义相似性概念导致难以聚类的问题。聚类的问题。聚类的问题。

【技术实现步骤摘要】
一种基于树状基学习器的混合特征数据聚类方法及系统


[0001]本专利技术属于混合特征数据集聚类
,具体涉及一种基于树状基学习器的混合特征数据聚类方法及系统。

技术介绍

[0002]针对供能站的车辆数据集,数据特征的高维度以及连续特征和离散特征的混合两个方面都对传统聚类算法提出了挑战,特别是基于欧式距离的聚类算法。在“维数灾难”的情况下,所有的样本都将会近似等距并且相邻,从而使得最近邻的问题可能会变得不具有意义。其次,许多依赖于传统距离度量的算法对不同单位的属性是很敏感的,虽然数据转换可以用来缓解这一问题,但这有可能改变数据的分布,影响到聚类结果。并且,在大数据情况下,过大的样本量会导致有些聚类算法失效,如谱聚类。
[0003]对于高纬度混合型数据的处理,由于其高纬度的特点以及对混合数据没有明确定义相似性的概念,当数据集包含数值特征和分类特征时,计算两个数据点的相似性问题将会变得更加困难。
[0004]例如申请号为CN201910308311.7的中国专利技术专利,其公开了一种基于SOM神经网络与K

均值聚类的窃电检测方法及系统,其方法包括:从用户负荷曲线中随机抽取数据作为训练样本,并对所述训练样本进行归一化处理,获取处理样本;基于SOM神经网络对所述处理样本进行聚类,获取所述处理样本的聚类数和初始聚类中心;将所述聚类数和所述初始聚类中心作为K

均值聚类的初始值,基于所述K

均值聚类对所述处理样本进行聚类,获取用户负荷特征曲线;计算待检测用户负荷与其用户负荷特征曲线的欧式距离,获取所述待检测用户负荷与其用户负荷特征曲线的欧式距离;当所述欧式距离大于预先设定的阈值时,则将所述用户判断为窃电嫌疑用户。该专利即通过欧式距离进行聚类,无法对高纬度混合型数据进行准确的聚类处理。
[0005]因此,亟需一种能针对高纬度混合型数据进行准确聚类的方案。

技术实现思路

[0006]针对现有技术中存在的上述问题,本专利技术提出一种基于树状基学习器的混合特征数据聚类方法及系统,可针对高纬度混合型数据进行准确聚类。
[0007]本专利技术采用以下技术方案:一种基于树状基学习器的混合特征数据聚类方法,包括步骤:
[0008]S1、对样本集进行随机子采样生成N个不同的子样本集;
[0009]S2、对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;
[0010]S3、基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;
[0011]S4、将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样
本集最终的聚类结果。
[0012]优选地,步骤S1具体包括以下步骤:
[0013]S1.1、初始化聚类森林,设置聚类森林中树的棵树为N;
[0014]S1.2、设置子样本集内样本个数为Ψ;
[0015]S1.2、对样本集采样N次,每次从样本集中随机不放回采样Ψ个样本,以生成N个子样本集。
[0016]优选地,步骤S2中具体包括以下步骤:
[0017]S2.1、初始化树状基学习器,设置树的最大深度,并生成每颗树的根节点;
[0018]S2.2、随机挑选一子样本集,将该子样本集中的所有样本均放入一根节点;
[0019]S2.3、选取树中一个未访问过的节点,随机选取一种样本特征,遍历该节点中所有样本与该样本特征相关的值,作为当前节点的多个分割阈值;
[0020]S2.4、根据每个分割阈值,分别对当前节点中的样本进行左右树划分,并分别计算划分后每个样本的样本轮廓系数;
[0021]S2.5、分别根据每个分割阈值下每个样本的轮廓系数计算整棵树的整树轮廓系数;
[0022]S2.6、判断是否存在分割阈值,以使划分后整树轮廓系数大于划分前整树轮廓系数,若存在,则挑选使得整树轮廓系数最大的分割阈值作为划分阈值,并按划分阈值对当前节点中的所有样本进行左右树划分,并产生两个新的节点;若不存在则不进行左右树划分,也不产生新节点;
[0023]S2.7、重复步骤S2.3

S2.6,直至树中的所有节点均已被访问或者树的深度已达到最大深度,完成当前树的训练;
[0024]S2.8、重复步骤S2.2

S2.7,直至所有树均训练完成;
[0025]S2.9、对每棵树的节点个数求取平均值,以得到聚类簇数量K。
[0026]优选地,步骤S2.4中样本轮廓系数的计算公式具体为:
[0027][0028]其中,a(i)是样本i到其节点内其他样本的平均距离,b(i)是样本i到相邻最近一节点内所有样本的平均距离。
[0029]优选地,步骤S2.5中,整树轮廓系数通过对树中每个样本的轮廓系数取平均值得到。
[0030]优选地,步骤S3具体包括以下步骤:
[0031]S3.1、初始化相似度矩阵;
[0032]S3.2、将任意两个样本分别放入步骤2训练好的每一颗树中;
[0033]S3.3、通过判断两个样本在每一颗树中是否落入同一节点,以形成该两个样本之间的相似度矩阵;
[0034]S3.4、重复步骤S3.2

S3.3,直至得到所有样本之间的相似度矩阵。
[0035]S3.5、将所有相似度矩阵进行归一化,以得到所有样本之间的多个归一化相似度矩阵。
[0036]优选地,步骤S3.5中所述归一化相似度矩阵为通过将相似度矩阵除以树的总数N
得到。
[0037]优选地,N=50,Ψ=30。
[0038]优选地,树的最大深度为10。
[0039]相应地,还提供了一种基于树状基学习器的混合特征数据聚类系统,包括依次相联的子样本集生成模块、树状基学习模块、相似度矩阵模块、聚类模块,聚类模块还与树状基学习模块联接;
[0040]子样本集生成模块,用于对样本集进行随机子采样生成N个不同的子样本集;
[0041]树状基学习模块,用于对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;
[0042]相似度矩阵模块,用于基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;
[0043]聚类模块,用于将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样本集最终的聚类结果。
[0044]本专利技术的有益效果是:设计了高纬度、混合特征情况下的数据聚类方法。本专利技术引入树状结构在不进行数据转换的情况下同时处理连续特征和离散特征,利用树的叶子节点可以视为一个簇的思想进行聚类操作;进一步运用集成思想提高聚类质量,进一步统计任意两个样本到达森林中每棵树同样的叶子节点的次数来计算相似度矩阵,定义了高纬度、混合特征数据之间的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于树状基学习器的混合特征数据聚类方法,其特征在于,包括步骤:S1、对样本集进行随机子采样生成N个不同的子样本集;S2、对每个子样本集进行树状基学习器的训练,并得到训练完成后的N颗树以及聚类簇数量K;S3、基于训练完成后的N颗树,统计任意两个样本之间的相似度矩阵,并将所有相似度矩阵归一化,以得到多个归一化相似度矩阵;S4、将聚类簇数量K以及多个归一化相似度矩阵作为谱聚类模型的输入,以得到样本集最终的聚类结果。2.根据权利要求1所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S1具体包括以下步骤:S1.1、初始化聚类森林,设置聚类森林中树的棵树为N;S1.2、设置子样本集内样本个数为Ψ;S1.2、对样本集采样N次,每次从样本集中随机不放回采样Ψ个样本,以生成N个子样本集。3.根据权利要求2所述的一种基于树状基学习器的混合特征数据聚类方法,其特征在于,步骤S2中具体包括以下步骤:S2.1、初始化树状基学习器,设置树的最大深度,并生成每颗树的根节点;S2.2、随机挑选一子样本集,将该子样本集中的所有样本均放入一根节点;S2.3、选取树中一个未访问过的节点,随机选取一种样本特征,遍历该节点中所有样本与该样本特征相关的值,作为当前节点的多个分割阈值;S2.4、根据每个分割阈值,分别对当前节点中的样本进行左右树划分,并分别计算划分后每个样本的样本轮廓系数;S2.5、分别根据每个分割阈值下每个样本的轮廓系数计算整棵树的整树轮廓系数;S2.6、判断是否存在分割阈值,以使划分后整树轮廓系数大于划分前整树轮廓系数,若存在,则挑选使得整树轮廓系数最大的分割阈值作为划分阈值,并按划分阈值对当前节点中的所有样本进行左右树划分,并产生两个新的节点;若不存在则不进行左右树划分,也不产生新节点;S2.7、重复步骤S2.3

S2.6,直至树中的所有节点均已被访问或者树的深度已达到最大深度,完成当前树的训练;S2.8、重复步骤S2.2

S2.7,直至所有树均训练完成;S2.9、对每棵树的节点个数求取平均值,以得到聚类簇数...

【专利技术属性】
技术研发人员:范庆来倪勇龙陈义周君良钱至远朱霄蒋肇标郭庆
申请(专利权)人:浙江浙能技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1