一种聚类方法、装置及电子设备制造方法及图纸

技术编号：18764589 阅读：29 留言：0更新日期：2018-08-25 10:51

本发明专利技术公开了一种聚类方法，包括：基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息；基于所述各样本的空间分布信息，对所述样本集中各样本进行划分；基于划分结果计算下一次聚类的初始点。本发明专利技术还公开一种聚类装置及电子设备。

全部详细技术资料下载

【技术实现步骤摘要】
一种聚类方法、装置及电子设备
本专利技术涉及数据处理技术，尤其涉及一种聚类方法、装置及电子设备。
技术介绍
机器学习(ML，MachineLearning)是一门多领域交叉技术，在实际工业领域中不断获得应用。在进行机器学习时，存在对样本进行分类前需要对样本进行聚类的操作；在对样本进行聚类时，通过对样本随机采样获得聚类的初始点，导致聚出的类别可能在聚类算法上是最优的，但是与实际业务需求偏差较大；或者聚类算法进行多次迭代收敛非常缓慢，而聚类结果却没有实际应用价值。
技术实现思路
本专利技术实施例提供一种聚类方法、装置及电子设备，能至少解决现有技术中存在的上述问题。本专利技术实施例的技术方案是这样实现的：第一方面，本专利技术实施例提供一种聚类方法，包括：基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息；基于所述各样本的空间分布信息，对所述样本集中各样本进行划分；基于划分结果计算下一次聚类的初始点。上述方案中，所述基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息，包括：初始化各样本的特征对应的权重，形成特征对应的初始化权重；计算每个样本的特征量化值与特征对应的初始化权重乘积之和，得到每个样本的特征加权和；基于所述样本集中各样本的特征加权和，构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。上述方案中，所述基于所述各样本的空间分布信息，对所述样本集中各样本进行划分，包括：将样本的特征加权和与预设的多个阈值进行匹配；对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。上述方案中，所述基于划...

【技术保护点】
1.一种聚类方法，其特征在于，包括：基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息；基于所述各样本的空间分布信息，对所述样本集中各样本进行划分；基于划分结果计算下一次聚类的初始点。

【技术特征摘要】
1.一种聚类方法，其特征在于，包括：基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息；基于所述各样本的空间分布信息，对所述样本集中各样本进行划分；基于划分结果计算下一次聚类的初始点。2.如权利要求1所述的方法，其特征在于，所述基于样本集中各样本的特征及所述特征对应的初始化权重，构建各样本的空间分布信息，包括：初始化各样本的特征对应的权重，形成特征对应的初始化权重；计算每个样本的特征量化值与特征对应的初始化权重乘积之和，得到每个样本的特征加权和；基于所述样本集中各样本的特征加权和，构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。3.如权利要求1所述的方法，其特征在于，所述基于所述各样本的空间分布信息，对所述样本集中各样本进行划分，包括：将样本的特征加权和与预设的多个阈值进行匹配；对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。4.如权利要求1所述的方法，其特征在于，所述基于划分结果计算下一次聚类的初始点，包括：计算划分得到的每个簇中各样本的特征加权和的平均值，得到每个簇的质心；确定每个簇的质心为下一次聚类的初始点。5.如权利要求4所述的方法，其特征在于，所述基于划分结果计算下一次聚类的初始点之后，还包括：以每个簇的质心作为初始点，对所述样本集中的样本进行聚类。6.如权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：标记聚类形成的簇对应的标签；基于所述样本集中的样本及所...

【专利技术属性】
技术研发人员：吴鲲，杨汇成，
申请(专利权)人：联想北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人