一种聚类方法、装置及电子设备制造方法及图纸

技术编号:18764589 阅读:29 留言:0更新日期:2018-08-25 10:51
本发明专利技术公开了一种聚类方法,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。本发明专利技术还公开一种聚类装置及电子设备。

【技术实现步骤摘要】
一种聚类方法、装置及电子设备
本专利技术涉及数据处理技术,尤其涉及一种聚类方法、装置及电子设备。
技术介绍
机器学习(ML,MachineLearning)是一门多领域交叉技术,在实际工业领域中不断获得应用。在进行机器学习时,存在对样本进行分类前需要对样本进行聚类的操作;在对样本进行聚类时,通过对样本随机采样获得聚类的初始点,导致聚出的类别可能在聚类算法上是最优的,但是与实际业务需求偏差较大;或者聚类算法进行多次迭代收敛非常缓慢,而聚类结果却没有实际应用价值。
技术实现思路
本专利技术实施例提供一种聚类方法、装置及电子设备,能至少解决现有技术中存在的上述问题。本专利技术实施例的技术方案是这样实现的:第一方面,本专利技术实施例提供一种聚类方法,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。上述方案中,所述基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息,包括:初始化各样本的特征对应的权重,形成特征对应的初始化权重;计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。上述方案中,所述基于所述各样本的空间分布信息,对所述样本集中各样本进行划分,包括:将样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。上述方案中,所述基于划分结果计算下一次聚类的初始点,包括:计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;确定每个簇的质心为下一次聚类的初始点。上述方案中,所述基于划分结果计算下一次聚类的初始点之后,还包括:以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。上述方案中,所述方法还包括:标记聚类形成的簇对应的标签;基于所述样本集中的样本及所述标签训练机器学习模型,使得所述机器学习模型具有根据所述样本预测相应的标签的性能。第二方面,本专利技术实施例还提供一种聚类装置,包括:构建单元,用于基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;划分单元,用于基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;计算单元,用于基于划分结果计算下一次聚类的初始点。上述方案中,所述构建单元,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。第三方面,本专利技术实施例还提供一种电子设备,所述电子设备包括:存储器,用于存储可执行程序;处理器,用于通过执行所述存储器中存储的可执行程序时实现:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。上述方案中,所述处理器,具体用于初始化各样本的特征对应的权重,形成特征对应的初始化权重;计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。本专利技术实施例提供的聚类方法、装置及电子设备,基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。如此,通过基于样本的特征及特征对应的初始化权重对样本集中的样本进行划分,以获得下一次聚类的初始点,避免了对样本随机采样作为聚类的初始点导致的聚类结果与实际业务需求偏差大、聚类结果没有实际应用价值等问题,能够快速的将各样本聚类到相应的簇中,提高了聚类效率和聚类效果。附图说明图1为本专利技术实施例电子设备的一个可选的硬件结构示意图;图2为本专利技术实施例一提供的聚类方法的处理流程示意图;图3为本专利技术实施例构建各样本的空间分布信息的处理流程示意图;图4为本专利技术实施例样本的空间分布信息示意图;图5-1为本专利技术实施例对样本进行划分的示意图一;图5-2为本专利技术实施例对样本进行划分的示意图二;图6为本专利技术实施例二提供的聚类方法的处理流程示意图;图7为本专利技术实施例三提供的聚类方法的处理流程示意图;图8为本专利技术实施例四提供的聚类装置的组成结构示意图。具体实施方式对本专利技术进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)机器学习(MachineLearning):对训练集的样本分析,获得能够对样本的目标变量进行预测的机器学习模型(下文中也简称为参数)的过程。2)无监督学习,通过对无标记训练样本的学习来揭示数据的内在性质及规律,为数据分析提供基础。3)样本集,采用无监督方式训练机器学习模型所采用的样本(也称为训练样本)的集合。4)聚类,将数据集中的样本,按照样本间的相似性划分为若干个不相交的子集,每个子集成为一个簇。本专利技术实施例可提供为聚类方法以及聚类装置,实际应用中,聚类装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源,如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)协同实现。图1示例性示出了电子设备10的一个可选的硬件结构示意图,包括处理器11、输入/输出接口13(例如显示器、键盘、触摸屏、扬声器麦克风中的一个或多个),存储器14以及网络接口12,组件可以经系统总线15连接通信。当然,本专利技术实施例不局限于提供为方法和硬件,还可有多种实现方式,例如提供为存储介质(存储有用于执行本专利技术实施例提供的聚类方法的指令),以下再对不同的实现方式举例说明。一、移动端应用程序及模块本专利技术实施例可提供为使用C/C++、Java等编程语言设计的软件模块,嵌入到基于Android或iOS等系统的各种移动端Apps中(例如微信等)(以可执行指令的存储在移动端的存储介质中,由移动端的处理器执行),从而直接使用移动端自身的计算资源完成相关的聚类任务,并且定期或不定期地通过各种网络通信方式将数据、中间结果或最终结果传送给远程的服务器,或者在移动端本地保存。二、服务器应用程序及平台本专利技术实施例可提供使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块,运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储,并由服务器端的处理器运行),将接收到的来自其它设备的各种原始数据、各级中间数据和最终结果中的至少一种,与服务器上已有的某些数据或结果综合起来计算得到更新的结果,然后实时或非实时地输出给其他应用程序或模块使用,也可以写入服务器端数据库或文件进行存储。本专利技术实施例还可以提供为在多台服务器构成的分布式、并行计算平台上,搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI,UserInterface),形成供个人本文档来自技高网...

【技术保护点】
1.一种聚类方法,其特征在于,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。

【技术特征摘要】
1.一种聚类方法,其特征在于,包括:基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息;基于所述各样本的空间分布信息,对所述样本集中各样本进行划分;基于划分结果计算下一次聚类的初始点。2.如权利要求1所述的方法,其特征在于,所述基于样本集中各样本的特征及所述特征对应的初始化权重,构建各样本的空间分布信息,包括:初始化各样本的特征对应的权重,形成特征对应的初始化权重;计算每个样本的特征量化值与特征对应的初始化权重乘积之和,得到每个样本的特征加权和;基于所述样本集中各样本的特征加权和,构建以样本的特征加权和及相同特征加权和的样本数量为维度的空间分布信息。3.如权利要求1所述的方法,其特征在于,所述基于所述各样本的空间分布信息,对所述样本集中各样本进行划分,包括:将样本的特征加权和与预设的多个阈值进行匹配;对所述各样本的空间分布信息中满足相同阈值条件的样本进行划分。4.如权利要求1所述的方法,其特征在于,所述基于划分结果计算下一次聚类的初始点,包括:计算划分得到的每个簇中各样本的特征加权和的平均值,得到每个簇的质心;确定每个簇的质心为下一次聚类的初始点。5.如权利要求4所述的方法,其特征在于,所述基于划分结果计算下一次聚类的初始点之后,还包括:以每个簇的质心作为初始点,对所述样本集中的样本进行聚类。6.如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:标记聚类形成的簇对应的标签;基于所述样本集中的样本及所...

【专利技术属性】
技术研发人员:吴鲲杨汇成
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1