数据聚类方法、装置及存储介质制造方法及图纸

技术编号:19965188 阅读:26 留言:0更新日期:2019-01-03 13:19
本发明专利技术公开了一种数据聚类方法、装置及存储介质,属于数据挖掘技术领域。所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。本发明专利技术通过对原始样本数据集进行均匀采样减少了样本数量,从而减少了终端运行资源,提高了聚类速度,后续对得到的均匀样本数据集中的各个样本的位置进行更新,并通过聚合聚类技术在位置更新后的数据集上进行数据聚类,提高了对样本进行聚类的准确率,提高了对样本进行聚类的准确率。

Data Clustering Method, Device and Storage Media

The invention discloses a data clustering method, device and storage medium, which belongs to the technical field of data mining. The method includes: uniformly sampling the original sample data set to obtain uniform sample data set; updating the positions of each sample in the uniform sample data set to get the data set after location updating; clustering data on the data set after location updating by clustering technology. The method reduces the number of samples by uniformly sampling the original sample data set, thereby reducing the terminal running resources, improving the clustering speed, updating the position of each sample in the uniform sample data set, and clustering the data on the data set after location updating by clustering technology, thus improving the accuracy of clustering the samples. It improves the accuracy of clustering samples.

【技术实现步骤摘要】
数据聚类方法、装置及存储介质
本专利技术涉及数据挖掘
,特别涉及一种数据聚类方法、装置及存储介质。
技术介绍
在大数据环境下,在很多的应用场景中需要使用到形状聚类算法来解决问题。例如在地理信息处理领域中,使用聚类算法提取出山脉、河流的地形信息;在图像处理领域识别出图像中的人或物;在医药学领域对蛋白质结构进行聚类,识别出不同类型的蛋白质等等。其中,聚类算法是指通过一个数据集中各个数据样本之间的相似性,将相似的数据样本划分到同一个聚类中,从而实现将原始数据集的样本划分为多个聚类的算法。目前,聚类算法通常需要一定的先验知识,有时候在进行形状聚类时可以将数据集分成各种凸型、超球型聚类等,但是,由于在进行聚类时对数据集的形状有偏向,导致有很多形状的数据并不能完成聚类,且都具有较高的时间复杂度,从而导致算法复杂,降低了聚类效率和准确性。
技术实现思路
本专利技术实施例提供了一种数据聚类方法、装置及存储介质,用于解决相关技术中聚类效率低准确性低的问题。所述技术方案如下:第一方面,提供了一种数据聚类方法,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。可选地,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;确定所述标准样本数据集的中心点的坐标和各个样本的坐标;基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。可选地,所述基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集,包括:基于所述中心点的坐标和所述各个样本的坐标,确定所述中心点与所述各个样本之间的距离;将距离所述中心点最近的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵;基于所述距离矩阵中每一行中的最大距离值,确定距离列向量;将所述距离列向量中最小距离值在所述标准样本数据集中对应的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;当所述均匀样本数据集中样本的个数未达到样本数量阈值时,返回所述基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵的操作,直至所述均匀样本数据集中样本的个数达到所述样本数量阈值为止。可选地,所述对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集,包括:通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点;基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数;基于所述每个样本的局部标准化参数,确定所述均匀样本数据集中每个样本与其他样本之间的样本权重;基于所述样本权重和所述每个样本当前的坐标,确定所述每个样本更新后的坐标;当确定所述每个样本更新后的坐标与上一次确定的坐标之间变化值大于坐标变化阈值时,对每个样本的坐标进行更新并返回所述通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点的操作,直至所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值为止;当所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值时,将坐标更新后的样本组成的数据集确定为所述位置更新后的数据集。可选地,所述基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数,包括:基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,通过如下第一公式确定所述均匀样本数据集中所述每个样本的局部标准化参数;其中,所述t(i)为所述均匀样本数据集中任一样本i的局部标准化参数,所述yt为所述任一样本i的k个邻近点中任一邻近点的坐标,所述yi为所述任一样本i的坐标,所述kNN(yi)为所述任一样本i的k个邻近点的坐标集合。可选地,所述基于所述每个样本的局部标准化参数,确定所述均匀样本数据集中每个样本与其他样本之间的样本权重,包括:基于所述每个样本的局部标准化参数,通过如下第二公式确定所述均匀样本数据集中每个样本与其他样本之间的样本权重;其中,所述Wij为所述均匀样本数据集中任一样本i与除所述样本i之外的其他任一样本j之间的样本权重,所述Si为样本i的坐标,所述Sj为样本j的坐标,所述t(i)为所述样本i的局部标准化参数,所述t(j)为所述样本j的局部标准化参数。可选地,所述基于所述样本权重和所述每个样本当前的坐标,确定所述每个样本更新后的坐标,包括:基于所述样本权重和所述每个样本当前的坐标,通过如下第三公式确定所述每个样本更新后的坐标;其中,所述Coordinatenew为所述均匀样本数据集中任一样本j的坐标,所述Wi为均匀样本数据集中任一样本j与除所述样本j之外其他任一样本i之间的权重,所述Coordinatei为所述任一样本i的坐标。可选地,所述通过聚合聚类技术在所述位置更新后的数据集上进行聚类,包括:将所述位置更新后的数据集中每个样本确定为一个目标聚类,得到多个目标聚类;确定所述多个目标聚类中每个目标聚类与其他目标聚类之间的相似度;将相似度最高的两个目标聚类合并为一个合并聚类;当所述位置更新后的数据集中包括有互k邻近关系的样本时,将所述合并聚类确定为多个目标聚类中的一个目标聚类,并返回所述确定所述多个目标聚类中每个目标聚类与其他目标聚类之间的相似度的操作,直至所述位置更新后的数据集中不包括有互k邻近关系的样本为止。可选地,所述确定所述多个目标聚类中每个目标聚类与其他目标聚类之间的相似度,包括:确定所述每个目标聚类中的样本个数和所述每个目标聚类与所述其他目标聚类之间具有互k邻近关系的样本数量;基于所述每个聚目标类中的样本个数和所述每个目标聚类与所述其他目标聚类之间具有互k邻近关系的样本数量,通过如下第四公式确定所述多个目标聚类中所述每个目标聚类与所述其他目标聚类之间的相似度;其中,所述Pk(cx,cy)为所述任一目标聚类x与所述任一目标聚类y之间的相似度,所述Pxy为所述聚类x与聚类y之间的具有互k邻近关系的样本数量,所述Pyx为所述聚类y与聚类x之间的具有互k邻近关系的样本数量,所述cx为聚类x中样本个数,所述cy为聚类y中样本个数。可选地,所述方法还包括:将剔除样本的标准样本数据集中剩余的样本的类型确定为与位置更新后的数据集中距离所述剩余的样本中任一样本最近的样本的类型。第二方面,提供了一种数据聚类装置,所述装置包括:采样模块,用于对原始样本数据集进行均匀采样,得到均匀样本数据集;更新模块,用于对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;聚类模块,用于通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。可选地,所述采样模块包括:拟合子模块,用于将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;第一确定子模块,用于确定所本文档来自技高网...

【技术保护点】
1.一种数据聚类方法,其特征在于,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。

【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。2.如权利要求1所述的方法,其特征在于,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;确定所述标准样本数据集的中心点的坐标和各个样本的坐标;基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。3.如权利要求2所述的方法,其特征在于,所述基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集,包括:基于所述中心点的坐标和所述各个样本的坐标,确定所述中心点与所述各个样本之间的距离;将距离所述中心点最近的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵;基于所述距离矩阵中每一行中的最大距离值,确定距离列向量;将所述距离列向量中最小距离值在所述标准样本数据集中对应的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;当所述均匀样本数据集中样本的个数未达到样本数量阈值时,返回所述基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵的操作,直至所述均匀样本数据集中样本的个数达到所述样本数量阈值为止。4.如权利要求1所述的方法,其特征在于,所述对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集,包括:通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点;基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数;基于所述每个样本的局部标准化参数,确定所述均匀样本数据集中每个样本与其他样本之间的样本权重;基于所述样本权重和所述每个样本当前的坐标,确定所述每个样本更新后的坐标;当确定所述每个样本更新后的坐标与上一次确定的坐标之间变化值大于坐标变化阈值时,对每个样本的坐标进行更新并返回所述通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点的操作,直至所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值为止;当所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值时,将坐标更新后的样本组成的数据集确定为所述位置更新后的数据集。5.如权利要求4所述的方法,其特征在于,所述基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数,包括:基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,通过如下第一公式确定所述均匀样...

【专利技术属性】
技术研发人员:赛影辉张国兴李中兵
申请(专利权)人:奇瑞汽车股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1