The invention discloses a data clustering method, device and storage medium, which belongs to the technical field of data mining. The method includes: uniformly sampling the original sample data set to obtain uniform sample data set; updating the positions of each sample in the uniform sample data set to get the data set after location updating; clustering data on the data set after location updating by clustering technology. The method reduces the number of samples by uniformly sampling the original sample data set, thereby reducing the terminal running resources, improving the clustering speed, updating the position of each sample in the uniform sample data set, and clustering the data on the data set after location updating by clustering technology, thus improving the accuracy of clustering the samples. It improves the accuracy of clustering samples.
【技术实现步骤摘要】
数据聚类方法、装置及存储介质
本专利技术涉及数据挖掘
,特别涉及一种数据聚类方法、装置及存储介质。
技术介绍
在大数据环境下,在很多的应用场景中需要使用到形状聚类算法来解决问题。例如在地理信息处理领域中,使用聚类算法提取出山脉、河流的地形信息;在图像处理领域识别出图像中的人或物;在医药学领域对蛋白质结构进行聚类,识别出不同类型的蛋白质等等。其中,聚类算法是指通过一个数据集中各个数据样本之间的相似性,将相似的数据样本划分到同一个聚类中,从而实现将原始数据集的样本划分为多个聚类的算法。目前,聚类算法通常需要一定的先验知识,有时候在进行形状聚类时可以将数据集分成各种凸型、超球型聚类等,但是,由于在进行聚类时对数据集的形状有偏向,导致有很多形状的数据并不能完成聚类,且都具有较高的时间复杂度,从而导致算法复杂,降低了聚类效率和准确性。
技术实现思路
本专利技术实施例提供了一种数据聚类方法、装置及存储介质,用于解决相关技术中聚类效率低准确性低的问题。所述技术方案如下:第一方面,提供了一种数据聚类方法,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。可选地,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;确定所述标准样本数据集的中心点的坐标和各个样本的坐标;基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。可选地,所述基于所述 ...
【技术保护点】
1.一种数据聚类方法,其特征在于,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。
【技术特征摘要】
1.一种数据聚类方法,其特征在于,所述方法包括:对原始样本数据集进行均匀采样,得到均匀样本数据集;对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集;通过聚合聚类技术在所述位置更新后的数据集上进行数据聚类。2.如权利要求1所述的方法,其特征在于,所述对原始样本数据集进行均匀采样,得到均匀样本数据集,包括:将所述原始样本数据集进行高斯分布拟合,得到标准样本数据集;确定所述标准样本数据集的中心点的坐标和各个样本的坐标;基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集。3.如权利要求2所述的方法,其特征在于,所述基于所述标准样本数据集的中心点的坐标和所述各个样本的坐标,确定所述均匀样本数据集,包括:基于所述中心点的坐标和所述各个样本的坐标,确定所述中心点与所述各个样本之间的距离;将距离所述中心点最近的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵;基于所述距离矩阵中每一行中的最大距离值,确定距离列向量;将所述距离列向量中最小距离值在所述标准样本数据集中对应的样本加入所述均匀样本数据集,并将加入所述均匀数据集的样本从所述标准样本数据集中剔除;当所述均匀样本数据集中样本的个数未达到样本数量阈值时,返回所述基于剔除样本后的所述标准样本数据集中剩余的样本与所述均匀样本数据集中每个样本之间的距离,确定距离矩阵的操作,直至所述均匀样本数据集中样本的个数达到所述样本数量阈值为止。4.如权利要求1所述的方法,其特征在于,所述对所述均匀样本数据集中的各个样本的位置进行更新,得到位置更新后的数据集,包括:通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点;基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数;基于所述每个样本的局部标准化参数,确定所述均匀样本数据集中每个样本与其他样本之间的样本权重;基于所述样本权重和所述每个样本当前的坐标,确定所述每个样本更新后的坐标;当确定所述每个样本更新后的坐标与上一次确定的坐标之间变化值大于坐标变化阈值时,对每个样本的坐标进行更新并返回所述通过k邻近算法确定均匀样本数据集中每个样本的k个邻近点的操作,直至所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值为止;当所述每个样本更新后的坐标与上一次确定的坐标之间变化值小于或等于所述坐标变化阈值时,将坐标更新后的样本组成的数据集确定为所述位置更新后的数据集。5.如权利要求4所述的方法,其特征在于,所述基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,确定所述均匀样本数据集中所述每个样本的局部标准化参数,包括:基于所述均匀样本数据集中样本的坐标和所述每个样本各自的k个邻近点的坐标,通过如下第一公式确定所述均匀样...
【专利技术属性】
技术研发人员:赛影辉,张国兴,李中兵,
申请(专利权)人:奇瑞汽车股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。