【技术实现步骤摘要】
一种数据聚类方法、装置、设备及可读存储介质
[0001]本申请涉及数据聚类
,更具体地说,涉及一种数据聚类方法、装置、设备及可读存储介质。
技术介绍
[0002]DBSCAN(Density
‑
Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)算法是一个比较有代表性的基于密度的聚类算法,该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的聚类,它将簇定义为密度相连的点的最大集合。
[0003]目前,在利用DBSCAN算法对数据库中的数据进行聚类时,其是使用全局Eps(其具体为定义密度时的邻域半径)来进行数据划分和聚类。但是,当数据密度和类间距离分布不均匀时,若根据较密的那些类选取较小的Eps值,那么对于客观上相对较稀的那些类中的对象,它们邻域中的数据对象的数目将要小于MinPts(定义核心点时的阈值),也就是说这些对象将被认为是边界对象,从而不被用于所在类的进一步扩展,随之而来的结果是较 ...
【技术保护点】
【技术特征摘要】
1.一种数据聚类方法,其特征在于,包括:将数据库中的数据划分为多个分区,根据每个所述分区中的数据确定每个分区对应的邻域半径;根据每个所述分区对应的邻域半径对相应分区内的数据进行聚类,得到所述分区内数据的聚类结果;获取相邻两个所述分区的聚类结果中的相同类,并对所述相同类进行合并。2.根据权利要求1所述的数据聚类方法,其特征在于,根据每个所述分区中的数据确定每个分区对应的邻域半径,包括:获取当前分区中的第i个数据与所述当前分区中的其余数据的距离;其中,i=1,2,
…
,n,n为所述当前分区包含的数据个数;将所述当前分区中第i个数据与所述当前分区中其余数据的距离,按照从小到大的顺序进行排序,以得到与所述当前分区中第i个数据对应的距离队列;从所述当前分区中各所述数据对应的距离队列中获取排列在第预设位的距离,并将获取到的距离按照从小到大的顺序进行排序,以得到排序距离队列;从所述排序距离队列中选择目标距离作为所述当前分区的邻域半径;其中,所述目标距离的确定过程为:获取所述排序距离队列中第j+1个距离与第j个距离的差值k
j
,第j+2个距离与第j+1个距离的差值k
j+1
,若k
j+1
与k
j
的差值大于阈值,则将第j+1个距离确定为所述目标距离;其中,j=1,2,3
…
,n
‑
2。3.根据权利要求1所述的数据聚类方法,其特征在于,获取相邻两个所述分区的聚类结果中的相同类,包括:若在相邻两个所述分区中,满足第一类位于第一个分区的聚类结果中、第二类位于第二个分区的聚类结果中,第一类的边界区域点集中存在第一边界点、第二类的边界区域点集中存在第二边界点,且第一边界点与第二边界点间的距离小于相邻两个所述分区对应的邻域半径中的最小邻域半径,则确定第一类与第二类为相同类。4.根据权利要求1所述的数据聚类方法,其特征在于,在将数据库中的数据划分为多个分区之前,还包括:对所述数据库中的数据进行处理,并从处理后的数据中获取样本数据,对所述样本数据进行分析,得到数据分布特性;将数据库中的数据划分为多个分区,包括:根据所述数据分布特性将所述数据库中处理后的数据划分为多个分区。5.根据权利要求4所述的数据聚类方法,其特征在于...
【专利技术属性】
技术研发人员:张欢,范渊,刘博,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。