System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于连通系数的多密度聚类方法技术_技高网

一种基于连通系数的多密度聚类方法技术

技术编号:40669323 阅读:5 留言:0更新日期:2024-03-18 19:05
本发明专利技术提供一种基于连通系数的多密度聚类方法,包括:获取真实聚类任务数据集,并对数据进行处理,得到每个点的最近邻信息与最近邻距离;根据得到的最近邻信息,计算当前对象的密度;计算每个点的反向最近邻个数;选取反向最近邻个数大于平均值的点作为代表点,利用代表点与互近邻结构生成初始簇骨架;利用密度衰减概念对代表点标签向外拓展;计算加权距离,根据加权距离判定存在多个标签值的最终标签,并分配剩余点到最近存在标签的近邻对象中;计算当前簇内所有数据对象的平均密度;获取连接点,计算每一对连接点的连通系数,并通过连接点计算两簇之间的连通系数;根据连通系数将初始标签进行合并,直到符合预定的簇数。

【技术实现步骤摘要】

本专利技术涉及密度聚类,具体而言,尤其涉及一种基于连通系数的多密度聚类方法


技术介绍

1、聚类是一种机器学习领域内重要的无监督学习方法,其旨在将数据集中的对象划分成聚类相似特征的组,划分到同一组的对象之间用于较高的相似性,而不同组的对象之间具有较大的差异性。聚类被广泛应用在数据挖掘、市场分析、生物信息学、推荐系统、自然语言处理等领域。例如聚类在数据挖掘中被用来发现数据中的潜在模式和结构,以及识别隐藏在数据背后的规律;在基因组学和蛋白质组学中,聚类可用于发现基因表达模式、研究疾病分类和诊断等;在推荐系统中,聚类可以用于用户分群,帮助推荐系统更精准地向用户推荐感兴趣的产品或内容;在文本数据处理中,聚类可用于文档分类、主题提取、情感分析等。

2、聚类可以大致分为划分聚类,分层聚类,密度聚类,基于图的聚类等几种类别。密度聚类领域主要的方法包括dbcsan方法,optics方法,密度峰值聚方法。近些年密度聚类的改进大多是基于2014发表在science上的密度峰值聚类算法进行改进。

3、密度峰值聚类算法主要思想是寻找数据点的密度峰值(density peaks),并根据峰值之间的距离和密度差异来划分簇。其关键步骤包括:1、密度距离的定义:使用何种方式定义密度;2、寻找密度峰值:遍历所有数据点,计算每个数据点的密度和相对于其他点的最小距离。密度大于某一阈值的点,且其偏移距离值也较大,则被认为是密度峰值点。3、簇分配:将非峰值点分配到与其最近的密度峰值点所在的簇中。

4、dpc算法的优点在于对簇的形状和大小没有假设,且不需要预先指定簇的数量。但也存在一些挑战:首先是如何稳定且自动化从决策图中选择出最佳的簇中心,其次是如何保证在分配时不会产生错误的关联(因为一旦某个对象被错误分配后,被分配到当前对象下的对象们都将被错误分配)。

5、目前流行的密度聚类方法大多采用先搜索密度峰值点,再根据度量距离分配剩余点的方法完成聚类,虽然这种方式在一定程度上解决了划分聚类无法处理非凸簇与流形数据的问题,但是其仍存在以下方面的缺陷:

6、1.无法处理多种密度结构数据共存的情况:现有密度聚类方法会更多关注高密度区域,从而无法很好地捕捉低密度区域的结构。这一点在低密度区域包围高密度区域时会更加明显,即使密度差异很大,低密度区域也会被忽视。

7、2.需要手动选择聚类中心:现有密度聚类方法需要根据偏移距离与密度绘制决策图,然后在图中手动选择合适的点作为初始点,虽然也有方法利用决策图的横纵坐标的乘积进行自动选择,但其鲁棒性差,非常容易选择错误。

8、3.标签错误传播:剩余点分配过程中其要选择密度比其大且距离最近的点。使得其忽视簇内密度结构,过度关注高密度区域。


技术实现思路

1、根据上述提出的技术问题,提供一种基于连通系数的多密度聚类方法。本专利技术主要利用代表点与连通系数的概念,将数据集先划分出初始簇骨干,然后使用密度衰减的策略进行初始标签传播,最终利用连通系数合并初始簇。

2、本专利技术采用的技术手段如下:

3、一种基于连通系数的多密度聚类方法,包括:

4、s1、获取真实聚类任务数据集,并对数据进行处理,得到每个点的最近邻信息与最近邻距离;

5、s2、根据得到的最近邻信息,计算当前对象的密度;

6、s3、基于计算得到的当前对象的密度,计算每个点的反向最近邻个数;

7、s4、选取反向最近邻个数大于平均值的点作为代表点,利用代表点与互近邻结构生成初始簇骨架;

8、s5、利用密度衰减概念对代表点标签向外拓展;

9、s6、计算加权距离,根据加权距离判定存在多个标签值的最终标签,并分配剩余点到最近存在标签的近邻对象中;

10、s7、计算当前簇内所有数据对象的平均密度;

11、s8、获取连接点,计算每一对连接点的连通系数,并通过连接点计算两簇之间的连通系数;

12、s9、根据连通系数将初始标签进行合并,直到符合预定的簇数。

13、进一步地,所述步骤s1,具体包括:

14、s11、获取真实聚类任务数据集,并对数据进行处理最大最小归一化处理;

15、s12、构建kd树,加速最近邻的搜索过程,得到每个点的最近邻信息与最近邻距离。

16、进一步地,所述步骤s2中,根据得到的最近邻信息,计算当前对象的密度,其计算公式如下:

17、

18、其中,k是最近邻参数,nk(xi)是样本xi的最近邻集合,d(xi,xj)是样本xi,xj之间的欧氏距离。

19、进一步地,所述步骤s3,具体包括:

20、s31、设xi,xj是数据集中的样本对象,xk是xi第k个近邻,则定义xi的最近邻集合,如下:

21、

22、s32、将样本xi视为最近邻的样本集合称为xi的反向最近邻,设xi,xj是数据集中的样本对象,nk(xi)是样本xi的最近邻集合,则定义样本xi的反向最近邻集合,如下:

23、

24、进一步地,所述步骤s4,具体包括:

25、s41、选取反向最近邻个数大于平均值的点作为代表点,定义代表点集合的公式,如下:

26、rep={xi||rk(xi)|>k}

27、s42、从代表点集合中,提取一个未经遍历的代表点,加入遍历队列;

28、s43、从遍历队列中,提取一代表点,并探索其互近邻中是否有代表点,如果存在则为其赋予相同标签并将其加入遍历队列;

29、s44、直至队列为空,则重复步骤s42,对新的子簇进行子簇核心生成;

30、s45、直至代表点序列为空,此时已生成若干个子簇核心结构。

31、进一步地,所述步骤s5,具体包括:

32、s51、将一个子簇核心结构入队,提取队首样本;

33、s52、遍历队首样本的最近邻,如果存在一个最近邻密度小于其当前点,则为其赋予相同标签,同时入队,重复执行步骤s52,直至队列为空;

34、s53、将另一个子簇核心入队,重复执行步骤s51和步骤s52,如果拓展时,存在一个点已经拥有标签,将其标签标记为-1,同时加入争议点序列,记录哪些点同时向该点进行拓展。

35、进一步地,所述步骤s6,具体包括:

36、s61、计算加权距离,计算公式如下:

37、

38、其中,xi是当前争议点,d(xi,xj)是欧式距离;

39、s62、将争议点分配到其加权距离最短的对象中;

40、s63、循环遍历尚未分配标签的剩余点,查询其是否有最近邻存在标签,且判断二者加权距离是否超过k近邻的欧氏距离,公式如下:

41、label(xi)={label(xj)|xj∈nk(xi)∩dw(xi,xj)<d(xi,xk)}

42本文档来自技高网...

【技术保护点】

1.一种基于连通系数的多密度聚类方法,其特征在于,包括:

2.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S1,具体包括:

3.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S2中,根据得到的最近邻信息,计算当前对象的密度,其计算公式如下:

4.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S3,具体包括:

5.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S4,具体包括:

6.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S5,具体包括:

7.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S6,具体包括:

8.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S8,具体包括:

9.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤S9,具体包括:

【技术特征摘要】

1.一种基于连通系数的多密度聚类方法,其特征在于,包括:

2.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤s1,具体包括:

3.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤s2中,根据得到的最近邻信息,计算当前对象的密度,其计算公式如下:

4.根据权利要求1所述的基于连通系数的多密度聚类方法,其特征在于,所述步骤s3,具体包括:

5.根据权利要求1所述的基于连通系数的...

【专利技术属性】
技术研发人员:邓安生钟行正
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1