当前位置: 首页 > 专利查询>济南大学专利>正文

一种参数自适应的密度峰值聚类方法技术

技术编号:19058919 阅读:60 留言:0更新日期:2018-09-29 12:34
本发明专利技术涉及一种参数自适应的密度峰值聚类方法,其特征在于,包括以下步骤:S1:基于数据密度属性自动获得数据角色;S2:以簇头节点为核心实现自动聚类;S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。

【技术实现步骤摘要】
一种参数自适应的密度峰值聚类方法
本专利技术属于网络数据通信
,涉及一种通信领域用聚类方法,尤其是一种参数自适应的密度峰值聚类方法。
技术介绍
随着硬件技术,网络通信技术,各种传感设备和各种信息技术的飞速发展,在社会网络,传感器网络,电子商务,网络监控,气象环境监测,金融零售企业等多个应用领域,产生了大量的动态数据,如何在这些数据中获取有效的知识成为大数据应用研究的热点。聚类分析是无监督的机器学习方法,不需要设置样本数据集进行训练就可以对数据进行有效的划分,因此在大数据分析领域具有很好的应用前景。目前聚类算法已经在金融分析、环境监测、工业控制等领域有着广泛的用途,是机器学习领域重要的分支之一。现有的聚类算法需要设置初始参数,实现聚类,而初始参数对计算结果影响较大,需要准确的先验知识设置参数值,导致聚类效率低的缺陷。此为现有技术的不足之处。因此,针对现有技术中的上述缺陷,提供设计一种参数自适应的密度峰值聚类方法;以解决现有技术中的上述缺陷,是非常有必要的。
技术实现思路
本专利技术的目的在于,针对上述现有技术存在的缺陷,提供设计一种参数自适应的密度峰值聚类方法,以解决上述技术问题。为实现上述目的,本专利技术给出以下技术方案:一种参数自适应的密度峰值聚类方法,包括以下步骤:S1:基于数据密度属性自动获得数据角色;S2:以簇头节点为核心实现自动聚类;S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。所述步骤S1包括以下步骤:S11:计算数据点的节点局部密度,用ρ表示节点局部密度,计算公式如下:其中dc是以节点i为中心的邻域Ar的半径,所有在此区域内的点视为i的邻居节点,dij是节点i到节点j的欧氏距离;得到节点的所有密度值之后对其进行从大到小排序得到序列{ρq1,ρq2,...,ρqn};S12:计算数据点的最近高密度点距离,用δ表示最近高密度点距离;用以下公式计算节点i最近且比i密度高的节点的距离δ;ρ和δ组合及其角色判断如表1所示。表1数据角色分配表所述步骤S2包括以下步骤:当所有节点的角色分配完毕之后,所有簇内点选择距离自己最近的簇头,加入该簇头的类中,形成微簇,然后所有的微簇按以下公式计算相互间的距离:其中,m和n分别是两个相邻微簇的节点数,i和j分别是两个不同微簇中的点,如果根据公式(3)计算的两个微簇间的距离小于dc,则这两个簇进行合并,新簇的簇头由原簇头中局部密度较大的一个担任;当所有的微簇间的距离都大于dc,本次聚类结束。所述步骤S3包括以下步骤:采用待定点优化聚类,具体公式如下:Δdc=(dn-1-dn-2)×(-1)×(bn-1,bn-2)×f1(bn-1,bn-2)(4)其中dn-1是上一次聚类的邻域半径,dn-1是倒数第二次聚类的邻域半径,bn-1是上一次聚类时待定点数量,bn-2是倒数第二次聚类时的待定点数量,f1是调节量化函数,公式如下:参数自适应调整是保证聚类结果实时准确性的前提,通过对基于密度峰值的动态聚类算法研究,发现只需要对数据点的邻域半径dc进行优化即可实现调整聚类的效果;在此,定义了一类新的数据角色:待定点,这一类的数据点的局部密度较低但是距离比它密度高的点较近,这一类点的出现是因为邻域半径的设置无法有效的将离群点和簇内点区分开,待定点越多,说明当前半径参数越不适应数据分布,因此利用待定点数量优化邻域半径具有可行性,而且这种方法避免了时间复杂度较大的聚类比较操作更加高效。具体调整方法如公式(4)所示。本专利技术的有益效果在于,通过公式(4)能够确保邻域半径向更适合数据分布的方向调整。根据公式(4),本方法虽然需要利用两次以上的聚类结果进行优化,每次聚类只需要保留之前两次聚类的参数值和角色判别中待定点的个数进行计算,大大减少了时间复杂度和空间复杂度。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。附图说明图1是本专利技术实施例中Δγ的分布直方图。图2是本专利技术实施例中簇头分布与其Δγ值的分布。图3是本专利技术实施例中Δγ′的统计分布图。图4是本专利技术实施例中待定点的分布与函数预测对照图。图5是本专利技术实施例中dc值设为0.12时的节点分布。图6是本专利技术实施例中dc值设为0.165时的节点分布。图7是本专利技术实施例中dc值设为0.154时的节点分布。具体实施方式下面结合附图并通过具体实施例对本专利技术进行详细阐述,以下实施例是对本专利技术的解释,而本专利技术并不局限于以下实施方式。如图1-7所示,本实施例给出的一种参数自适应的密度峰值聚类方法,包括以下步骤:首先对数据集进行建模分析,利用曲线拟合的方法,自动获得数据中局部密度ρ和更高密度邻居点的距离δ的阈值,根据公式(1)和公式(2)的方式计算得到所有数据点的其ρ和δ的值。针对簇头点,其ρ和δ的值都较大,定义变量γ=ρ*δ,建立如公式(6)的函数曲线:其中ai是曲线函数的系数,Ic是数据点序号的集合,通过计算每个点γ的预测值与实际值间的差Δγ,得到Δγ的分布统计直方图,200个随机数据的分布如图1所示。Δγ分布的均值是0,表明点的分布满足函数曲线预测值,绝大多数点位于方差之内,因此将Δγ>σ的点视为簇头点,其在数据中的分布如图2所示。判断待定点和离群点,其中待定点用变量计算,函数如公式(7)所示:计算γ′预测值与实际值之间的差的分布直方图如图3所示,待定点的实际分布与预测值的情况如图4所示。以ω=δ/ρ的方式计算得到离群点,然后剩余数据点是簇内点,簇内点通过寻找距离自己最近的簇头的方式自动聚类。聚类完成之后,通过调用公式(4)的方式计算对邻域半径dc进行自适应调整,同样以200个随机数为例,当初始dc值设为0.12时,聚类结果如图5所示,其中待定点数量为9,然后计算得到新的dc值为0.165,得到的结果如图6所示,待定数量为12,进一步调整dc值为0.154,得到聚类结果如图7所示,这时无待定点,优化结束。以上公开的仅为本专利技术的优选实施方式,但本专利技术并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本专利技术原理前提下所作的若干改进和润饰,都应落在本专利技术的保护范围内。本文档来自技高网...

【技术保护点】
1.一种参数自适应的密度峰值聚类方法,其特征在于,包括以下步骤:S1:基于数据密度属性自动获得数据角色;S2:以簇头节点为核心实现自动聚类;S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。

【技术特征摘要】
1.一种参数自适应的密度峰值聚类方法,其特征在于,包括以下步骤:S1:基于数据密度属性自动获得数据角色;S2:以簇头节点为核心实现自动聚类;S3、评价聚类结果与自适应调整聚类参数,迭代优化聚类结果。2.根据权利要求1所述的一种参数自适应的密度峰值聚类方法,其特征在于,所述步骤S1包括以下步骤:S11:计算数据点的节点局部密度,用ρ表示节点局部密度,计算公式如下:其中dc是以节点i为中心的邻域Ar的半径,所有在此区域内的点视为i的邻居节点,dij是节点i到节点j的欧氏距离;得到节点的所有密度值之后对其进行从大到小排序得到序列{ρq1,ρq2,...,ρqn};S12:计算数据点的最近高密度点距离,用δ表示最近高密度点距离;用以下公式计算节点i最近且比i密度高的节点的距离δ;3.根据权利要求2所述的一种参数自适应的密度峰值聚类方法,其特征在于,所述步骤S2包括以下步...

【专利技术属性】
技术研发人员:杜韬许婧文曲守宁王玉栋武奎庞战牟国栋李国昌张瑞刘闯
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1