一种基于密度的多层分步聚类方法技术

技术编号:22056721 阅读:59 留言:0更新日期:2019-09-07 15:46
本发明专利技术是根据普通的基于密度聚类算法提出的一种新的适用于数据分布非常不均匀,集群间密度差异大的聚类方法。该算法将每一个数据点当成一个节点,将每个点之间的距离看成是图的边,将数据集看成一个全连通的无向加权图。算法中通过一种新的密度定义方式,定义每个数据点的密度已经所有数据点的平均密度。在现有的基于密度的聚类方法中存在一些常见的缺陷和不足:算法必须设置参数、算法的行为对起始对象的密度很敏感、相邻簇如果密度差异大则不能很好的进行区分,本发明专利技术提出的方法只需要一个给定的参数,在聚类的过程中遍历的初始对象的密度对算法的结果基本上没什么影响,并且该算法可以区分任意形状、任意密度、分布哪怕十分不均匀的相邻簇。

A Density-Based Multi-Layer Step Clustering Method

【技术实现步骤摘要】
一种基于密度的多层分步聚类方法
本专利技术属于机器学习中无监督学习方面聚类技术的领域,具体是一种基于密度的多层分步聚类方法。
技术介绍
通过聚类,人们可以识别出密集区域和稀疏区域,并且发现全局分布模式和数据属性之间有趣的关系聚类分析可以作为一种独立的工具来获取数据分布,观察每个聚类的特征,重点分析特定的聚类。例如在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。但是随着科学技术的不断发展,人们从生活中获取到的信息也变得越来越多样化,面对十分庞大并且复杂的数据,想要把它们合理地分类就变成一件麻烦的事情,相邻密度不平衡数据集的聚类的精确率一直一来都是亟待提高的,所谓密度不平衡的数据集指的是在同一个数据集中,不同的两个相邻的簇密度差异很大,在目前流行的算法中,基本没有一个可以很好的处理这一类的数据集本文档来自技高网...

【技术保护点】
1.一种基于密度的多层分步聚类方法,其特征在于包括以下步骤:步骤1,对于由n个待聚类j维数据:X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点,然后计算每两个节点之间的距离(欧氏距离),定义为相应节点之间的边的权值,这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E);步骤2,通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度;步骤3,随机选取一个数据点开始遍历所有数据,计算当前数据点的密度;步骤4,对比当前数据点的密度和平均密度,如果大于平均密度,则以该点为一个核心,向它周围的K个邻居遍历,如...

【技术特征摘要】
1.一种基于密度的多层分步聚类方法,其特征在于包括以下步骤:步骤1,对于由n个待聚类j维数据:X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点,然后计算每两个节点之间的距离(欧氏距离),定义为相应节点之间的边的权值,这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E);步骤2,通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度;步骤3,随机选取一个数据点开始遍历所有数据,计算当前数据点的密度;步骤4,对比当前数据点的密度和平均密度,如果大于平均密度,则以该点为一个核心,向它周围的K个邻居遍历,如果邻居的密度也大于平均密度,则将其邻居也看做核心点,置于核心点的列队中,如果密度小于平均密度,则暂时将其看做噪声或是离群点,暂时不予处理;步骤5,遍历步骤4中的核心点队列,重复步骤4中的算法,遍历到一个点的时候...

【专利技术属性】
技术研发人员:董明刚吴宇伦敬超
申请(专利权)人:桂林理工大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1