一种基于快速密度聚类的数据处理方法技术

技术编号:39795151 阅读:9 留言:0更新日期:2023-12-22 02:29
本发明专利技术公开了一种基于快速密度聚类的数据处理方法,涉及大数据技术领域

【技术实现步骤摘要】
一种基于快速密度聚类的数据处理方法


[0001]本专利技术涉及大数据
,具体为一种基于快速密度聚类的数据处理方法


技术介绍

[0002]聚类算法将研究对象运用非监督学习算法分划到没有标签的群组中,在不同领域收获了广泛的关注,譬如图像处理

数据挖掘

生物研究以及模式识别等

为妥善地解决聚类问题,很多算法由此而生,这些经典的方法大体可以分为四类:层次聚类法,基于中心的

基于格点的和基于密度的聚类算法

[0003]层次聚类算法利用系统树图和恰当的距离矩阵来组织研究对象但不呈现单独的一种分类结果

采用层次聚类算法很难确定合适的距离阈值进而得到理想的聚类结果

,基于中心的聚类算法首先随机抽选数据点作为聚类中心然后将其余格点划分与离其最近的中心规划为一类,这种算法虽然要求的计算量很小但是需要提前限定聚类的数目并且不适应于非球型分布的数据

基于格点的聚类算法不同于上述两种算法,它并非以数据驱动而是依赖空间格点将研究对象进行合理分划,即使处理高维数据也效率很高

但是其格点的步长设定却往往难以有效解决,同时,它的效率在一些特别高维情况下也难免遭受诟病,因为其格点数根据维度的增加呈现幂指数的增长

基于密度的聚类算法依据密集区域寻找聚类中心并且适用于任意形状分布的数据点,但是它的聚类效果对于参数设置非常敏感,并且至今没有提出一种有效的参数确定方案,另外计算所有研究对象的密度无疑是一耗费大量计算的过程

[0004]近年来,
Rodriguez

Laio

《Science》
正刊提出了一种创新性的聚类算法
(
记为
RLCA)
,该算法能够秉承上述经典算法的优点并且迅速地寻找到聚类中心
。RLCA
算法首先定义了两个聚类指标:局地密度和最小密度距离

然后根据这两个指标建立二维
(x

y
轴分别由局地密度和最小密度距离来表征
)
的聚类决策图谱,然后从该图中寻找兼具两聚类指标高值的数据点作为聚类中心,剩余各点分划到离己最近并且更高密度聚类中心所属群组中
。RLCA
算法能够以这种直观的方式从不同分布类型的众多数据点中有效识别聚类中心,因此一经问世就受到了广泛的关注

[0005]RLCA+A
首先根据截断距离快速计算每个研究对象的局地密度,并且利用
k
均值聚类算法得到部分距离矩阵来衡量数据点之间的相似性而无需全部距离矩阵的运算;然后
RLCA+A
只计算各个数据点同邻近具有高密度点
(NN

HD

nearest neighbor with a higher density)
之间的距离作为最小密度距离,接着研究对象按照其局地密度和最小密度距离的乘积进行排列,最终前
K
个点作为聚类中心,其余点同自己的
NN

HD
划归为一类

但是
RLCA+A
仍然有以下几个方面的问题:
[0006]一

局地密度在
RLCA+A
算法中扮演着重要角色,但是它非常敏感于截断距离的变化,尤其是部分矩阵无法提供完整信息的时候;
[0007]二

最终
K
的取值需要人为提前设定;
[0008]三
、RLCA+A
算法并没有考虑如何从各个数据点中甄别噪声


技术实现思路

[0009]针对现有技术的不足,本专利技术提供了一种基于快速密度聚类的数据处理方法,解决了
RLCA+A
算法中局地密度非常敏感于截断距离

最终
K
的取值需要人为提前设定的变化且
RLCA+A
算法并没有考虑如何从各个数据点中甄别噪声的问题

[0010]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于快速密度聚类的数据处理方法,包括以下方法步骤:
[0011]第一步:计算截断距离,然后根据截断距离快速计算每个研究对象的局地密度;
[0012]第二步:利用
k
均值聚类算法得到部分距离矩阵来衡量数据点之间的相似性;
[0013]第三步:计算各个数据点同邻近具有高密度点之间的距离作为最小密度距离,定义一个新的边缘区域概念来估计
η
,其具体计算公式如下:
[0014][0015]其中
x

k
∈B(CL
l
,CL
h
)
;为信息容量;
B
为连接
CL
l

CL
h
的边缘区域;
CL
l

{x
i
|x
i
∈X}

CL
h

{x
j
|x
j
∈X}

X
中已知的两个群组,满足
[0016]第四步:研究对象按照其信息容量和最小密度距离
δ
(x
i
)
的乘积进行排列;
[0017]第五步:以信息容量和最小密度距离
δ
(x
i
)
为坐标轴,在决策谱中根据信息结点分布选取最小信息容量阈值和最小密度距离阈值
δ
min
来判定聚类中心,即同时满足和
δ
(x
i
)

δ
min
的信息格点
x
i
视作聚类中心

[0018]进一步的,所述第二步中计算复杂度为
O(nkt)
,运用
k
均值聚类算法完成信息结点之间的距离运算,其中
t
为迭代次数,
O(m2)
是计算
z(m≤5
<<
n)

O(n)
计算信息容量和
O(n)
用来估计
γ

t
为迭代次数;
m
为小于5的常数;
n
为样本容量;
γ
为截断距离

[0019]进一步的,所述第一步中计算截断距离的智能优化算法,其算法步骤包括:
[0020]S1
:根据
Fick<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于快速密度聚类的数据处理方法,其特征在于,包括以下方法步骤:第一步:计算截断距离,然后根据截断距离快速计算每个研究对象的局地密度;第二步:利用
k
均值聚类算法得到部分距离矩阵来衡量数据点之间的相似性;第三步:计算各个数据点同邻近具有高密度点之间的距离作为最小密度距离,定义一个新的边缘区域概念来估计
η
,其具体计算公式如下:其中
x

k
∈B(CL
l
,CL
h
)
;为信息容量;
B
为连接
CL
l

CL
h
的边缘区域;
CL
l

{x
i
|x
i
∈X}

CL
h

{x
j
|x
j
∈X}

X
中已知的两个群组,满足第四步:研究对象按照其信息容量和最小密度距离
δ
(x
i
)
的乘积进行排列;第五步:以信息容量和最小密度距离
δ
(x
i
)
为坐标轴,在决策谱中根据信息结点分布选取最小信息容量阈值和最小密度距离阈值
δ
min
来判定聚类中心,即同时满足和
δ
(x
i
)

δ
min
的信息格点
x
i
视作聚类中心
。2.
根据权利要求1所述的一种基于快速密度聚类的数据处理方法,其特征在于,所述第二步中计算复杂度为
O(nkt)
,运用
k
均值聚类算法完成信息结点之间的距离运算,其中
t
为迭代次数,
O(m2)
是计算
z(m≤5
<<
n)

O(n)
计算信息容量和
O(n)
用来估计
γ

t
为迭代次数;
m
为小于5的常数;
n
为样本容量;
γ
为截断距离
。3.
根据权利要求1所述的一种基于快速密度聚类的数据处理方法,其特征在于,所述第一步中计算截断距离的智能优化算法,其算法步骤包括:
S1
:根据
Fick
定理和原子守恒定律,分子扩散方程为:其中是分子质量函数,
D
是扩散常数;
t
为扩散截止时间,
x
为信息节点之间的距离;具有
Dirichlet
边界条件的信息扩散公式如下:其中:
μ
(y,t)
被视为信息容量函数,
y
是信息结点之间的距离,
t
为扩散截止时间;
μ
(0,0)
=1表示每个信息结点初始的信息容量为单位1;
S2
:根据傅里叶变换或者变量分离算法可以解得式
1.2
的解析解为:
S3
:令则上式简化为:
S4

x∈U

U
为邻域,
(x
i
)
i

1,2,...,n
是各个信息结点,
n
为样本容量,信息扩散时间在
t
截止,并且
t
非常为有限值,则
σ

σ
(t)

根据上述假设式
1.4
化为其中,
d
c

σ
/
Δ
n
为截断距离,
Δ
n
>0且满足且满足为信息容量
。S5
:将
ICF
推广至多维情形:令
x∈U

U
为邻域;如果并且
x
t
≠x
,则
x
t
被定义为
x
i
的最近信息注入点,
||
·
||

Δ
分别是欧拉距离算子和步长常数;
S6
:推断出每个结点
x
i
的第二临近点
x

共有
2d
个,如果截断距离
d
c
满足择近原则,则从式
1.6
可推...

【专利技术属性】
技术研发人员:冀天宇王宏来韩飞王雪晴
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1