【技术实现步骤摘要】
一种基于快速密度聚类的数据处理方法
[0001]本专利技术涉及大数据
,具体为一种基于快速密度聚类的数据处理方法
。
技术介绍
[0002]聚类算法将研究对象运用非监督学习算法分划到没有标签的群组中,在不同领域收获了广泛的关注,譬如图像处理
、
数据挖掘
、
生物研究以及模式识别等
。
为妥善地解决聚类问题,很多算法由此而生,这些经典的方法大体可以分为四类:层次聚类法,基于中心的
、
基于格点的和基于密度的聚类算法
。
[0003]层次聚类算法利用系统树图和恰当的距离矩阵来组织研究对象但不呈现单独的一种分类结果
。
采用层次聚类算法很难确定合适的距离阈值进而得到理想的聚类结果
。
,基于中心的聚类算法首先随机抽选数据点作为聚类中心然后将其余格点划分与离其最近的中心规划为一类,这种算法虽然要求的计算量很小但是需要提前限定聚类的数目并且不适应于非球型分布的数据
。
基于格点的聚类算法不同于上述两种算法,它并非以数据驱动而是依赖空间格点将研究对象进行合理分划,即使处理高维数据也效率很高
。
但是其格点的步长设定却往往难以有效解决,同时,它的效率在一些特别高维情况下也难免遭受诟病,因为其格点数根据维度的增加呈现幂指数的增长
。
基于密度的聚类算法依据密集区域寻找聚类中心并且适用于任意形状分布的数据点,但是它的聚类效果对于参数设置非常敏感,并且至今没有提出 ...
【技术保护点】
【技术特征摘要】
1.
一种基于快速密度聚类的数据处理方法,其特征在于,包括以下方法步骤:第一步:计算截断距离,然后根据截断距离快速计算每个研究对象的局地密度;第二步:利用
k
均值聚类算法得到部分距离矩阵来衡量数据点之间的相似性;第三步:计算各个数据点同邻近具有高密度点之间的距离作为最小密度距离,定义一个新的边缘区域概念来估计
η
,其具体计算公式如下:其中
x
′
k
∈B(CL
l
,CL
h
)
;为信息容量;
B
为连接
CL
l
和
CL
h
的边缘区域;
CL
l
=
{x
i
|x
i
∈X}
和
CL
h
=
{x
j
|x
j
∈X}
是
X
中已知的两个群组,满足第四步:研究对象按照其信息容量和最小密度距离
δ
(x
i
)
的乘积进行排列;第五步:以信息容量和最小密度距离
δ
(x
i
)
为坐标轴,在决策谱中根据信息结点分布选取最小信息容量阈值和最小密度距离阈值
δ
min
来判定聚类中心,即同时满足和
δ
(x
i
)
>
δ
min
的信息格点
x
i
视作聚类中心
。2.
根据权利要求1所述的一种基于快速密度聚类的数据处理方法,其特征在于,所述第二步中计算复杂度为
O(nkt)
,运用
k
均值聚类算法完成信息结点之间的距离运算,其中
t
为迭代次数,
O(m2)
是计算
z(m≤5
<<
n)
,
O(n)
计算信息容量和
O(n)
用来估计
γ
;
t
为迭代次数;
m
为小于5的常数;
n
为样本容量;
γ
为截断距离
。3.
根据权利要求1所述的一种基于快速密度聚类的数据处理方法,其特征在于,所述第一步中计算截断距离的智能优化算法,其算法步骤包括:
S1
:根据
Fick
定理和原子守恒定律,分子扩散方程为:其中是分子质量函数,
D
是扩散常数;
t
为扩散截止时间,
x
为信息节点之间的距离;具有
Dirichlet
边界条件的信息扩散公式如下:其中:
μ
(y,t)
被视为信息容量函数,
y
是信息结点之间的距离,
t
为扩散截止时间;
μ
(0,0)
=1表示每个信息结点初始的信息容量为单位1;
S2
:根据傅里叶变换或者变量分离算法可以解得式
1.2
的解析解为:
S3
:令则上式简化为:
S4
:
x∈U
,
U
为邻域,
(x
i
)
i
=
1,2,...,n
是各个信息结点,
n
为样本容量,信息扩散时间在
t
截止,并且
t
非常为有限值,则
σ
=
σ
(t)
;
根据上述假设式
1.4
化为其中,
d
c
=
σ
/
Δ
n
为截断距离,
Δ
n
>0且满足且满足为信息容量
。S5
:将
ICF
推广至多维情形:令
x∈U
,
U
为邻域;如果并且
x
t
≠x
,则
x
t
被定义为
x
i
的最近信息注入点,
||
·
||
和
Δ
分别是欧拉距离算子和步长常数;
S6
:推断出每个结点
x
i
的第二临近点
x
″
共有
2d
个,如果截断距离
d
c
满足择近原则,则从式
1.6
可推...
【专利技术属性】
技术研发人员:冀天宇,王宏来,韩飞,王雪晴,
申请(专利权)人:天翼云科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。