一种基于相似矩阵的层次聚类方法技术

技术编号:39727010 阅读:5 留言:0更新日期:2023-12-17 23:31
本申请公开了一种基于相似矩阵的层次聚类方法,包括:输入样本,设定聚簇一容器

【技术实现步骤摘要】
一种基于相似矩阵的层次聚类方法


[0001]本申请涉及层次聚类
,尤其涉及一种基于相似矩阵的层次聚类方法


技术介绍

[0002]聚类分析是一种重要的数据挖掘和分析手段,往往能简化数据分析的难度,发现数据内在规律,而现有的一些聚类方法存在一些固有问题,不能满足实际生产需要,这些缺点包括:
[0003](1)
一些聚类需要提前指定聚类簇的数量,而对于大多数场景缺乏对数据的先验,无法确定较好的簇数量,虽然有一些指导原则可以参考,但仍会有一些额外问题;
[0004](2)
当我们需要比较精确的聚类场景时
(
尽量保证聚类结果比较纯粹
)
,目前的一些方法难以满足,容易引入噪声,难以避免;
[0005](3)
时间复杂度高,大多数聚类方法需要反复迭代,设置迭代终止条件,一方面造成实效性不高,且往往难以设置较好的终止条件,特别是当数据量较大时,这种不足尤为明显和难以控制


技术实现思路

[0006]为了解决不能满足实际生产需要的问题,本申请提出了一种基于相似矩阵的层次聚类方法

[0007]本公开实施例提供了一种基于相似矩阵的层次聚类方法,该方法包括:
[0008]S1
:输入样本,设定聚簇一容器

聚簇二容器和最大迭代次数;
[0009]S2
:采用语义表征模型,将样本转换成向量;
[0010]S3
:基于向量,计算样本之间的余弦相似度,构建相似度矩阵;
[0011]S4
:对相似矩阵值截得到矩阵
T
,其中,当余弦相似度大于等于阈值时,矩阵
T
中的数值
T
i

j
记为1,否则,
T
i

j
记为0,其中,
i
表示行,
j
表示列;
[0012]S5
:对矩阵
T
进行离散点检查,将离散点放入到聚簇一容器,得到聚簇一;
[0013]S6
:对矩阵
T
的上三角矩阵
TU
i

i
=1,
2...N
进行检查,将
TU
ij
=1且
TU
k

j
≠1

k

i
且不在聚簇一容器里的样本分为一个簇并放入到聚簇二容器,得到聚簇二,其中,
k
为1到
N
之间的数值,表示行数;
[0014]S7
:计算聚簇二中的簇的中心和簇之间的相似度矩阵
C
,其中,所述簇之间的相似度矩阵
C
,包括:计算簇元素的中心计算余弦相似度,设定簇相似度阈值和簇相似度检查的上下值范围,对簇相似度
C
i

j
在簇相似度检查的上下值范围内的簇内的样本进行检查,当
C
i

j
大于簇相似度检查的上值时,
C
ij
=1,当
C
i

j
小于簇相似度检查的上值时,
C
ij
=0;
[0015]S8
:将
C
ij
=1对应的簇样本进行合并至聚簇三,重复步骤
S3

S7
,直到相似度矩阵
C
全部为0或达到所述最大迭代次数为止

[0016]进一步的,所述基于向量,计算样本之间的余弦相似度,构建相似度矩阵,包括:
[0017]假设样本数为
N
,对于样本
i
和样本
j
经过
S2
后得到向量
v
i
和向量
v
j
,则余弦相似度
为其中<
v
i

v
j
>为向量
v
i

v
j
的内积,
||v
i
||

||v
j
||
为向量的范数;
[0018]基于余弦相似度构建相似度矩阵
S∈R
N
×
N

[0019]进一步的,所述对矩阵
T
进行离散点检查,将离散点放入到聚簇一容器,包括:
[0020]如果则样本
i
为一离散点,将全部的离散点记录到聚簇一容器中

[0021]进一步的,所述对簇相似度
C
i

j
在簇相似度检查的上下值范围内的簇内的样本进行检查的方式,包括:
[0022]对于所有
m∈clusters[i],
n∈clusters[j]的样本
m、n
计算的相似度,如果任何两样本之间的相似度大于所述步骤
S4
中的阈值时为相似,否则不相似,当聚簇二中的簇元素
clusters[i]和簇元素
clusters[j]之间的相似样本对达到设定比例时,则两个簇相似,则
C
ij
=1,其中,
m、n
表示样本参数

[0023]本申请能够达到以下有益效果:
[0024]本专利技术提出了一种基于相似矩阵的层次聚类方法,不需要大量迭代,从而具有较好的时效性,能自动找出离群点,继而保证了聚类后每一个簇的纯度;不需要提前确定聚类的簇的个数;聚类过程中计算量相对较小,时效性较高,试验发现,一般迭代三次就能达到较好效果;对孤立点进行排除,能保证聚类后的每一个簇的聚合度高,簇内的噪声较小

附图说明
[0025]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定

在附图中:
[0026]图1为一种基于相似矩阵的层次聚类方法的流程原理图;
[0027]图2为一种基于相似矩阵的层次聚类装置的结构示意图

具体实施方式
[0028]为使本申请的目的

技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚

完整地描述

显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于相似矩阵的层次聚类方法,其特征在于,包括:
S1
:输入样本,设定聚簇一容器

聚簇二容器和最大迭代次数;
S2
:采用语义表征模型,将样本转换成向量;
S3
:基于向量,计算样本之间的余弦相似度,构建相似度矩阵;
S4
:对相似矩阵值截得到矩阵
T
,其中,当余弦相似度大于等于阈值时,矩阵
T
中的数值
T
ij
记为1,否则,
T
ij
记为0,其中,
i
表示行,
j
表示列;
S5
:对矩阵
T
进行离散点检查,将离散点放入到聚簇一容器,得到聚簇一;
S6
:对矩阵
T
的上三角矩阵
TU
i

i
=1,
2...N
进行检查,将
TU
ij
=1且
TU
kj
≠1

k

i
且不在聚簇一容器里的样本分为一个簇并放入到聚簇二容器,得到聚簇二,其中,
k
为1到
N
之间的数值,表示行数;
S7
:计算聚簇二中的簇的中心和簇之间的相似度矩阵
C
,其中,所述簇之间的相似度矩阵
C
,包括:计算簇元素的中心计算余弦相似度,设定簇相似度阈值和簇相似度检查的上下值范围,对簇相似度
C
i

j
在簇相似度检查的上下值范围内的簇内的样本进行检查,当
C
i

j
大于簇相似度检查的上值时,
C
ij
=1,当
C
i

j
小于簇相似度检查的上值时,
C
ij
=0;
S8
:将
C
ij
=1对应的簇样本进行合并至聚簇三,重复步骤
S3

S7
,直到相似度矩阵
C
全部为0或达到所述最大迭代次数为止
。2.
根据权利要求1所述的一种基于相似矩阵的层次聚类方法...

【专利技术属性】
技术研发人员:赵继帆梁龙
申请(专利权)人:北京尘锋信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1