【技术实现步骤摘要】
一种基于相似矩阵的层次聚类方法
[0001]本申请涉及层次聚类
,尤其涉及一种基于相似矩阵的层次聚类方法
。
技术介绍
[0002]聚类分析是一种重要的数据挖掘和分析手段,往往能简化数据分析的难度,发现数据内在规律,而现有的一些聚类方法存在一些固有问题,不能满足实际生产需要,这些缺点包括:
[0003](1)
一些聚类需要提前指定聚类簇的数量,而对于大多数场景缺乏对数据的先验,无法确定较好的簇数量,虽然有一些指导原则可以参考,但仍会有一些额外问题;
[0004](2)
当我们需要比较精确的聚类场景时
(
尽量保证聚类结果比较纯粹
)
,目前的一些方法难以满足,容易引入噪声,难以避免;
[0005](3)
时间复杂度高,大多数聚类方法需要反复迭代,设置迭代终止条件,一方面造成实效性不高,且往往难以设置较好的终止条件,特别是当数据量较大时,这种不足尤为明显和难以控制
。
技术实现思路
[0006]为了解决不能满足实际生产需要的问题,本申请提出了一种基于相似矩阵的层次聚类方法
。
[0007]本公开实施例提供了一种基于相似矩阵的层次聚类方法,该方法包括:
[0008]S1
:输入样本,设定聚簇一容器
、
聚簇二容器和最大迭代次数;
[0009]S2
:采用语义表征模型,将样本转换成向量;
[0010]S3
:基于向量,计算样本之 ...
【技术保护点】
【技术特征摘要】
1.
一种基于相似矩阵的层次聚类方法,其特征在于,包括:
S1
:输入样本,设定聚簇一容器
、
聚簇二容器和最大迭代次数;
S2
:采用语义表征模型,将样本转换成向量;
S3
:基于向量,计算样本之间的余弦相似度,构建相似度矩阵;
S4
:对相似矩阵值截得到矩阵
T
,其中,当余弦相似度大于等于阈值时,矩阵
T
中的数值
T
ij
记为1,否则,
T
ij
记为0,其中,
i
表示行,
j
表示列;
S5
:对矩阵
T
进行离散点检查,将离散点放入到聚簇一容器,得到聚簇一;
S6
:对矩阵
T
的上三角矩阵
TU
i
,
i
=1,
2...N
进行检查,将
TU
ij
=1且
TU
kj
≠1
,
k
<
i
且不在聚簇一容器里的样本分为一个簇并放入到聚簇二容器,得到聚簇二,其中,
k
为1到
N
之间的数值,表示行数;
S7
:计算聚簇二中的簇的中心和簇之间的相似度矩阵
C
,其中,所述簇之间的相似度矩阵
C
,包括:计算簇元素的中心计算余弦相似度,设定簇相似度阈值和簇相似度检查的上下值范围,对簇相似度
C
i
,
j
在簇相似度检查的上下值范围内的簇内的样本进行检查,当
C
i
,
j
大于簇相似度检查的上值时,
C
ij
=1,当
C
i
,
j
小于簇相似度检查的上值时,
C
ij
=0;
S8
:将
C
ij
=1对应的簇样本进行合并至聚簇三,重复步骤
S3
‑
S7
,直到相似度矩阵
C
全部为0或达到所述最大迭代次数为止
。2.
根据权利要求1所述的一种基于相似矩阵的层次聚类方法...
【专利技术属性】
技术研发人员:赵继帆,梁龙,
申请(专利权)人:北京尘锋信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。