一种基于对比学习融入动态调整机制的文本聚类方法技术

技术编号:34333017 阅读:16 留言:0更新日期:2022-07-31 02:26
本发明专利技术公开了一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于,基于语境增强的方法得到一组增强文本,通过预训练模型得到增强文本的特征表示,通过K

【技术实现步骤摘要】
一种基于对比学习融入动态调整机制的文本聚类方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于对比学习融入动态调整机制的文本聚类方法。

技术介绍

[0002]文本聚类是无监督数据处理方法之一,该方法目的是在无标签的情况下将文本按照相似度划分到不同的簇中,使得簇内文本语义尽可能相似,簇外文本语义尽可能相异。在最近几年中深度学习引起了广泛关注,相当一部分聚类研究工作的重点放在了聚类与深度学习的结合上,利用深度学习强大的表征能力提取文本中的语义特征,然后进行聚类以得到更好的聚类效果。Yang et al.(2017)将自编码器和K

Means聚类相结合进行深度聚类学习。Xie et al.(2016)设计了新的聚类目标损失,在预训练的自编码器得到数据特征表示以及初始化簇心,然后微调模型以从确信的簇分配中学习以锐化所得到的预测分布。Haeusser et al.(2018)制定了优化目标,以鼓励群集质心和样本特征表示之间一致的关联循环。Zhang et al.(2021)联合实例级对比学习和语义级的聚类学习,同时优化对比学习的目标损失和聚类目标损失。
[0003]以上方法都借助辅助任务进行自监督学习得到样本的特征表示,然后通过辅助任务与聚类任务进行迭代,顺序或者协同训练的方法进行训练。但是由于辅助任务和聚类任务目标不一致,直接联合学习会破坏数据的特征表示,从而得到语义置信度不高的聚类结果。另外当对比学习作为辅助任务时,由于对比学习其他所有文本当作负例的特性,不可避免会将将同一簇的数据当作负例,从而导致簇内数据分布松散,影响聚类效果。
[0004]因此,为了解决上述问题,本文提出一种基于对比学习融入动态调整机制的文本聚类方法。

技术实现思路

[0005]为了解决上述技术问题,本专利技术设计了一种基于对比学习融入动态调整机制的文本聚类方法,为解决文本深度聚类时辅助任务与聚类任务目标不一致带来的聚类语义置信度不高的问题,本专利技术引入损失权重动态调节方法以及对比学习负例筛选方法到文本聚类模型中。
[0006]为了达到上述技术效果,本专利技术是通过以下技术方案实现的:一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:具体算法流程如下所示:
[0007]Step1、首先基于语境增强方法通过两个不同的掩词预测模型获得文本的增强文本对,然后传入共享参数的预训练Bert模型中得到特征表示,最后通过K

Means聚类方法得到初始语义簇心;
[0008]Step2、首先计算特征表示与语义簇心的学生T分布得到文本的簇软分配概率分布,然后将其锐化得到辅助分布,最后交叉优化增强文本对之间的概率分布和辅助分布;
[0009]Step3、首先通过由Step2得到的高置信度的簇软分配概率分布为文本分配伪标
签,然后将与正例对同一伪标签的数据从负例中剔除,最后最大化正例对之间的相似度,最小化与负例的相似度;
[0010]Step4、首先通过动态调整函数得到当前迭代次数下的聚类损失和对比学习损失各自的权重比例,然后按权重相加得到模型总损失,最后根据损失更新模型参数;
[0011]Step5、迭代多次重复Step2

Step4的过程,直到训练结束。
[0012]进一步的,所述Step1的具体步骤为:
[0013]Step1.1、随机将文本x
i
中的单词用掩词MASK替换;
[0014]Step1.2、将文本输入两个不同掩词预测模型T
a
和T
b
中得到两个被替换词的预测词集合;
[0015]Step1.3、按预测相似度排名分别从两个预测词集合中选择预测词替换掩词MASK,得到增强后的文本对和
[0016]Step1.4、将增强文本对传入预训练Bert模型f(
·
)得到其特征表示和
[0017]Step1.5、在特征空间中对特征表示进行K

Means聚类得到初始语义簇心μ
k
,k∈{1,2,

,K},其中K为预期划分簇的个数。
[0018]进一步的,所述Step2的具体步骤为:
[0019]Step2.1、计算文本特征在特征空间中的学生T分布评估文本特征h
i
与语义簇心μ
k
之间的相似度,具体如下:
[0020][0021]其中,α为学生T分布中的自由度;
[0022]然后,q
ik
可以看作数据x
i
分配给k簇的概率,于是得到数据的簇软分配概率的分布如下,
[0023]q
i
=g
C
(h
i
)=[q
ik
], k∈{1,2,

,K}
ꢀꢀꢀ
(2)
[0024]Step2.2、为了通过从高置信度赋值中学习来优化数据表示,设置辅助目标分布函数如下:
[0025][0026]该目标分布函数首先通过将软分配概率q
ik
提高到二次幂来使其锐化,然后通过关联的群集频率对其进行归一化;
[0027]Step2.3、通过公式(1)和公式(3)我们得到增强文本对和各自的簇分配分布和辅助分布q
a
、q
b
、p
a
、p
b
,然后交叉优化它们之间的KL发散度得到聚类损失,具体如下:
[0028][0029]其中M为一个批次中文本数量。
[0030]进一步的,所述Step3的具体步骤为:
[0031]Step3.1、将来自同一文本的增强文本对和的特征表示组成正例对
[0032]Step3.2、通过公式(2)得到的簇软分配概率分布q
i
为数据分配伪标签,具体如下:
[0033][0034]其中,∈为置信度阈值,用于避免错误的伪标签起到反作用;然后检验正例对之间伪标签的一致性,具体如下:
[0035][0036]最后将同一批次中的其他文本视作该文本的负例集合,并基于伪标签对负例集合进行筛选,将具有相同伪标签的数据将被视为假负例移除该文本的负例,得到负例集合如下:
[0037]S
i
={j,y
i


1‖y
i
≠y
j
}
ꢀꢀꢀ
(7)
[0038]Step3.3、使用非线性多层感知机g
I
(
·
)将文本特征映射到一个子空间,得到文本子空间表示z
i
=g
I
(h
i
);
[0039]Step3.4、在子空间中计算文本的infoNCE损失,具体如下:
[0040][0041]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:具体算法流程如下所示:Step1、首先基于语境增强方法通过两个不同的掩词预测模型获得文本的增强文本对,然后传入共享参数的预训练Bert模型中得到特征表示,最后通过K

Means聚类方法得到初始语义簇心;Step2、首先计算特征表示与语义簇心的学生T分布得到文本的簇软分配概率分布,然后将其锐化得到辅助分布,最后交叉优化增强文本对之间的概率分布和辅助分布;Step3、首先通过由Step2得到的高置信度的簇软分配概率分布为文本分配伪标签,然后将与正例对同一伪标签的数据从负例中剔除,最后最大化正例对之间的相似度,最小化与负例的相似度;Step4、首先通过动态调整函数得到当前迭代次数下的聚类损失和对比学习损失各自的权重比例,然后按权重相加得到模型总损失,最后根据损失更新模型参数;Step5、迭代多次重复Step2

Step4的过程,直到训练结束。2.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:所述Step1的具体步骤为:Step1.1、随机将文本x
i
中的单词用掩词MASK替换;Step1.2、将文本输入两个不同掩词预测模型T
a
和T
b
中得到两个被替换词的预测词集合;Step1.3、按预测相似度排名分别从两个预测词集合中选择预测词替换掩词MASK,得到增强后的文本对和Step1.4、将增强文本对传入预训练Bert模型f(
·
)得到其特征表示和Step1.5、在特征空间中对特征表示进行K

Means聚类得到初始语义簇心μ
k
,k∈{1,2,

,K},其中K为预期划分簇的个数。3.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:所述Step2的具体步骤为:Step2.1、计算文本特征在特征空间中的学生T分布评估文本特征h
i
与语义簇心μ
k
之间的相似度,具体如下:其中,α为学生T分布中的自由度;然后,q
ik
可以看作数据x
i
分配给k簇的概率,于是得到数据的簇软分配概率的分布如下,q
i
=g
C
(h
i
)=[q
ik
],k∈{1,2,

,K}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(...

【专利技术属性】
技术研发人员:王红斌李瑞辉线岩团文永华
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1