【技术实现步骤摘要】
一种基于对比学习融入动态调整机制的文本聚类方法
[0001]本专利技术属于自然语言处理
,具体涉及一种基于对比学习融入动态调整机制的文本聚类方法。
技术介绍
[0002]文本聚类是无监督数据处理方法之一,该方法目的是在无标签的情况下将文本按照相似度划分到不同的簇中,使得簇内文本语义尽可能相似,簇外文本语义尽可能相异。在最近几年中深度学习引起了广泛关注,相当一部分聚类研究工作的重点放在了聚类与深度学习的结合上,利用深度学习强大的表征能力提取文本中的语义特征,然后进行聚类以得到更好的聚类效果。Yang et al.(2017)将自编码器和K
‑
Means聚类相结合进行深度聚类学习。Xie et al.(2016)设计了新的聚类目标损失,在预训练的自编码器得到数据特征表示以及初始化簇心,然后微调模型以从确信的簇分配中学习以锐化所得到的预测分布。Haeusser et al.(2018)制定了优化目标,以鼓励群集质心和样本特征表示之间一致的关联循环。Zhang et al.(2021)联合实例级对比学习和语义级的聚类学习,同时优化对比学习的目标损失和聚类目标损失。
[0003]以上方法都借助辅助任务进行自监督学习得到样本的特征表示,然后通过辅助任务与聚类任务进行迭代,顺序或者协同训练的方法进行训练。但是由于辅助任务和聚类任务目标不一致,直接联合学习会破坏数据的特征表示,从而得到语义置信度不高的聚类结果。另外当对比学习作为辅助任务时,由于对比学习其他所有文本当作负例的特性,不可避免会将将同一簇的 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:具体算法流程如下所示:Step1、首先基于语境增强方法通过两个不同的掩词预测模型获得文本的增强文本对,然后传入共享参数的预训练Bert模型中得到特征表示,最后通过K
‑
Means聚类方法得到初始语义簇心;Step2、首先计算特征表示与语义簇心的学生T分布得到文本的簇软分配概率分布,然后将其锐化得到辅助分布,最后交叉优化增强文本对之间的概率分布和辅助分布;Step3、首先通过由Step2得到的高置信度的簇软分配概率分布为文本分配伪标签,然后将与正例对同一伪标签的数据从负例中剔除,最后最大化正例对之间的相似度,最小化与负例的相似度;Step4、首先通过动态调整函数得到当前迭代次数下的聚类损失和对比学习损失各自的权重比例,然后按权重相加得到模型总损失,最后根据损失更新模型参数;Step5、迭代多次重复Step2
‑
Step4的过程,直到训练结束。2.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:所述Step1的具体步骤为:Step1.1、随机将文本x
i
中的单词用掩词MASK替换;Step1.2、将文本输入两个不同掩词预测模型T
a
和T
b
中得到两个被替换词的预测词集合;Step1.3、按预测相似度排名分别从两个预测词集合中选择预测词替换掩词MASK,得到增强后的文本对和Step1.4、将增强文本对传入预训练Bert模型f(
·
)得到其特征表示和Step1.5、在特征空间中对特征表示进行K
‑
Means聚类得到初始语义簇心μ
k
,k∈{1,2,
…
,K},其中K为预期划分簇的个数。3.根据权利要求1所述的一种基于对比学习融入动态调整机制的文本聚类方法,其特征在于:所述Step2的具体步骤为:Step2.1、计算文本特征在特征空间中的学生T分布评估文本特征h
i
与语义簇心μ
k
之间的相似度,具体如下:其中,α为学生T分布中的自由度;然后,q
ik
可以看作数据x
i
分配给k簇的概率,于是得到数据的簇软分配概率的分布如下,q
i
=g
C
(h
i
)=[q
ik
],k∈{1,2,
…
,K}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(...
【专利技术属性】
技术研发人员:王红斌,李瑞辉,线岩团,文永华,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。