一种基于对比学习聚类的文本清洗方法及系统技术方案

技术编号:31638892 阅读:22 留言:0更新日期:2021-12-29 19:20
本发明专利技术公开了一种基于对比学习聚类的文本清洗方法及系统,通过获取对比学习样本,对每一条文本数据使用不同的增强方法进行增强得到两条增强的文本数据;然后计算文本数据的文本向量,并进行聚类,得到各个文本类型的聚类中心向量;通过全连接层网络对增强文本向量进行编码处理;通过多种损失函数训练文本聚类模型,更新聚类中心向量,最后计算待清洗文本数据的文本向量与更新后的各个聚类中心向量的距离,按最小距离作为该文本向量对应的文本数据的噪声度并排序,有人工进行判断。本发明专利技术结合对比学习方法,利用多种损失函数,对文本进行聚类学习,得到文本的聚类中心,通过计算与聚类中心的距离得到文本的噪声度量,进而辅助文本清洗工作。助文本清洗工作。助文本清洗工作。

【技术实现步骤摘要】
一种基于对比学习聚类的文本清洗方法及系统


[0001]本专利技术涉及文本数据挖掘领域,尤其涉及一种基于对比学习聚类的文本清洗方法及系统。

技术介绍

[0002]在文本数据挖掘的应用场景中,数据爬取和清洗是第一步,目前大多采用编写清洗规则,或整理大量正样本和负样本,训练文本分类器将噪声数据区分开来达到清洗的目的,清洗规则的编写需要大量的人工观察、总结并持续投入和优化,当规则数量逐渐增加还会带来规则冲突的情况,需要建立规则引擎对规则进行管理,对于自然语言的多样性较难处理,而训练文本分类器需要人工采集大量正负样本,同样成本较大,对于多变的各种需求不同的场景,需要重复采集标注。本专利技术提出一种利用无监督的聚类方法进行数据清洗的方法。

技术实现思路

[0003]本专利技术目的在于针对现有技术的不足,提出一种利用对比学习进行聚类,进而进行文本数据清洗的方法。
[0004]本专利技术的目的是通过以下技术方案来实现的:一种基于对比学习聚类的文本清洗方法,该方法包括以下步骤:(1)对比学习样本准备:获取一批不包含噪声的文本数据,包含K个本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习聚类的文本清洗方法,其特征在于,该方法包括以下步骤:(1)对比学习样本准备:获取一批不包含噪声的文本数据,包含K个文本类型,对每一条文本数据使用不同的增强方法进行增强得到两条增强的文本数据;(2)训练文本聚类模型:(2.1)获取初始聚类中心:通过神经网络计算文本数据的文本向量,每一条文本数据得到3个一维文本向量,包含原始文本向量和2个增强文本向量vec11和vec12,对原始文本向量进行聚类,得到K个文本类型的聚类中心向量;根据聚类中心向量得到原始文本数据和2个增强文本数据属于各文本类型的概率;(2.2)训练聚类模型:a. 用全连接层网络对2个增强文本向量进行编码,得到固定长度的向量,并对其归一化处理,得到向量vec21和vec22;b. 将文本向量按随机顺序分批作为训练数据,训练聚类模型,具体为:针对vec21和vec22利用对比学习计算对比损失,调节计算文本向量的神经网络参数和全连接层网络参数;针对原始文本向量和2个增强文本向量vec11和vec12计算局部一致损失,调节计算文本向量的神经网络参数和全连接层网络参数;针对vec11和vec12计算聚类损失,调节计算文本向量的神经网络参数和聚类中心向量;通过训练好的聚类模型得到更新后的聚类中心向量;(3)清洗数据:对于一批待清洗的文本数据,计算每一条文本数据的文本向量与更新后的K个聚类中心向量的距离,按最小距离作为该文本向量对应的文本数据的噪声度,将每一个待清洗文本的噪声度按照其数值进行排序,并交给人工判断每一条文本数据是否为噪声数据。2.根据权利要求1所述的一种基于对比学习聚类的文本清洗方法,其特征在于,步骤(1)中,文本数据的增强方法包括对原始文本替换部分词或插入词进行增强。3.根据权利要求1所述的一种基于对比学习聚类的文本清洗方法,其特征在于,步骤(2)中,采用bert神经网络模型计算文本数据的文本向量,对每一条文本数据得到bert神经网络模型的全部编码层的向量,并用注意掩模加权得到一个一维向量,作为输入文本数据的文本向量,最终得到一批长度相同的文本向量,并对文本向量采用kmeans进行聚类。4.根据权利要求1所述的一种基于对比学习聚类的文本清洗方法,其特征在于,步骤(2)中,当文本数据具有文本类型标签时,将聚类结果与文本类型标签比较,赋以聚类结果最佳预测标签,查看聚类准确率,根据准确率调整聚类模型的训练过程以及超参数;最佳预测标签为混淆度最低的标签赋值,通过将文本数据的预测标签与真实标签形成混淆矩阵,对混淆矩阵用Hungarian算法得到最佳标签赋值。5.根据权利要求1所述的一种基于对比学习聚类的文本清洗方法,其特征在于,训练聚类模型的损失函数具体如下:对比损失:针对vec21和vec22利用对比学习得到训练损失;对一批训练数据中的一条文本数据,认为由同一条原始文本数据得到的两个增强文本数据的文本向量为同一文本类型,由其他不同文本数据得到的增强文本数据为不同文本类型;计算损失函数:
其中,M为一批文本数据的文本数量,2M为得到的增强文本数据的数量;表示第一条增强文本数据,表示第二条增强文本数据;为超参数,表示计算两个增强文本数据的相似度,相似度的计算为两个文本向量的归一化点积;聚类损失:针对vec11和vec12利用KL散度得到聚类损失;用t分布计算文本向量与K个聚类中心的距离,得到文本数据属于各文本类型的概率,并进行归一化;具体如下:其中为文本向量,为第k个聚类中心的向量,为超参数,初始值设为1,为属于第k个聚类中心的概率;用归一化概率按照下式得到辅助概率:属于第k个聚类中心的概率;用归一化概率按照下式得到辅助概率:对和计算KL散度,作为第j个样本的聚类损失;聚类中心向量的初值由聚类算法kmeans得到,作为可变参数,在后续训练中调节;局部一致损失:针对原始文本向量和2个增强文本向量vec11和vec12计算局部一致损失;根据原始文本数据和2个增强文本数据属于各文本类型的概率,计算原始文本数据的概率分布与2个增强文本数据的概率分布的KL散度,并将两个KL散度值相加,得到原始文本数据的局部一致损失。6.根据权利要求1所述的一种基于对比学习聚类的文本清洗方法,其特征在于,人工对排序的文本数据进行判断时,根据设置的噪声阈值,将大于阈值的作为噪声文本数据,或者由人工具体判...

【专利技术属性】
技术研发人员:韩瑞峰杨红飞
申请(专利权)人:杭州费尔斯通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1