基于对抗训练的对比学习层次编码文本聚类方法及系统技术方案

技术编号：34149296 阅读：19 留言：0更新日期：2022-07-14 19:44

本发明专利技术涉及自然语言处理技术领域，具体而言，涉及基于对抗训练的对比学习层次编码文本聚类方法及系统。步骤如下：利用对比学习模型作为编码器，将一批训练集输入编码器中进行重构学习；在编码器的训练过程中加入对抗训练，根据损失函数指导编码器的训练；利用Infomap算法对编码器所输出的文本向量进行聚类。本发明专利技术基于对比学习+对抗训练得到的较优的文本向量表示，采用Infomap算法对构造的无向图进行聚类，能够实现较优的聚类效果。能够实现较优的聚类效果。能够实现较优的聚类效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于对抗训练的对比学习层次编码文本聚类方法及系统

[0001]本专利技术涉及自然语言处理
，具体而言，涉及基于对抗训练的对比学习层次编码文本聚类方法及系统。

技术介绍

[0002]在当前的智能对话系统中，无论是闲聊性对话还是任务型对话系统，都需要人工对海量的样本进行标注用以确定每个样本的意图，然后用深度学习模型来对其进行意图识别训练。然而上述方法至少存在以下缺陷：（1）上至几千万的数据集标注会耗费非常大的人力资源；（2）人工标注会出现标注错误的情况，一旦有标注错误，一方面对于模型训练带来效果的不确定性，一方面还会导致返工检查样本错误的情况，进一步加剧了人工的浪费。

技术实现思路

[0003]本专利技术的目的在于提供基于对抗训练的对比学习层次编码文本聚类方法及系统，通过对比学习和对抗训练得到较优的文本向量表示，再通过向量表示构建无向图，通过Infomap算法对无向图进行聚类，可以实现海量无标注文本中相似样本的聚类，使得相同意图的样本能够分为一个簇，发现每个簇的意图，旨在解决
技术介绍
中所指出的问题。
[0004]本专利技术的实施例通过以下技术方案实现：基于对抗训练的对比学习层次编码文本聚类方法，包括如下步骤：S1.利用对比学习模型作为编码器，将一批训练集输入编码器中进行重构学习；S2.在编码器的训练过程中加入对抗训练，根据损失函数指导编码器的训练；S3.利用Infomap算法对编码器所输出的文本向量进行聚类。
[0005]根据一种优选实施方式，所述编码器采用Bert、roberta、...

【技术保护点】

【技术特征摘要】
1.基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，包括如下步骤：S1.利用对比学习模型作为编码器，将一批训练集输入编码器中进行重构学习；S2.在编码器的训练过程中加入对抗训练，根据损失函数指导编码器的训练；S3.利用Infomap算法对编码器所输出的文本向量进行聚类。2.如权利要求1所述的基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，所述编码器采用Bert、roberta、tiny_bert或者bert_wwm其中之一。3.如权利要求2所述的基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，若所述编码器采用Bert，则编码器所输出的文本向量经过一个多层感知机MLP，进行降维。4.如权利要求1所述的基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，所述训练集采用无标注相似句。5.如权利要求1所述的基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，所述对抗训练采用FGM、PGD或者FreeLB其中之一。6.如权利要求1所述的基于对抗训练的对比学习层次编码文本聚类方法，其特征在于，所述对抗训练采用FGM，步骤S2具体包括：对训练集加入扰动项，使用梯度下降法优化训练集的损失函数，并对模型的参数权重进行更新，不断迭代上述步骤完成编码器的训练，表达式如...

【专利技术属性】
技术研发人员：郭湘，江岭，黄鹏，郭涛，
申请(专利权)人：成都晓多科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人