一种基于自监督和有监督联合训练的半监督文本分类方法及系统技术方案

技术编号:33439865 阅读:52 留言:0更新日期:2022-05-19 00:27
本发明专利技术公开了一种基于自监督和有监督联合训练的半监督文本分类方法及系统,包括以下步骤:采集任务相关数据集,所述数据集包括标注数据集T和未标注数据集U;对所述数据集进行数据增强处理,将处理后得到的增强视图用于扩充原始数据集,得到新样本数据集,所述新样本数据集包括标注数据集T'和未标注数据集U';构建文本语义特征提取网络模型,基于文本语义特征提取网络模型获取文本语义特征向量;在所述文本语义特征提取网络模型上构建分类层,得到分类模型;从所述新样本数据集中重复采样得到batch数据组,每个batch数据组内均包含标注数据和未标注数据;采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。型参数。型参数。

【技术实现步骤摘要】
一种基于自监督和有监督联合训练的半监督文本分类方法及系统


[0001]本专利技术涉及自然语言处理
,具体涉及一种基于自监督和有监督联合训练的半监督文本分类方法及系统。

技术介绍

[0002]近年来,随着互联网技术的快速发展,电子文本数据的数量呈爆炸式增长,如何有效地组织和管理这些文本数据就显得越来越重要。文本分类作为自然语言处理领域的核心技术,可以自动、高效、准确地处理海量数据,在搜索引擎、舆情分析、信息过滤、人机对话等多个领域被广泛应用并取得了满意的工程效果。
[0003]然而,传统的文本分类方法通常基于有监督式学习,这种学习方式十分依赖大量高质量标注数据,而数据标注往往需要昂贵的成本。因此,半监督学习,一种结合有监督和无监督的学习方式,成为文本分类的一个关键突破点,它能够同时利用少量标注数据和大量无标注数据,降低标注成本,同时还能获得良好性能。
[0004]现有的半监督分类方法大多是将标注数据和非标注数据完全分离来进行训练,虽然可以利用未标注数据中的语义信息,但是模型仍然容易过拟合于有限的标注数据中,不能有效表征数据特征,特别是在样本差异性不是特别明显的场景中,很难达到用户使用要求。此外,对比学习,一种自监督学习方法,不需要人工标注信息,直接利用数据本身作为监督信息来学习样本数据特征,已在计算机视觉领域取得了显著效果,却鲜有在自然语言处理领域的半监督学习中得到应用。

技术实现思路

[0005]本专利技术的目的在于提供一种基于自监督和有监督联合训练的半监督文本分类方法及系统,以期解决
技术介绍
中存在的技术问题。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]一种基于自监督和有监督联合训练的半监督文本分类方法,包括以下步骤:
[0008]采集任务相关数据集,所述数据集包括标注数据集T和未标注数据集U;
[0009]对所述数据集进行数据增强处理,将处理后得到的增强视图用于扩充原始数据集,得到新样本数据集,所述新样本数据集包括标注数据集T'和未标注数据集U';
[0010]构建文本语义特征提取网络模型,基于文本语义特征提取网络模型获取文本语义特征向量;
[0011]在所述文本语义特征提取网络模型上构建分类层,得到分类模型;
[0012]从所述新样本数据集中重复采样得到batch数据组,每个batch数据组内均包含标注数据和未标注数据;
[0013]采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。
[0014]在一些实施例中,所述步骤采集任务相关数据集,所述数据集包括标注数据集T和未标注数据集U,包括:利用数据采集工具采集任务相关数据集;标注数据集T采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法进行标注。
[0015]在一些实施例中,所述数据增强处理采用基于字/词的数据增强方法,所述基于字/词的数据增强方法包含但不限于:回译、同义词替换、随机插入、随机删除、随机打乱句子顺序。
[0016]在一些实施例中,所述数据增强处理采用基于Embedding的数据增强方法,基于Embedding的数据增强方法包含但不限于:生成对抗样本、Dropout、SpatialDropout1D。
[0017]在一些实施例中,所述文本语义特征提取网络模型包含两大部分:特征提取基础模型和池化层;特征提取基础模型的输出为向量序列;
[0018]特征提取基础模型由以下神经网络实现:卷积神经网络、循环神经网络、Attention神经网络以及基于Transformer的各类预训练模型;
[0019]将特征提取基础模型的输出进行池化操作,获得样本语义特征向量;
[0020]池化操作包含但不限于:最大池化,平均池化。
[0021]在一些实施例中,所述分类层包含多个全连接层和一个softmax层;所述分类模型与所述文本语义特征提取网络模型实现参数共享。
[0022]在一些实施例中,每个batch数据组内标注数据和未标注数据的占比为0.6:0.4;每个未标注数据在batch数据组内存在其增强视图。
[0023]在一些实施例中,所述采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数,包括:
[0024]构造自监督任务,采用未标注数据U'在所述特征提取模型上进行对比学习;
[0025]构造分类任务,采用标注数据T

在所述分类模型上进行文本分类任务;
[0026]采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数。
[0027]在一些实施例中,所述构造自监督任务,采用未标注数据U'在所述特征提取模型上进行对比学习,包括:
[0028]通过所述特征提取模型获取未标注样本的语义特征向量;
[0029]将未标注数据与其增强视图视作正例,将未标注数据与batch数据组内其余数据视作负例;
[0030]通过式(1)、式(2)计算对比损失,通过最小化损失,实现正样例靠近,负样例远离的效果:
[0031][0032][0033]其中,L
i
是batch内任一未标注样本的对比损失,L
U'
是batch所有未标注样本对比损失之和;N是一个batch中数据总量,r
i
指的是batch中第i个文本的语义特征向量,r
j
指的是r
i
在batch内的增强视图所对应的语义特征向量,sim是余弦距离函数,τ是温度系数,I是
指示函数;
[0034]所述构造分类任务,采用标注数据T

在所述分类模型上进行文本分类任务,包括:通过所述分类模型获取标注样本预测类别的概率分布;
[0035]采用式(3)所示交叉熵函数作为分类训练的损失函数;
[0036][0037]其中,p
i
指的是batch中第i个文本的真实类别,q
i
指的是batch中第i个文本的预测值的概率分布;
[0038]其中,p
i
指的是batch中第i个文本的真实类别,q
i
指的是batch中第i个文本的预测值的概率分布;
[0039]所述采用所述batch数据组在分类模型上实现上述两个任务联合训练,更新模型参数,包括:
[0040]计算整个模型的总损失函数如式(4)所示,通过最小化总损失,实现分类和对比学习的联合训练,共同更新模型参数:
[0041]L=αL
U'
+(1

α)L
T'
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0042]其中,α是超参数。
[0043]本实施例还提供了一种基于自监督和有监督联合训练的半监督本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,包括以下步骤:采集任务相关数据集,所述数据集包括标注数据集T和未标注数据集U;对所述数据集进行数据增强处理,将处理后得到的增强视图用于扩充原始数据集,得到新样本数据集,所述新样本数据集包括标注数据集T'和未标注数据集U';构建文本语义特征提取网络模型,基于文本语义特征提取网络模型获取文本语义特征向量;在所述文本语义特征提取网络模型上构建分类层,得到分类模型;从所述新样本数据集中重复采样得到batch数据组,每个batch数据组内均包含标注数据和未标注数据;采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。2.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述步骤采集任务相关数据集,所述数据集包括标注数据集T和未标注数据集U,包括:利用数据采集工具采集任务相关数据集;标注数据集T采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法进行标注。3.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述数据增强处理采用基于字/词的数据增强方法,所述基于字/词的数据增强方法包含但不限于:回译、同义词替换、随机插入、随机删除、随机打乱句子顺序。4.根据权利要求3所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述数据增强处理采用基于Embedding的数据增强方法,基于Embedding的数据增强方法包含但不限于:生成对抗样本、Dropout、SpatialDropout1D。5.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述文本语义特征提取网络模型包含两大部分:特征提取基础模型和池化层;特征提取基础模型的输出为向量序列;特征提取基础模型由以下神经网络实现:卷积神经网络、循环神经网络、Attention神经网络以及基于Transformer的各类预训练模型;将特征提取基础模型的输出进行池化操作,获得样本语义特征向量;池化操作包含但不限于:最大池化,平均池化。6.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述分类层包含多个全连接层和一个softmax层;所述分类模型与所述文本语义特征提取网络模型实现参数共享。7.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,每个batch数据组内标注数据和未标注数据的占比为0.6:0.4;每个未标注数据在batch数据组内存在其增强视图。8.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法,其特征在于,所述采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数,包括:构造自监督任务,采用未标注数据U...

【专利技术属性】
技术研发人员:杨兰周兴发孙锐展华益
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1