一种基于自监督和有监督联合训练的半监督文本分类方法及系统技术方案

技术编号：33439865 阅读：52 留言：0更新日期：2022-05-19 00:27

本发明专利技术公开了一种基于自监督和有监督联合训练的半监督文本分类方法及系统，包括以下步骤：采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U；对所述数据集进行数据增强处理，将处理后得到的增强视图用于扩充原始数据集，得到新样本数据集，所述新样本数据集包括标注数据集T'和未标注数据集U'；构建文本语义特征提取网络模型，基于文本语义特征提取网络模型获取文本语义特征向量；在所述文本语义特征提取网络模型上构建分类层，得到分类模型；从所述新样本数据集中重复采样得到batch数据组，每个batch数据组内均包含标注数据和未标注数据；采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。型参数。型参数。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督和有监督联合训练的半监督文本分类方法及系统

[0001]本专利技术涉及自然语言处理
，具体涉及一种基于自监督和有监督联合训练的半监督文本分类方法及系统。

技术介绍

[0002]近年来，随着互联网技术的快速发展，电子文本数据的数量呈爆炸式增长，如何有效地组织和管理这些文本数据就显得越来越重要。文本分类作为自然语言处理领域的核心技术，可以自动、高效、准确地处理海量数据，在搜索引擎、舆情分析、信息过滤、人机对话等多个领域被广泛应用并取得了满意的工程效果。
[0003]然而，传统的文本分类方法通常基于有监督式学习，这种学习方式十分依赖大量高质量标注数据，而数据标注往往需要昂贵的成本。因此，半监督学习，一种结合有监督和无监督的学习方式，成为文本分类的一个关键突破点，它能够同时利用少量标注数据和大量无标注数据，降低标注成本，同时还能获得良好性能。
[0004]现有的半监督分类方法大多是将标注数据和非标注数据完全分离来进行训练，虽然可以利用未标注数据中的语义信息，但是模型仍然容易过拟合于有限的标注数据中，不能有效表征数据特征，特别是在样本差异性不是特别明显的场景中，很难达到用户使用要求。此外，对比学习，一种自监督学习方法，不需要人工标注信息，直接利用数据本身作为监督信息来学习样本数据特征，已在计算机视觉领域取得了显著效果，却鲜有在自然语言处理领域的半监督学习中得到应用。

技术实现思路

[0005]本专利技术的目的在于提供一种基于自监督和有监督联合训练的半监督文本分类方法及系统，以...

【技术保护点】

【技术特征摘要】
1.一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，包括以下步骤：采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U；对所述数据集进行数据增强处理，将处理后得到的增强视图用于扩充原始数据集，得到新样本数据集，所述新样本数据集包括标注数据集T'和未标注数据集U'；构建文本语义特征提取网络模型，基于文本语义特征提取网络模型获取文本语义特征向量；在所述文本语义特征提取网络模型上构建分类层，得到分类模型；从所述新样本数据集中重复采样得到batch数据组，每个batch数据组内均包含标注数据和未标注数据；采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数。2.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述步骤采集任务相关数据集，所述数据集包括标注数据集T和未标注数据集U，包括：利用数据采集工具采集任务相关数据集；标注数据集T采用人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法进行标注。3.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述数据增强处理采用基于字/词的数据增强方法，所述基于字/词的数据增强方法包含但不限于：回译、同义词替换、随机插入、随机删除、随机打乱句子顺序。4.根据权利要求3所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述数据增强处理采用基于Embedding的数据增强方法，基于Embedding的数据增强方法包含但不限于：生成对抗样本、Dropout、SpatialDropout1D。5.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述文本语义特征提取网络模型包含两大部分：特征提取基础模型和池化层；特征提取基础模型的输出为向量序列；特征提取基础模型由以下神经网络实现：卷积神经网络、循环神经网络、Attention神经网络以及基于Transformer的各类预训练模型；将特征提取基础模型的输出进行池化操作，获得样本语义特征向量；池化操作包含但不限于：最大池化，平均池化。6.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述分类层包含多个全连接层和一个softmax层；所述分类模型与所述文本语义特征提取网络模型实现参数共享。7.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，每个batch数据组内标注数据和未标注数据的占比为0.6:0.4；每个未标注数据在batch数据组内存在其增强视图。8.根据权利要求1所述的一种基于自监督和有监督联合训练的半监督文本分类方法，其特征在于，所述采用所述batch数据组在分类模型上进行分类和对比学习的联合训练,更新模型参数，包括：构造自监督任务，采用未标注数据U...

【专利技术属性】
技术研发人员：杨兰，周兴发，孙锐，展华益，
申请(专利权)人：四川启睿克科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人