一种利用小样本数据提升迁移学习文本分类准确率的方法技术

技术编号：38770471 阅读：15 留言：0更新日期：2023-09-10 10:43

本发明专利技术公开一种利用小样本数据提升迁移学习文本分类准确率的方法，包括：步骤S1，使用工业互联网数据作为原始训练数据；步骤S2，使用基于LaserTagger数据增强方法对原始训练数据增强，生成更多训练数据；步骤S3，利用增强后数据进行BERT模型训练，具体利用BERT进行文本分类，BERT基于Masked Language Model即MLM作为新的预训练目标语言模型。本发明专利技术可在小样本语料利用模型提升工业互联网领域的文本分类识别效果，通过语义和模型的方式，对工业互联网领域增加文本数据量并提高模型的鲁棒性，后利用迁移学习方法识别，降低文本标注数据成本，提高工业互联网领域文本分类效果、模型识别准确率。别准确率。别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用小样本数据提升迁移学习文本分类准确率的方法

[0001]本专利技术涉及一种利用小样本数据提升迁移学习文本分类准确率的方法，属于自然语言处理、工业互联网相关领域。

技术介绍

[0002]文本分类作为自然语言处理领域一个基本重要的任务之一，多年来受到研究人员密切注意，其研究最早可以追溯到上世纪中叶，文本分类技术从早期的以领域专家定义规则为基础，再到今天深深度学习的兴起，文本分类技术逐渐应运而生，走向成熟。文本分类的技术主要分为以下三类：基于词典与规则的方法、基于统计模型的方法和基于深度学习的方法。
[0003]基于统计机器学习自然语言处理技术，以规则的覆盖面和准确率来辨别文本，又由于规则制定过于依赖专家经验，且限于规则的表达能力，多耗人力，因此，涌现了许多以规则的覆盖面和准确率为基础的机器学习算法如朴素贝叶斯、K最近邻、SVM、决策树、随机森林等为基准，一定程度上降低了构建分类器建造费用，提升了分类准确率等。随着这些在文本表达方面取得成功的词向量训练模型的出现，更多基于深度神经网络的文本分类模型也纷纷涌现，诸如卷积神经网络、循环神经网络等等，到目前为止，还有大量的关于句子内类似n
‑
Gram的关键信息，这些都通过卷积的局部特征提取能获得，并且通过卷积的局部特征提取取得较优局部语义相关性。通过简化循环神经网络的LSTM模型、GRU模型也相继推出，在一定程度上解决RNN序列梯度消失问题的同时，在文本分类任务中取得了不错的效果。到2017年，模型也证明通过深度的加满网络深度能够解决文本长距离依...

【技术保护点】

【技术特征摘要】
1.一种利用小样本数据提升迁移学习文本分类准确率的方法，其特征在于：该方法具体过程如下：步骤S1，使用工业互联网数据作为原始训练数据；步骤S2，使用种基于LaserTagger的数据增强方法对原始训练数据进行增强，以生成更多的训练数据；步骤S3，利用增强后的数据进行BERT模型训练，具体为利用BERT进行文本分类，BERT基于Masked Language Model即MLM作为新的预训练目标语言模型。2.根据权利要求1所述的一种利用小样本数据提升迁移学习文本分类准确率的方法，其特征在于：所述步骤2的具体过程如下：S201、将原始数据中的每个数据样本拆分为一个输入句子和一个标签序列；S202、对输入句子进行基于LaserTagger的增强，采用同义词替换、反义词替换、随机插入词语和词序颠倒方式，以生成新的输入句子；S203、将标签序列进行相应的增强，确保其...

【专利技术属性】
技术研发人员：顾维玺，朱国伟，周河晓，黄自成，李直儒，肖泽晓，李甲，蒋泊辰，
申请(专利权)人：中国工业互联网研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人