一种利用小样本数据提升迁移学习文本分类准确率的方法技术

技术编号:38770471 阅读:15 留言:0更新日期:2023-09-10 10:43
本发明专利技术公开一种利用小样本数据提升迁移学习文本分类准确率的方法,包括:步骤S1,使用工业互联网数据作为原始训练数据;步骤S2,使用基于LaserTagger数据增强方法对原始训练数据增强,生成更多训练数据;步骤S3,利用增强后数据进行BERT模型训练,具体利用BERT进行文本分类,BERT基于Masked Language Model即MLM作为新的预训练目标语言模型。本发明专利技术可在小样本语料利用模型提升工业互联网领域的文本分类识别效果,通过语义和模型的方式,对工业互联网领域增加文本数据量并提高模型的鲁棒性,后利用迁移学习方法识别,降低文本标注数据成本,提高工业互联网领域文本分类效果、模型识别准确率。别准确率。别准确率。

【技术实现步骤摘要】
一种利用小样本数据提升迁移学习文本分类准确率的方法


[0001]本专利技术涉及一种利用小样本数据提升迁移学习文本分类准确率的方法,属于自然语言处理、工业互联网相关领域。

技术介绍

[0002]文本分类作为自然语言处理领域一个基本重要的任务之一,多年来受到研究人员密切注意,其研究最早可以追溯到上世纪中叶,文本分类技术从早期的以领域专家定义规则为基础,再到今天深深度学习的兴起,文本分类技术逐渐应运而生,走向成熟。文本分类的技术主要分为以下三类:基于词典与规则的方法、基于统计模型的方法和基于深度学习的方法。
[0003]基于统计机器学习自然语言处理技术,以规则的覆盖面和准确率来辨别文本,又由于规则制定过于依赖专家经验,且限于规则的表达能力,多耗人力,因此,涌现了许多以规则的覆盖面和准确率为基础的机器学习算法如朴素贝叶斯、K最近邻、SVM、决策树、随机森林等为基准,一定程度上降低了构建分类器建造费用,提升了分类准确率等。随着这些在文本表达方面取得成功的词向量训练模型的出现,更多基于深度神经网络的文本分类模型也纷纷涌现,诸如卷积神经网络、循环神经网络等等,到目前为止,还有大量的关于句子内类似n

Gram的关键信息,这些都通过卷积的局部特征提取能获得,并且通过卷积的局部特征提取取得较优局部语义相关性。通过简化循环神经网络的LSTM模型、GRU模型也相继推出,在一定程度上解决RNN序列梯度消失问题的同时,在文本分类任务中取得了不错的效果。到2017年,模型也证明通过深度的加满网络深度能够解决文本长距离依赖问题,并且可以显著地获得较出色的准确率。
[0004]传统基于词典和规则的实体抽取方法,在词典和规则覆盖的范围内有较高的准确率,可是泛化效果较差,满足不了高准确率文本分类的需求,基于深度学习的知识抽取模型有很好的泛化效果,可是对训练语料数量要求比较高。
[0005]工业互联网领域具有领域知识多样性和差异化等特点,针对工业互联网相关的文本信息进行分类,有助于工业互联网信息进行分类梳理。但是其数据存在数据规模较小,标注数据缺乏等问题。
[0006]工业互联网领域由于特殊的工业环境和行业特点,通常会存在以下小样本问题:数据量不足:在某些情况下,数据集的规模很小,例如某些行业的非常规场景或特定的设备。这可能导致在构建机器学习模型时,数据集不能涵盖所有场景或无法反映真实世界的多样性。数据质量差:在某些情况下,数据可能会受到不同程度的噪声干扰,例如传感器数据可能会受到传输错误、采集噪声或设备故障等干扰,导致数据质量差。这些干扰因素可能会对模型训练产生负面影响。类别不平衡:在某些情况下,数据集中的不同类别的样本数可能会存在严重的不平衡,例如某些故障的样本数很少,而正常样本数很多。这可能会导致模型在预测时对少数类别的分类效果较差。

技术实现思路

[0007]本专利技术的目的是提出一种利用小样本数据提升迁移学习文本分类准确率的方法,以解决现有技术中存在的问题。通过语义和模型的方式,对工业互联网领域样本在不增加手动标记成本的情况下,增加文本数据量并提高模型的鲁棒性,然后利用迁移学习的方法进行识别,降低文本标注数据成本,提高在工业互联网领域的文本分类效果,提高工业互联网领域的模型识别准确率。
[0008]一种利用小样本数据提升迁移学习文本分类准确率的方法,具体过程如下:
[0009]步骤S1,使用工业互联网数据作为原始训练数据。
[0010]步骤S2,使用种基于LaserTagger(如图1所示)的数据增强方法对原始训练数据进行增强,以生成更多的训练数据。具体过程如下:
[0011]S201、将原始数据中的每个数据样本拆分为一个输入句子和一个标签序列。
[0012]S202、对输入句子进行基于LaserTagger的增强,可以采用同义词替换、反义词替换、随机插入词语和词序颠倒等方式,以生成新的输入句子。
[0013]S203、将标签序列进行相应的增强,确保其与增强后的输入句子相对应。
[0014]S204、将步骤S202增强后的输入句子和步骤S203增强后的标签序列作为新的训练数据加入到原始训练数据中。
[0015]步骤S3,利用增强后的数据进行BERT模型训练,具体为利用BERT进行文本分类,BERT基于Masked Language Model即MLM作为新的预训练目标语言模型;具体步骤如下:
[0016]S301、将增强后的数据集划分为训练集、验证集和测试集。
[0017]S302、使用BERT模型进行训练,可以选择预训练的基础模型进行迁移学习。
[0018]S303、在训练过程中,可以使用多种技术来提高模型的性能,如学习率衰减、early stopping、dropout等等。
[0019]S304、在模型训练完成后,可以使用测试集对模型进行评估,以评估模型的性能。
[0020]S305、如果模型的性能不佳,可以调整模型参数、增加训练数据或尝试其他技术,以进一步提高模型性能。
[0021]本专利技术的一种利用小样本数据提升迁移学习文本分类准确率的方法,其优点及功效在于:可以在小样本语料利用模型提升工业互联网领域的文本分类识别效果,通过语义和模型的方式,对工业互联网领域样本在不增加手动标记成本的情况下,增加文本数据量并提高模型的鲁棒性,然后利用迁移学习的方法进行识别,降低文本标注数据成本,提高在工业互联网领域的文本分类效果,提高工业互联网领域的模型识别准确率。
附图说明
[0022]图1所示为通过LaserTagger进行中文处理流程。
[0023]图2所示为transfomer模型的基本结构。
[0024]图3所示为基于小样本进行迁移学习的处理流程。
[0025]具体实施方式为
[0026]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本专利技术而提出了许多技术细节。但是,即使没有这些技术细节
和基于以下各实施方式的种种变化和修改,也可以实现本专利技术所要求保护的技术方案。
[0027]本专利技术提出一种利用小样本数据提升迁移学习文本分类准确率的方法,主要针对工业互联网领域知识识别任务,一般传统数据增强方法主要基于词级别进行语义增强。具体主要包括:根据同义词词林,将标注数据中的非实体词替换为同义词;随机插入,对于非实体部分,随机插入词语,向文本数据输入噪声,增加系统鲁棒性;实体替换,随机将标注数据中的若干命名实体替换为其他同类型的命名实体,丰富实体表述多样性。对材料核心信息进行遮掩,比如材料名称,保证核心材料信息不被丢失,保证材料识别语料在转换过程中核心信息的完整性。
[0028]实施例1
[0029]本专利技术提出了一种基于LaserTagger的数据增强方法,LaserTagger(由google提出)的开发是基于以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用小样本数据提升迁移学习文本分类准确率的方法,其特征在于:该方法具体过程如下:步骤S1,使用工业互联网数据作为原始训练数据;步骤S2,使用种基于LaserTagger的数据增强方法对原始训练数据进行增强,以生成更多的训练数据;步骤S3,利用增强后的数据进行BERT模型训练,具体为利用BERT进行文本分类,BERT基于Masked Language Model即MLM作为新的预训练目标语言模型。2.根据权利要求1所述的一种利用小样本数据提升迁移学习文本分类准确率的方法,其特征在于:所述步骤2的具体过程如下:S201、将原始数据中的每个数据样本拆分为一个输入句子和一个标签序列;S202、对输入句子进行基于LaserTagger的增强,采用同义词替换、反义词替换、随机插入词语和词序颠倒方式,以生成新的输入句子;S203、将标签序列进行相应的增强,确保其...

【专利技术属性】
技术研发人员:顾维玺朱国伟周河晓黄自成李直儒肖泽晓李甲蒋泊辰
申请(专利权)人:中国工业互联网研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1