一种基于领域模板预训练的小样本文本分类方法技术

技术编号:36984570 阅读:53 留言:0更新日期:2023-03-25 18:03
本发明专利技术公开了一种基于领域模板预训练的小样本文本分类方法,其特点是该方法使用与目标任务相关的领域内数据集进行模板构建,然后使用构建之后的数据对预训练语言模型进行进一步的预训练,对目标任务数据集进行混合模板的构建,并对目标数据集数据进行预处理,使用进一步预训练之后的模型再对目标任务进行训练及验证,得到预测的词语,使用标签词映射器,将预测的词映射为最后的目标标签。本发明专利技术与现有技术相比具有训练速度更快,对硬件性能要求较低,更好的利用了预训练语言模型,使用较少的数据也能够来达到更好的分类效果,提高了目标任务的分类准确率,为相关领域的技术发展提供了技术支撑。供了技术支撑。供了技术支撑。

【技术实现步骤摘要】
一种基于领域模板预训练的小样本文本分类方法


[0001]本专利技术涉及自然语言处理
,具体的说是一种基于领域模板预训练及改进Prompt的小样本文本分类策略。

技术介绍

[0002]随着自然语言处理的不断发展,针对文本分类任务的模型算法也层出不穷,从基于概率的机器学习模型,再到由深层神经网络构成的深度学习模型。虽然这些模型方法逐步提高了分类准确性,但是这些模型一般都是在任务数据集上直接从头开始进行训练,需要大量的标注数据和高性能的处理器支撑,并且需要大量的训练时间,除此之外训练出来的模型对新任务的适应能力比较差,对于新任务而言往往需要再重新标注数据和训练模型。基于预训练模型的小样本学习方法在近几年的发展十分迅速,能够很好的解决上述问题,将基于预训练模型的小样本学习方法应用到文本分类中是具有研究价值的。基于预训练模型的小样本学习方法,能够很好的从海量无标签数据集中获得通用共性的语言表示知识和模型的初始化参数,然后在目标任务使用很少的数据训练,就可以取得了非常好的效果。
[0003]目前,在自然语言处理领域文本分类的方法主要分为基于深度学习模型和基于预训练语言模型两种类别。经典的基于深度学习模型的方法,如基于神经元的循环神经网络(RNN)(Mikolov T,Karafi
á
t M,Burget L,et al.Recurrent neural network based language model[C].Interspeech.2010,2(3):1045

1048);改进的长短期记忆神经网络(LSTM)(Zhang,Yanbo.Research on Text Classification Method Based on LSTM Neural Network Model.2021IEEE Asia

Pacific Conference on Image Processing,Electronics and Computers(IPEC)(2021):1019

1022);文本卷积神经网络模型(Text CNN)(Kim,Yoon.Convolutional Neural Networks for Sentence Classification[C].Empirical Methods in Natural Language Processing,2014:1746

1751)。对于具有大量标注的训练语料,这些模型能够通过训练反复调整模型参数,能够获得较好的分类效果。但是基于深度学习的方法都需要从头开始进行模型的训练,并且需要大量的训练数据集,建立输入X和输出Y变量之间的数学映射关系。在实际应用场景中,出于隐私及安全问题或收集标注成本问题,并不能获得大量的数据对模型进行训练学习,或者是受限于计算机硬件水平难以对深度学习模型开展训练。因此在资源受限的情况下,此类方法的性能和效果并不能令人满意。随着Transformer(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Neural Information Processing Systems,2017,(30):6000

6010)和Bert(Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Neural Information Processing Systems,2017,(30):6000

6010)。预训练语言模型的提出,加速了新一轮的自然语言领域发展,基于预训练语言模型的方法又可以分为让模型来适应任务的微调策略和让任务来适应模型的提示学习策略。预训练和微调的解决方案,首先基于预训练语言模型对下游任务设计训练对象,对模型进行微调,来获得语料的语义信息和预训
练模型的初始化参数,让模型来适应下游的各种任务,但由于预训练语言模型和下游任务之间目标不一致,往往存在着领域之间的隔阂,输入和输出之间存在结构偏差,微调设计复杂,优化成本高。而基于预训练模型的提示学习方法能够充分的发挥预训练语言模型的潜力,数据重构添加一个提示描述,将任务转化为预训练语言模型所熟知的完形填空任务,不需要重新设计分类器,仅需要设计不同的Prompt,就可以使目标任务适应预训练语言模型,并且能够展现出不错的分类效果。
[0004]尽管当前自然语言处理领域发展迅速,有大量优秀算法来进行文本分类任务的研究,但是仍存在一些未解决的问题。例如预训练语言模型和微调方法设计越来越复杂,目标任务与预训练语言任务领域相差过大,预训练语言模型很难学习到领域内特有的知识,预训练语言模型的输入输出与目标任务之间存在结构性偏差,对数据集数据处理方面丢失语义信息,冗余信息等,如何合理的获取领域数据信息并充分提升预训练模型在目标任务上的效果,在小样本文本分类领域仍是需要研究的重点问题之一。

技术实现思路

[0005]本专利技术的目的是针对现有技术的不足而提供的一种基于领域模板预训练的小样本文本分类方法,采用领域模板预训练和提示学习结合的方法,进行小样本文本分类任务的方法,利用目标数据集进行模板构建,使用预训练语言模型对MLM任务进行训练,获得的领域内信息经混合模板构建及多标签映射,实现使用较少的数据也能够达到更好的分类,不但缩短了目标任务的训练时间,而且减小了对计算机硬件性能的要求,该方法使用与目标任务相关的领域内数据集进行模板构建,然后使用构建之后的数据对预训练语言模型进行进一步的预训练,对目标任务数据集进行混合模板的构建,并对目标数据集数据进行预处理,使用进一步预训练之后的模型再对目标任务进行训练及验证,得到预测的词语,使用标签词映射器,将预测的词映射为最后的目标标签。方法简便,训练速度更快,对硬件性能要求较低,更好的利用了预训练语言模型,大大提高了目标任务的分类准确率,为相关领域的技术发展提供了技术支撑。
[0006]实现本专利技术的目的具体技术方案是:一种基于领域模板预训练的小样本文本分类方法,其特点是采用领域模板构建对预训练语言模型进行进一步预训练,对目标任务再进行改进的提示学习的构建进行小样本文本分类的方法,主要包括以下步骤:
[0007]步骤1:通过与目标任务相关的领域数据集进行提示模板的构建,若输入数据为X,经过fprompt为提示函数用来添加提示信息,构建成由下述(a)式定义的x:
[0008]x=fprompt(x)(a)。
[0009]其中,x为领域数据集文本数据;fprompt为模板构建函数;x

为领域数据集经模板构建后的数据。
[0010]步骤2:使用步骤1模板构建后的数据对选用的预训练语言模型针对MLM任务进行进一步预训练,从而使预训练语言模型获得与目标任务相关的领域信息。
[0011]步骤3:对目标任务每一个类别取相同数量的数据样本,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于领域模板预训练的小样本文本分类方法,其特征在于,采用与目标任务相关的领域数据集对使用的预训练语言模型进行进一步训练的方法,通过数据预处理、参数处理、混合模板和多标签映射进行小样本文本分类,具体包括以下步骤:1)使用与目标任务领域相关的数据集进行提示模板的构建,得到领域数据;2)以MLM为目标任务对领域数据选用的预训练语言模型进行预训练,生成进一步预训练语言模型;3)对训练数据集采用类别均衡采样,对长文本进行首尾相同长度截断,对短文本进行动态填充;4)使用目标数据集进行离散模板和连续模板结合的混合模板构建方法,进行提示混合模板的构建;5)使用生成的进一步预训练语言模型对目标任务进行训练及预测,对学习率参数进行调整,得到预测答案;6)根据预测答案使用多标签映射器,对模型预测的词根据答案空间进行目标任务的实际标签的标签映射转换,得到最后的输出标签,实现小样本文本分类。2.根据权利要求1所述的基于领域模板预训练的小样本文本分类方法,其特征在于,所述步骤1)使用与目标任务领域相关的数据集进行提示模板的构建,若输入数据为X,使用f为提示函数用于添加提示信息,构建成由下述(a)式定义的x:x=f(x)
ꢀꢀꢀ
(a);其中,x为领域数据集文本数据;f为模板构建函数;x

为领域数据集经模板构建后的数据。3.根据权利要求1所述的基于领域模板预训练的小样本文本分类方法,其特征在于,所述步骤4)使用人类可理解的自然语言模板和机器理解的编码语言模板对目标数据集进行提示混合模板的构建,使用目标任务的训练数...

【专利技术属性】
技术研发人员:王廷贾晨阳
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1