一种基于领域模板预训练的小样本文本分类方法技术

技术编号：36984570 阅读：53 留言：0更新日期：2023-03-25 18:03

本发明专利技术公开了一种基于领域模板预训练的小样本文本分类方法，其特点是该方法使用与目标任务相关的领域内数据集进行模板构建，然后使用构建之后的数据对预训练语言模型进行进一步的预训练，对目标任务数据集进行混合模板的构建，并对目标数据集数据进行预处理，使用进一步预训练之后的模型再对目标任务进行训练及验证，得到预测的词语，使用标签词映射器，将预测的词映射为最后的目标标签。本发明专利技术与现有技术相比具有训练速度更快，对硬件性能要求较低，更好的利用了预训练语言模型，使用较少的数据也能够来达到更好的分类效果，提高了目标任务的分类准确率，为相关领域的技术发展提供了技术支撑。供了技术支撑。供了技术支撑。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于领域模板预训练的小样本文本分类方法

[0001]本专利技术涉及自然语言处理
，具体的说是一种基于领域模板预训练及改进Prompt的小样本文本分类策略。

技术介绍

[0002]随着自然语言处理的不断发展，针对文本分类任务的模型算法也层出不穷，从基于概率的机器学习模型，再到由深层神经网络构成的深度学习模型。虽然这些模型方法逐步提高了分类准确性，但是这些模型一般都是在任务数据集上直接从头开始进行训练，需要大量的标注数据和高性能的处理器支撑，并且需要大量的训练时间，除此之外训练出来的模型对新任务的适应能力比较差，对于新任务而言往往需要再重新标注数据和训练模型。基于预训练模型的小样本学习方法在近几年的发展十分迅速，能够很好的解决上述问题，将基于预训练模型的小样本学习方法应用到文本分类中是具有研究价值的。基于预训练模型的小样本学习方法，能够很好的从海量无标签数据集中获得通用共性的语言表示知识和模型的初始化参数，然后在目标任务使用很少的数据训练，就可以取得了非常好的效果。
[0003]目前，在自然语言处理领域文本分类的方法主要分为基于深度学习模型和基于预训练语言模型两种类别。经典的基于深度学习模型的方法，如基于神经元的循环神经网络(RNN)(Mikolov T,Karafi
á
t M,Burget L,et al.Recurrent neural network based language model[C].Interspeech.2010,2(3):1045
‑
1048...

【技术保护点】

【技术特征摘要】
1.一种基于领域模板预训练的小样本文本分类方法，其特征在于，采用与目标任务相关的领域数据集对使用的预训练语言模型进行进一步训练的方法，通过数据预处理、参数处理、混合模板和多标签映射进行小样本文本分类，具体包括以下步骤：1)使用与目标任务领域相关的数据集进行提示模板的构建，得到领域数据；2)以MLM为目标任务对领域数据选用的预训练语言模型进行预训练，生成进一步预训练语言模型；3)对训练数据集采用类别均衡采样，对长文本进行首尾相同长度截断，对短文本进行动态填充；4)使用目标数据集进行离散模板和连续模板结合的混合模板构建方法，进行提示混合模板的构建；5)使用生成的进一步预训练语言模型对目标任务进行训练及预测，对学习率参数进行调整，得到预测答案；6)根据预测答案使用多标签映射器，对模型预测的词根据答案空间进行目标任务的实际标签的标签映射转换，得到最后的输出标签，实现小样本文本分类。2.根据权利要求1所述的基于领域模板预训练的小样本文本分类方法，其特征在于，所述步骤1)使用与目标任务领域相关的数据集进行提示模板的构建，若输入数据为X，使用f为提示函数用于添加提示信息，构建成由下述(a)式定义的x：x＝f(x)
ꢀꢀꢀ
(a)；其中，x为领域数据集文本数据；f为模板构建函数；x
’
为领域数据集经模板构建后的数据。3.根据权利要求1所述的基于领域模板预训练的小样本文本分类方法，其特征在于，所述步骤4)使用人类可理解的自然语言模板和机器理解的编码语言模板对目标数据集进行提示混合模板的构建，使用目标任务的训练数...

【专利技术属性】
技术研发人员：王廷，贾晨阳，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人