基于对抗性和任务提示性的小样本文本分类方法技术

技术编号：35468372 阅读：19 留言：0更新日期：2022-11-05 16:12

本发明专利技术涉及软件通讯技术领域，且公开了基于对抗性和任务提示性的小样本文本分类方法，在PET(Pattern Exploiting Training，模板挖掘训练)模型的基础上，加入FGM对抗训练方法。修改后的模型称为融入对抗训练的模板挖掘训练(Adversarial Training Pattern Exploiting Training，AT

全部详细技术资料下载

【技术实现步骤摘要】
基于对抗性和任务提示性的小样本文本分类方法

[0001]本专利技术涉及软件通讯
，具体为基于对抗性和任务提示性的小样本文本分类方法。

技术介绍

[0002]过去几年中，由于深度学习以及数据量的不断扩大，使得自然语言处理成为了领域研究热点。文本分类作为自然语言处理中最基本、最必要的任务。它是用计算机对文本数据集按照一定的分类体系或标准进行自动分类标记。大部分模型通过一个已标注的训练文档集合,找到文档特征和文档类别之间的关系。然后利用这种学习得到的关系模型对新的文档中的文本进行类别判断，在近年来，由于预训练语言模型在各种任务上展现出优秀的性能，越来越多的学者针对预训练语言模型进行广泛使用和研究。Jacob Devlin等人在 2018年提出了BERT模型，首次把预训练语言模型提高到了风口浪尖的热度，之后的预训练语言模型层出不穷。各大公司、小组等组织都趋向于更大量数据集、更多参数和更大模型上做文章。但是，当计算资源匮乏的个人、组织面对这些取得SOTA结果的巨大模型时，甚至调用、微调都要花费巨额的成本。在这种环境下，P.Liu团队发表了一篇综述，将近代NLP技术的发展总结为四种范式：P1.非神经网络时代的完全监督学习(Fully Supervised Learning, Non
‑
Neural Network)、P2.基于神经网络的完全监督学习(Fully SupervisedLearning,Neural Network)、P3.预训练,精调范式(Pre
‑
train,Finer/>‑
tune)、 P4.预训练,提示,预测范式(Pre
‑
train,Prompt,Predict)。这篇综述不仅表明了在预训练语言模型中有大量可挖掘的知识，而且还推进了一种新的方向
‑
基于任务提示的研究，并在小样本问题上取得了非常好的结果。但是在基于小样本的任务提示方法的模型中模型的鲁棒性低、泛化能力弱仍然存在，所以本专利主要在PET模型中融入对抗训练来提高模型整体的鲁棒性和泛化能力。

技术实现思路

[0003](一)解决的技术问题
[0004]针对现有技术的不足，本专利技术提供了基于对抗性和任务提示性的小样本文本分类方法，以解决上述
技术介绍
中提出的问题。
[0005](二)技术方案
[0006]为实现上述目的，本专利技术提供如下技术方案：
[0007]构建模型修改模块、模型训练模块和效果对比模块：
[0008]模型修改模块：
[0009]如图1所示。在PET(Pattern Exploiting Training，模板挖掘训练) 模型的基础上，加入FGM对抗训练方法。修改后的模型称为融入对抗训练的模板挖掘训练AT
‑
PET(Adversarial Training Pattern Exploiting Training， AT
‑
PET)。在PET模型中融入对抗训练共有两种方式：在上游使用任务提示方法微调预训练语言模型时对于每个预训练语
言模型微调过程中加入对抗训练、在下游分类器C使用Unlabeled软标签数据集微调时加入对抗训练，本文选用第一种方式进行融入。在下游软标签数据集中因为标签数据的准确率本就不高，对比有监督数据集已经存在过多的“干扰”，而模型的训练过程是往损失减小的方向去调整模型参数。所以通过相关实验和研究为了避免对于下游分类器C产生过多的“干扰”，本文中在模型上游使用任务提示方法微调预训练语言模型的过程中融入对抗训练。
[0010]模型的流程图如图2所示，模型修改后的模型图如图1所示。
[0011]模型训练模块：
[0012]本文主要针对小样本文本分类问题，选用由康奈尔大学在2004年发布的 AG News数据集。该数据集在2000多种不同的新闻来源搜集数据，其中一共包含120000条训练样本，测试样本为7600条，分类名称为World、Sports、 Business、Sci/Tech共四种类别。由于AGNews数据集的标准以及发布机构的权威，大量模型在文本分类任务上的效果展示都在AGNews数据集上进行训练和评价指标的对比。原数据集各类别如表1所示。
[0013]设置实验组和对照组进行对比，其中方法使用控制不同量数据集：设置训练数据集D为10、50、100、1000四组对照实验，按1:4对训练集进行分割，使用原训练集的1/5作为验证集，使用原训练集的4/5作为训练数据。使用7600条的测试数据集作为测试集，最终在测试集进行测试获得评价指标，使用准确率作为评价指标。使用AGNews分类任务构建的六种PVPs人工模板。证明PET融合对抗训练能够有更好的效果。
[0014]实验组：
[0015]使用AT
‑
PET模型，采用AGNews数据集中相同的实验设置：使用 Roberta
‑
large模型作为预训练语言模型，分别设置数据量D为10、50、100、 1000使用任务提示方法微调上游预训练语言模型，在微调过程中添加FGM对抗训练方法。未标注的Unlabeled软标签数据集使用10000条去掉标签的训练集，上游t个预训练语言模型标注出t份软标签数据集的logits值，标注出的t份logits值软标签数据集使用权值进行融合，其中权值为做微调之前对不同模板的模型直接进行测试的准确率值。之后使用融合后的软标签数据集微调分类器C。
[0016]对照组A：
[0017]直接微调(Fine
‑
Tuning)预训练语言模型。直接微调预训练语言模型是使用Roberta
‑
large模型作为预训练语言模型，分别设置数据量D为10、50、 100、1000直接使用微调方法。
[0018]对照组B：
[0019]直接使用PET模型。采用AGNews数据集中相同的实验设置：使用 Roberta
‑
large模型作为预训练语言模型，分别设置数据量D为10、50、100、 1000使用任务提示方法微调上游预训练语言模型。未标注的软标签数据集同实验组。
[0020]效果对比模块：
[0021]由表2实验结果可知，在数据集由D＝0到D＝10的过程中，使用任务提示方法的PET和AT
‑
PET方法具有绝对的优势，使用Fine
‑
Tuning方法甚至不如无监督的预训练语言模型。而在D＝0时，PET方法和AT
‑
PET方法完全相同，都只是进行知识蒸馏过程。
[0022]在D＝10时，AT
‑
PET方法的效果不如PET方法，这可能是在因为在上游使用任务提示方法进行微调过程中数据量过小造成模型欠拟合，而引入对抗训练又使训练过程中的扰
动成倍数增大导致最终训练出的AT
‑
PET模型并没有 PET模型效果好。
[0023]在D＝本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于对抗性和任务提示性的小样本文本分类方法，其特征在于：包括以下步骤：S1、构建模型修改模块、模型训练模块和效果对比模块；S2、针对小样本文本分类问题，选用AGNews数据集，该数据集在2000多种不同的新闻来源搜集数据，其中一共包含120000条训练样本，测试样本为7600条，分类名称为World、Sports、Business、Sci/Tech共四种类别，由于AGNews数据集的标准以及发布机构的权威，大量模型在文本分类任务上的效果展示都在AGNews数据集上进行训练和评价指标的对比；S3、设置实验组和对照组进行对比，其中方法使用控制不同量数据集：设置训练数据集D为10、50、100、1000四组对照实验，按1:4对训练集进行分割；S4、使用7600条的测试数据集作为测试集，最终在测试集进行测试获得评价指标，使用准确率作为评价指标，使用AGNews分类任务构建的六种PVPs人工模板；S5、使用AT
‑
PET模型，采用与经典的PET模型论文在AGNews数据集中相同的实验设置：使用Roberta
‑
large模型作为预训练语言模型，分别设置数据量D为10、50、100、1000使用任务提示方法微调上游预训练语言模型，在微调过程中添加FGM对抗训练方法；S6、未标注的Unlabeled软标签数据集使用10000条去掉标签的训练集，上游t个预训练语言模型标注出t份软标签数据集的log...

【专利技术属性】
技术研发人员：高鹰，张昭光，翁金塔，郭晓语，徐晓峰，周灿基，林远新，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人