文本分类场景下基于对抗训练的数据增强方法技术

技术编号：33660834 阅读：12 留言：0更新日期：2022-06-02 20:41

本发明专利技术公开了一种文本分类场景下基于对抗训练的数据增强方法：通过对训练集中的原始样本x

全部详细技术资料下载

【技术实现步骤摘要】
文本分类场景下基于对抗训练的数据增强方法

[0001]本专利技术属于自然语言处理领域，更具体的说，是涉及一种文本分类场景下基于对抗训练的数据增强方法。

技术介绍

[0002]数据增强一般有两种形式，第一是数据扩充，第二是特征增强，无论哪种方式，其本质都是通过借助辅助信息或辅助数据，在原始样本的基础上，产生新的样本，以增加样本的多样性。数据扩充是将新生成的未标记样本或标记样本加入到原始数据集中。特征增强是在原始样本的基础上，放大其数据特征，使得分类模型能够更好的将其识别出来。
[0003]现有的数据增强方法的研究大多面向于计算视觉(Computer Vision，简称CV)任务，并已经能够在大规模神经网络模型上起到非常显著的作用，但是在自然语言处理(Natural Language Processing，简称NLP)任务上，却一直被研究者所忽略。一方面，数据增强的关键之处在于标签的保留转换，但是自然语言是离散的，无法像图像数据一样经过简单的操作就能应用于实际任务。另一方面，现有的神经网络模型的规模普遍较大，具有过度参数化的特点，而对于这样的模型来说，如何进行微调也成为了研究者们探索的重点，特别是当某项特定任务中，数据集所包含的标签数据过少时，可能一些细微的变化，就会导致模型的崩溃。

技术实现思路

[0004]本专利技术的目的是为了克服现有技术中的不足，提出一种文本分类场景下基于对抗训练的数据增强方法，通过将对抗训练与回译、随机噪声注入、交叉增强等数据增强技术相组合，得到最高质量、最具多样性的增强...

【技术保护点】

【技术特征摘要】
1.一种文本分类场景下基于对抗训练的数据增强方法，其特征在于，包括以下过程：第一步：回译假设训练集用参数D＝{x
i
，y
i
}
1...N
表示，其中，x
i
表示原始样本，y
i
表示原始样本x
i
的标签，通过对训练集中的原始样本x
i
进行回译操作，生成一个样本序列集合，用D
′
＝{x
′
i
，y
′
i
}
1...N
表示，x
′
i
表示原始样本x
i
的释义样本，y
′
i
表示释义样本x
′
i
的标签；其中，设回译用公式x
′
i
＝BackTrans(x
i
)表示，参数x
′
i
是参数x
i
的释义文本；回译的具体执行流程如下：1)使用机器翻译，将英语表示的原始样本x
i
翻译成另一种语言；2)将翻译成另一种语言的样本翻译回英语，得到新样本x
′
i...

【专利技术属性】
技术研发人员：李剑，冯雪松，于永新，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人