一种基于BERT-base网络的带噪半监督文本分类方法技术

技术编号：27936768 阅读：19 留言：0更新日期：2021-04-02 14:17

本发明专利技术公开了一种基于BERT‑base网络的带噪半监督文本分类方法。本发明专利技术步骤：S1、用模型对无标签样本经回译后产生的新样本做出预测并构造预测标签；S2、将带标签和无标签样本再次输入模型后，在BERT中特定Transformer隐藏层做扰动和插值处理，最终得到插值模型输出；S3、构造损失函数loss＝l

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT-base网络的带噪半监督文本分类方法
本专利技术应用于自然语言处理(NLP)领域，具体涉及一种基于BERT-base网络的带噪半监督文本分类方法。
技术介绍
随着通信、互联网技术的发展，数据已经成为了一种工业原材料，如何挖掘并利用隐藏在数据中的信息已经形成多个产业并且创造了巨大的经济效益。文本数据因为由人的直接表达生成，故产生成本最低，数量最大，包含信息也最为丰富。在文本数据的众多应用中，分类是一个基础性工作。传统文本分类一般基于带标签数据做监督学习，但在实际的特定工业场景中，数据大多为无标签的原始数据，数据的标注可能需要耗费大量的人力资源，且人工标注的标签质量如何也值得怀疑，实际情况下甚至可能出现“训练数据越多，训练效果越差”的情况。故仅利用少量带标签数据和大量无标签数据的半监督学习方法就成为更加实际且低成本的选择。目前的半监督学习大多应用于图像分类，近几年的主流方法都利用了一致性正则和最小化熵的思想。一方面，若对数据输入添加噪声，一个鲁棒的模型的输出应该是相似的；另一方面，模型在无标签数据上的熵应该尽可能最小化。无标签数据通过一次或数次增强后输入模型，用模型的较低熵输出作为其预测标签。与此同时，将该无标签数据用另一种方式扰动之后输入模型，此时模型的输出应该和刚刚得到的人工标签存在相似性。衡量“较低熵”的方法一般是看模型输出的概率分布中的最大概率是否超过某个阈值。如何衡量“相似性”则取决于选择何种损失函数，一般的选择有KL散度、交叉熵、L2正则等。但在文本半监督分类中有两方面的问题...

【技术保护点】
1.一种基于BERT-base网络的带噪半监督文本分类方法，其特征在于包括如下步骤：/nS1、数据初始化阶段：将无标签样本做回译操作并产生新样本，然后将新样本输入模型，最后将其中高置信度的输出向量转化为对应one-hot标签；/nS2、数据增强阶段：采用FGM方法添加扰动并作插值处理，在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理；/nS3、损失函数的构造阶段；损失函数loss＝l

【技术特征摘要】
1.一种基于BERT-base网络的带噪半监督文本分类方法，其特征在于包括如下步骤：
S1、数据初始化阶段：将无标签样本做回译操作并产生新样本，然后将新样本输入模型，最后将其中高置信度的输出向量转化为对应one-hot标签；
S2、数据增强阶段：采用FGM方法添加扰动并作插值处理，在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理；
S3、损失函数的构造阶段；损失函数loss＝ls+lsce，第一项为对带标签样本的模型输出和其真实标签求交叉熵，第二项为插值标签与插值模型输出的对称交叉熵；
S4、模型参数更新阶段：
S5、模型应用阶段：使用训练好的模型，将测试文本输入模型，模型输出向量中最大概率处对应的类别即为预测所属的分类。

2.根据权利要求1所述的一种基于BERT-base网络的带噪半监督文本分类方法，其特征在于步骤S1具体实现如下：
S11、将无标签样本通过机器翻译工具翻译成其他语言之后再翻译回原语言，以此方式由样本得到样本其中j∈{1,2,…,Nu}，Nu为一个批次样本中无标签样本数量；
S12、将样本输入分类模型得到输出向量若即分类模型以一个高于阈值τ的置信度将该样本做出分类，则赋予一个one-hot预测标签标签同时对应样本和样本θ表示模型参数；
S13、若样本被赋予了one-hot标签，则也将无标签样本输入模型得到输出向量将带标签样本输入模型得到输出向量

3.根据权利要求2所述的一种基于BERT-base网络的带噪半监督文本分类方法，其特征在于步骤S2具体实现如下：
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成，这里针对无标签样本在BERT-base第3层隐藏层的输出添加扰动rj＝ε·gj/||gj||，其中即向量的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数；设无标签样本的第3层隐藏层的输出为则扰动后结果为
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作；设和分别为样本有标签样本和无标签样本在分类模型隐藏层中第k层的输出，k∈{7,9,12}；对应的真实标签和预测标签分别为和

4.根据权利要求3所述的一种基于BERT-base网络的带噪半监督文本分类方法，其特征在于所述的插值操作步骤如下：
S221、利用Beta分布产生一个0～1之间的随机数λ；
S222、取λ1＝max{λ,1-λ}，λ2＝min{λ,1-λ}，即λ1＞λ2且λ1+λ2＝1；
S223、计算
S224、将输入第k+1层隐...

【专利技术属性】
技术研发人员：任子扬，姚英彪，徐欣，李沛，刘兆霆，冯维，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人