一种基于BERT-base网络的带噪半监督文本分类方法技术

技术编号:27936768 阅读:19 留言:0更新日期:2021-04-02 14:17
本发明专利技术公开了一种基于BERT‑base网络的带噪半监督文本分类方法。本发明专利技术步骤:S1、用模型对无标签样本经回译后产生的新样本做出预测并构造预测标签;S2、将带标签和无标签样本再次输入模型后,在BERT中特定Transformer隐藏层做扰动和插值处理,最终得到插值模型输出;S3、构造损失函数loss=l

【技术实现步骤摘要】
一种基于BERT-base网络的带噪半监督文本分类方法
本专利技术应用于自然语言处理(NLP)领域,具体涉及一种基于BERT-base网络的带噪半监督文本分类方法。
技术介绍
随着通信、互联网技术的发展,数据已经成为了一种工业原材料,如何挖掘并利用隐藏在数据中的信息已经形成多个产业并且创造了巨大的经济效益。文本数据因为由人的直接表达生成,故产生成本最低,数量最大,包含信息也最为丰富。在文本数据的众多应用中,分类是一个基础性工作。传统文本分类一般基于带标签数据做监督学习,但在实际的特定工业场景中,数据大多为无标签的原始数据,数据的标注可能需要耗费大量的人力资源,且人工标注的标签质量如何也值得怀疑,实际情况下甚至可能出现“训练数据越多,训练效果越差”的情况。故仅利用少量带标签数据和大量无标签数据的半监督学习方法就成为更加实际且低成本的选择。目前的半监督学习大多应用于图像分类,近几年的主流方法都利用了一致性正则和最小化熵的思想。一方面,若对数据输入添加噪声,一个鲁棒的模型的输出应该是相似的;另一方面,模型在无标签数据上的熵应该尽可能最小化。无标签数据通过一次或数次增强后输入模型,用模型的较低熵输出作为其预测标签。与此同时,将该无标签数据用另一种方式扰动之后输入模型,此时模型的输出应该和刚刚得到的人工标签存在相似性。衡量“较低熵”的方法一般是看模型输出的概率分布中的最大概率是否超过某个阈值。如何衡量“相似性”则取决于选择何种损失函数,一般的选择有KL散度、交叉熵、L2正则等。但在文本半监督分类中有两方面的问题。一方面,如何将图像半监督分类中的一致性正则和最小化熵的思想应用于文本处理之中。对图像进行旋转、镜像、转换灰度等简单操作就可以在样本标签不变的条件下实现数据增强。然而在NLP中,文本数据具有一定离散特性,很难通过简单的转换来生成大量语义不变的扩充样本。尤其是短文本中,对部分词语的改动很可能直接改变整体语义,故直接在词向量上添加扰动并非最佳选择。另一方面,通过设定概率阈值来判断模型的输出的置信度,这种方法较为简单而直接,但在实际操作中的问题在于:由于阈值的存在,无标签数据可能会在模型训练中期甚至后期才会加入,而此时那些早已参与训练的少量带标签数据可能已经过拟合,用过拟合的模型去预测数据的标签,这种预测势必包含错误判断,且这种错误并非均匀分散的随机噪声,而是模型“死读书”之后产出的系统性噪声。故如何处理带标签和无标签数据的协同训练,如何处理模型预测中的噪声也是个问题。
技术实现思路
本专利技术提供一种基于BERT-base(BERT是一种基于Transformer架构的双向编码器)的带噪半监督文本分类方法,它对无标签样本通过回译方法产生新样本,然后通过模型预测将置信度较高的预测结果作为该新样本的预测标签;训练过程中,采用插值方法将带标签样本和无标签样本协同训练,并用梯度上升方法对无标签样本在模型中第3隐层的输出向量添加扰动,最后用改进的损失函数提高模型对于其预测标签中噪声的鲁棒性。为实现上述目的,本专利技术采用的技术方案步骤如下:S1、数据初始化阶段。将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签。具体步骤如下:S11、将无标签样本通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本得到样本其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量。S12、将样本输入分类模型得到输出向量若即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予一个one-hot预测标签标签同时对应样本和样本θ表示模型参数。S13、若样本被赋予了one-hot标签,则也将无标签样本输入模型得到输出向量将带标签样本输入模型得到输出向量S2、数据增强阶段。采用FGM(FastGradientMethod)方法添加扰动并作插值处理,具体步骤如下:S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中即向量的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数。设无标签样本的第3层隐藏层的输出为则扰动后结果为S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作。设和分别为样本有标签样本和无标签样本在分类模型隐藏层中第k层的输出(k∈{7,9,12}),对应的真实标签和预测标签分别为和则插值操作的步骤如下:S221、利用Beta分布产生一个0~1之间的随机数λ。S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ1+λ2=1。S223、计算S224、将输入第k+1层隐藏层,并经后面若干隐藏层的计算得到插值模型输出。将S2步骤整个过程记为f'(·),则插值模型输出记为two-hot形式的插值标签记为S3、损失函数的构造阶段。损失函数loss=ls+lsce,第一项为带标签样本的模型输出与其真实标签求交叉熵,第二项为插值标签与插值模型输出的对称交叉熵。具体如下:S31、lsce=μ1lce+μ2lrce。对称交叉熵包括两部分,lce为交叉熵,lrce反交叉熵。μ1和μ2是二者的超参数权重。具体公式为:交叉熵:反交叉熵:其中i∈{1,2,…,Nl},j∈{1,2,…,Nu},因为为two-hot标签向量,标签向量中势必存在0元素,故反交叉熵的计算中存在log0,定义超参数A=log0,A<0,I{·}表示大括号内条件成立则返回1否则返回0。S32、ls为针对带标签样本的交叉熵。S33、计算最终损失函数loss:loss=ls+lsce=ls+μ1lce+μ2lrce。S4、模型参数更新阶段。S41更新模型参数θ,即θ←θ-η▽θloss,η为学习率。S42、在下一批次样本中重复步骤S1-步骤S4,每经过一批次样本的训练后验证模型预测正确率,若更新了当前最高正确率则保存该模型参数。若模型经过10批次训练后预测正确率仍未提高,则结束训练过程。S5、用训练好的模型做文本的分类应用。与现有方法相比,本专利技术有以下优点:本专利技术基于如今较为流行的BERT-base模型实现了一种针对文本分类的半监督的带噪学习方法。(1)相比传统半监督学习方法,本专利技术更为细致地考虑到模型预测标签中的噪声问题,并引入图像带噪学习领域的对称交叉熵,降低了模型误判的影响。(2)再将其和插值方法融合,形成了全新的two-hot模式下的对称交叉熵,提升了模型泛化性能的同时将带标签和无标签样本协同训练,尽量减少了训练过程中在部分数据的过拟合现象。(3)在插值操作中,相比传统做法中将所有样本随机打乱后插值的粗犷做法,本专利技术较为细致地始终保持无标签样本和带标签样本间的交叉,本文档来自技高网
...

【技术保护点】
1.一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于包括如下步骤:/nS1、数据初始化阶段:将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签;/nS2、数据增强阶段:采用FGM方法添加扰动并作插值处理,在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理;/nS3、损失函数的构造阶段;损失函数loss=l

【技术特征摘要】
1.一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于包括如下步骤:
S1、数据初始化阶段:将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签;
S2、数据增强阶段:采用FGM方法添加扰动并作插值处理,在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理;
S3、损失函数的构造阶段;损失函数loss=ls+lsce,第一项为对带标签样本的模型输出和其真实标签求交叉熵,第二项为插值标签与插值模型输出的对称交叉熵;
S4、模型参数更新阶段:
S5、模型应用阶段:使用训练好的模型,将测试文本输入模型,模型输出向量中最大概率处对应的类别即为预测所属的分类。


2.根据权利要求1所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S1具体实现如下:
S11、将无标签样本通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本得到样本其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量;
S12、将样本输入分类模型得到输出向量若即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予一个one-hot预测标签标签同时对应样本和样本θ表示模型参数;
S13、若样本被赋予了one-hot标签,则也将无标签样本输入模型得到输出向量将带标签样本输入模型得到输出向量


3.根据权利要求2所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S2具体实现如下:
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中即向量的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数;设无标签样本的第3层隐藏层的输出为则扰动后结果为
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作;设和分别为样本有标签样本和无标签样本在分类模型隐藏层中第k层的输出,k∈{7,9,12};对应的真实标签和预测标签分别为和


4.根据权利要求3所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于所述的插值操作步骤如下:
S221、利用Beta分布产生一个0~1之间的随机数λ;
S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ1+λ2=1;
S223、计算
S224、将输入第k+1层隐...

【专利技术属性】
技术研发人员:任子扬姚英彪徐欣李沛刘兆霆冯维
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1