利用无标签文本数据样本提升分类模型表现的方法和装置制造方法及图纸

技术编号：31487938 阅读：19 留言：0更新日期：2021-12-18 12:23

本申请提出了一种利用无标签文本数据样本提升分类模型表现的方法，该方法包括：获取有标签样本集合、无标签样本集合、分类任务的分类类型集合、验证集和监督学习模型；对监督学习模型进行参数初始化，确定第一扰动概率和第二扰动概率；使用有标签样本集合、无标签样本集合对监督学习模型进行重复训练，并在每一次训练后对监督学习模型在验证集上评估表现，若评价指标表现更好时，记录当时的模型参数，当重复训练达到预设条件时，训练停止，输出最终训练完成的模型。采用上述方案的本申请能够通过文本字符和模型随机化结构来添加随机扰动，使得无标签样本同时参与训练，提升了分类模型的表现。模型的表现。模型的表现。

全部详细技术资料下载

【技术实现步骤摘要】
利用无标签文本数据样本提升分类模型表现的方法和装置

[0001]本申请涉及分类模型
，尤其涉及一种利用无标签文本数据样本提升分类模型表现的方法和装置。

技术介绍

[0002]分类模型是神经网络模型的两大重要类别之一，另一个类别是回归模型。分类模型的任务是分析输入的数据，从多个候选目标中判断输入样本的类型；与之相对的是回归模型，需要神经网络拟合得到目标数值。在一些实际项目中使用时分类模型比回归模型更常用，因为分类模型比较容易评估结果和应用。文本数据是特定领域(如数据挖掘、自然语言处理等领域)的分类模型常用的输入数据类型，如垃圾邮件分类、文本情感分析、实体分类等分类任务。分类模型在使用时离不开一定数量的有标签样本所提供的监督信息，让模型知道每个候选分类目标对应的样本分布，然而应用时有标签样本在获取成本上远高于无标签样本。学术数据集比较干净，分类任务的数据集统一由有标签样本构成，或专门设计无标签样本用于探索无监督学习的方法；而业务的数据有更多的噪音，有充足的无标签数据，但有标签数据很少，人工标注的代价很大，现有的方法忽略无标签样本是对资源的浪费。
[0003]现有的模型设计的方法用于解决分类任务时，往往理想化了数据集的内容构成，学术上常规的思路是只使用有标签的样本做监督学习，虽然监督学习的分类模型容易设计，但其需要充足的有标签样本进行训练；为了使用无标签样本，模型设计时需要分析应用的场景，仔细设计半监督/无监督学习的模型，在方法上和监督学习的模型有较大的差异，也可能需要非常多的无标签样本。随着预训练技术的发展...

【技术保护点】

【技术特征摘要】
1.一种利用无标签文本数据样本提升分类模型表现的方法，其特征在于，包括以下步骤：获取有标签样本集合、无标签样本集合、分类任务的分类类型集合、验证集和监督学习模型，其中，所述分类任务的分类类型集合包含样本所有可能的类型，分类模型需要使用所述分类任务的分类类型集合来预测输入样本的类型，所述监督学习模型通过使用有标签样本进行训练生成；对所述监督学习模型进行参数初始化，确定第一扰动概率和第二扰动概率，其中，所述第一扰动概率为随机将输入文本字符置为0号字符的概率，所述0号字符表示对应固定不变的全0变量，所述第二扰动概率代表模型中的随机化层的概率；使用所述有标签样本集合、无标签样本集合对所述监督学习模型进行重复训练，并在每一次训练后对所述监督学习模型在所述验证集上评估表现，若评价指标表现更好时，记录当时的模型参数，当所述重复训练达到预设条件时，训练停止，输出最终训练完成的模型。2.如权利要求1所述的利用无标签文本数据样本提升分类模型表现的方法，其特征在于，对所述监督学习模型进行训练，包括以下步骤：随机从所述有标签样本集合、所述无标签样本集合中分别采样一批数据作为训练数据；使用所述训练数据计算得到损失函数，并反向传播更新参数梯度。3.如权利要求2所述的利用无标签文本数据样本提升分类模型表现的方法，其特征在于，所述损失函数表示为：L
merge
＝L
labeled
+λL
unlabeled
其中，L
labeled
表示有标签样本集合的损失函数，L
unlabeled
表示无标签样本集合的损失函数，使用参数λ来控制无标签样本部分的损失函数权重。4.如权利要求3所述的利用无标签文本数据样本提升分类模型表现的方法，其特征在于，所述有标签样本集合的损失函数和监督学习时的损失函数相同，所述无标签样本集合的损失函数为第一概率分布和第二概率分布的距离。5.如权利要求4所述的利用无标签文本数据样本提升分类模型表现的方法，其特征在于，所述第一概率分布为固定所述训练数据中的无标签样本未添加扰动时模型给出的概率分布，所述第二概率分布为所述训练数据中的无标签样本添加扰动后模型给出的概率分布。6.如权利要求3所述的利用无标签文本数据样本提升分类模型表现的方法，其特征在于，若所述分类任务为多标签分类，所述有标签样本集合的损失函数为二元交叉熵，所述无标签样本集合的损失函数表示为：其中，B2为所述训练数据中的无标签样本，I()表示指示函数，返回括号中向量每个位置的条件是否为真，p
s,c
代表预测向量的每个位置对应的分类c都要进行判断，β是一个常数阈值，用于判断模型给出的预测结果是否可靠，模型通过β来舍弃不可靠的无标签样本，
⊙
为向量点积，计算了两个概率分布的距离，p
s,ε
是样本s在添加扰动后得到的预测概率，p'
s

【专利技术属性】
技术研发人员：唐杰，罗干，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人