当前位置: 首页 > 专利查询>清华大学专利>正文

利用无标签文本数据样本提升分类模型表现的方法和装置制造方法及图纸

技术编号:31487938 阅读:19 留言:0更新日期:2021-12-18 12:23
本申请提出了一种利用无标签文本数据样本提升分类模型表现的方法,该方法包括:获取有标签样本集合、无标签样本集合、分类任务的分类类型集合、验证集和监督学习模型;对监督学习模型进行参数初始化,确定第一扰动概率和第二扰动概率;使用有标签样本集合、无标签样本集合对监督学习模型进行重复训练,并在每一次训练后对监督学习模型在验证集上评估表现,若评价指标表现更好时,记录当时的模型参数,当重复训练达到预设条件时,训练停止,输出最终训练完成的模型。采用上述方案的本申请能够通过文本字符和模型随机化结构来添加随机扰动,使得无标签样本同时参与训练,提升了分类模型的表现。模型的表现。模型的表现。

【技术实现步骤摘要】
利用无标签文本数据样本提升分类模型表现的方法和装置


[0001]本申请涉及分类模型
,尤其涉及一种利用无标签文本数据样本提升分类模型表现的方法和装置。

技术介绍

[0002]分类模型是神经网络模型的两大重要类别之一,另一个类别是回归模型。分类模型的任务是分析输入的数据,从多个候选目标中判断输入样本的类型;与之相对的是回归模型,需要神经网络拟合得到目标数值。在一些实际项目中使用时分类模型比回归模型更常用,因为分类模型比较容易评估结果和应用。文本数据是特定领域(如数据挖掘、自然语言处理等领域)的分类模型常用的输入数据类型,如垃圾邮件分类、文本情感分析、实体分类等分类任务。分类模型在使用时离不开一定数量的有标签样本所提供的监督信息,让模型知道每个候选分类目标对应的样本分布,然而应用时有标签样本在获取成本上远高于无标签样本。学术数据集比较干净,分类任务的数据集统一由有标签样本构成,或专门设计无标签样本用于探索无监督学习的方法;而业务的数据有更多的噪音,有充足的无标签数据,但有标签数据很少,人工标注的代价很大,现有的方法忽略无标签样本是对资源的浪费。
[0003]现有的模型设计的方法用于解决分类任务时,往往理想化了数据集的内容构成,学术上常规的思路是只使用有标签的样本做监督学习,虽然监督学习的分类模型容易设计,但其需要充足的有标签样本进行训练;为了使用无标签样本,模型设计时需要分析应用的场景,仔细设计半监督/无监督学习的模型,在方法上和监督学习的模型有较大的差异,也可能需要非常多的无标签样本。随着预训练技术的发展,在文本和图像等领域均有大规模的神经网络模型学习获取海量数据中隐藏的特征,如文本领域的BERT模型,它们可以通过特征提取或微调的方法作为分类模型的一部分完成分类任务。
[0004]实体分类任务中,每个实体样本有实体名称和实体的上下文描述,需要判断实体的类型。如Shimaoka的文章所提出的实体分类模型是一个经典的监督学习的分类模型,其通过注意力机制和池化的操作将文本数据编码得到最终的向量表示,然后经过全连接层给出分类的预测结果。类似的许多监督学习的方法在设计时的思维难度较低,容易根据场景需求给出可用的分类模型,但如果数据集缺少足够的有标签数据,理论上就不能达到理想的训练效果。Ling的文章提出的是一个无监督(自监督)的方法,其通过对比学习的思想让模型通过区分不同实体来学习实体的向量表示,然后应用于下游的实体分类等任务。全新的无监督的方法在学术论文发表时会赞扬其设计的巧妙,但实际应用可能没有足量的无标签数据满足训练需求。Mishra的文章给出的是一个半监督的方法用于命名实体识别,因为命名实体是连续的一段文本字符,可以用CRF技术来约束模型的分类输出。可见传统的半监督学习的方法需要结合分类任务本身的特性,更难普遍应用。

技术实现思路

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本申请的第一个目的在于提出一种利用无标签文本数据样本提升分类模型表现的方法,解决了现有方法需要充足有标签样本进行训练,忽略无标签样本的技术问题,同时解决了现有方法为使用无标签样本设计的半监督/无监督学习模型可能没有足量的无标签数据满足训练需求的问题,利用了样本分类保持一致的性质,添加合理扰动的输入不改变样本分类的结果,改进原有的监督学习模型,使得无标签样本同时参与训练,提升模型的鲁棒性,以小概率随机将样本的文本数据中的字符置为0号字符基本不影响文本意思的表达,有效利用了无标签样本,通过文本字符和模型随机化结构来添加随机扰动,提升了分类模型的表现,同时本申请不需要足够多数量的有标签样本或无标签样本,也不局限于特定模型结构和分类任务。
[0007]本申请的第二个目的在于提出一种利用无标签文本数据样本提升分类模型表现的装置。
[0008]为达上述目的,本申请第一方面实施例提出了一种利用无标签文本数据样本提升分类模型表现的方法,包括:获取有标签样本集合、无标签样本集合、分类任务的分类类型集合、验证集和监督学习模型,其中,分类任务的分类类型集合包含样本所有可能的类型,分类模型需要使用分类任务的分类类型集合来预测输入样本的类型,监督学习模型通过使用有标签样本进行训练生成;对监督学习模型进行参数初始化,确定第一扰动概率和第二扰动概率,其中,第一扰动概率为随机将输入文本字符置为0号字符的概率,0号字符表示对应固定不变的全0变量,第二扰动概率代表模型中的随机化层的概率;使用有标签样本集合、无标签样本集合对监督学习模型进行重复训练,并在每一次训练后对监督学习模型在验证集上评估表现,若评价指标表现更好时,记录当时的模型参数,当重复训练达到预设条件时,训练停止,输出最终训练完成的模型。
[0009]可选地,在本申请的一个实施例中,对监督学习模型进行训练,包括以下步骤:
[0010]随机从有标签样本集合、无标签样本集合中分别采样一批数据作为训练数据;
[0011]使用训练数据计算得到损失函数,并反向传播更新参数梯度。
[0012]可选地,在本申请的一个实施例中,损失函数表示为:
[0013]L
merge
=L
labeled
+λL
unlabeled
[0014]其中,L
labeled
表示有标签样本集合的损失函数,L
unlabeled
表示无标签样本集合的损失函数,使用参数λ来控制无标签样本部分的损失函数权重。
[0015]可选地,在本申请的一个实施例中,有标签样本集合的损失函数和监督学习时的损失函数相同,无标签样本集合的损失函数为第一概率分布和第二概率分布的距离。
[0016]可选地,在本申请的一个实施例中,第一概率分布为固定训练数据中的无标签样本未添加扰动时模型给出的概率分布,第二概率分布为训练数据中的无标签样本添加扰动后模型给出的概率分布。
[0017]可选地,在本申请的一个实施例中,若分类任务为多标签分类,有标签样本集合的损失函数为二元交叉熵,无标签样本集合的损失函数表示为:
[0018][0019]其中,B2为训练数据中的无标签样本,I()表示指示函数,返回括号中向量每个位
置的条件是否为真,p
s,c
代表预测向量的每个位置对应的分类c都要进行判断,β是一个常数阈值,用于判断模型给出的预测结果是否可靠,模型通过β来舍弃不可靠的无标签样本,

为向量点积,计算了两个概率分布的距离,p
s,ε
是样本s在添加扰动后得到的预测概率,p'
s
为样本s在极化预测后的目标预测概率,
[0020]多标签分类模型在输出预测结果时,会先计算出原始的预测结果,再经过sigmoid函数将预测结果映射到0到1之间,计算得到样本具有特定类型的概率,极化作用于模型计算目标预测概率的sigmoid函数,sigmoid函数的计算公式为:
[0021][0022]其中,x表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用无标签文本数据样本提升分类模型表现的方法,其特征在于,包括以下步骤:获取有标签样本集合、无标签样本集合、分类任务的分类类型集合、验证集和监督学习模型,其中,所述分类任务的分类类型集合包含样本所有可能的类型,分类模型需要使用所述分类任务的分类类型集合来预测输入样本的类型,所述监督学习模型通过使用有标签样本进行训练生成;对所述监督学习模型进行参数初始化,确定第一扰动概率和第二扰动概率,其中,所述第一扰动概率为随机将输入文本字符置为0号字符的概率,所述0号字符表示对应固定不变的全0变量,所述第二扰动概率代表模型中的随机化层的概率;使用所述有标签样本集合、无标签样本集合对所述监督学习模型进行重复训练,并在每一次训练后对所述监督学习模型在所述验证集上评估表现,若评价指标表现更好时,记录当时的模型参数,当所述重复训练达到预设条件时,训练停止,输出最终训练完成的模型。2.如权利要求1所述的利用无标签文本数据样本提升分类模型表现的方法,其特征在于,对所述监督学习模型进行训练,包括以下步骤:随机从所述有标签样本集合、所述无标签样本集合中分别采样一批数据作为训练数据;使用所述训练数据计算得到损失函数,并反向传播更新参数梯度。3.如权利要求2所述的利用无标签文本数据样本提升分类模型表现的方法,其特征在于,所述损失函数表示为:L
merge
=L
labeled
+λL
unlabeled
其中,L
labeled
表示有标签样本集合的损失函数,L
unlabeled
表示无标签样本集合的损失函数,使用参数λ来控制无标签样本部分的损失函数权重。4.如权利要求3所述的利用无标签文本数据样本提升分类模型表现的方法,其特征在于,所述有标签样本集合的损失函数和监督学习时的损失函数相同,所述无标签样本集合的损失函数为第一概率分布和第二概率分布的距离。5.如权利要求4所述的利用无标签文本数据样本提升分类模型表现的方法,其特征在于,所述第一概率分布为固定所述训练数据中的无标签样本未添加扰动时模型给出的概率分布,所述第二概率分布为所述训练数据中的无标签样本添加扰动后模型给出的概率分布。6.如权利要求3所述的利用无标签文本数据样本提升分类模型表现的方法,其特征在于,若所述分类任务为多标签分类,所述有标签样本集合的损失函数为二元交叉熵,所述无标签样本集合的损失函数表示为:其中,B2为所述训练数据中的无标签样本,I()表示指示函数,返回括号中向量每个位置的条件是否为真,p
s,c
代表预测向量的每个位置对应的分类c都要进行判断,β是一个常数阈值,用于判断模型给出的预测结果是否可靠,模型通过β来舍弃不可靠的无标签样本,

为向量点积,计算了两个概率分布的距离,p
s,ε
是样本s在添加扰动后得到的预测概率,p'
s

【专利技术属性】
技术研发人员:唐杰罗干
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1