【技术实现步骤摘要】
文本分类模型的训练方法、装置、设备及存储介质
本申请属于人工智能
,尤其涉及一种文本分类模型的训练方法、装置、设备及存储介质。
技术介绍
文本分类作为自然语言处理的一项重要任务,正在得到越来越广泛的研究和应用。现实场景中基于文本分类模型进行文本分类,通常会遇到数据量多标注少(低资源)问题,面对一个标注数据稀缺的低资源应用场景,半监督训练方法可以利用非常少量的标注语料以及大量无标注数据得到一个高性能的文本分类模型。目前,半监督训练方法通常采用虚拟对抗训练(VirtualAdversarialTraining,VAT)来进行,虚拟对抗训练VAT通过在待标注数据中引入噪音向量(局部扰动)以泛化模型。但是由于噪音向量的可解释性差,VAT不能很好的指出待标注数据的类型,并不能帮助我们在数据量少的情况下对未来标注数据的类型提供指引,且当标注数据量小时模型对噪音更加敏感,因此造成了文本分类模型的分类效果不佳。
技术实现思路
有鉴于此,本申请实施例提供了一种文本分类模型的训练方法、装置、设备及存储介质,以解 ...
【技术保护点】
1.一种文本分类模型的训练方法,其特征在于,方法包括:/n获取训练样本集,所述训练样本集包括N个有标训练样本和M个无标训练样本,每个所述有标训练样本包括文本信息以及文本信息的类别标签,每个所述无标训练样本包括文本信息;其中,M和N均为大于1的整数;/n根据所述训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练,得到目标文本分类模型;其中,在第i次交替迭代训练过程中,所述M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对所述M个无标训练样本进行文本增强处理生成,i为大于1的整数。/n
【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,方法包括:
获取训练样本集,所述训练样本集包括N个有标训练样本和M个无标训练样本,每个所述有标训练样本包括文本信息以及文本信息的类别标签,每个所述无标训练样本包括文本信息;其中,M和N均为大于1的整数;
根据所述训练样本集以及M个增强训练样本对初始文本分类模型和初始文本增强模型进行交替迭代训练,得到目标文本分类模型;其中,在第i次交替迭代训练过程中,所述M个增强训练样本根据第i-1次交替迭代得到的文本增强模型对所述M个无标训练样本进行文本增强处理生成,i为大于1的整数。
2.如权利要求1所述的文本分类模型的训练方法,其特征在于,所述交替迭代训练的次数为多次,且每次交替迭代训练过程包括k次子迭代过程;
所述根据所述训练样本集以及M个增强训练样本,对初始文本分类模型和初始文本增强模型进行交替迭代训练,得到目标文本分类模型,包括:
对于每次交替迭代训练中的第j次子迭代过程,按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本;其中,1<j≤k;
根据第j-1次子迭代得到的文本增强模型对抽取的无标训练样本进行处理,获得与所述无标训练样本对应的增强训练样本;
将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入,对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练,得到第j次子迭代得到的文本分类模型和第j次子迭代得到的文本增强模型;
返回执行所述按照预设比例从所述训练样本集中抽取有标训练样本以及无标训练样本的步骤,直至所述训练样本集中N个有标训练样本和M个无标训练样本均迭代一次后,获得当前交替迭代训练后的文本分类模型。
3.如权利要求2所述的文本分类模型的训练方法,其特征在于,所述将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入,对第j-1次子迭代得到的文本分类模型和第j-1次子迭代得到的文本增强模型进行训练,得到第j次子迭代的文本分类模型和第j次子迭代的文本增强模型,包括:
将所述增强训练样本、抽取的有标训练样本以及所述无标训练样本作为输入,基于第j-1次子迭代得到的文本分类模型确定第一损失函数值;
保持第j-1次子迭代得到的文本增强模型的参数不变,根据所述第一损失函数值,更新第j-1次子迭代得到的文本分类模型的参数,获得第j次子迭代得到的文本分类模型;
保持第j次子迭代得到的文本分类模型的参数不变,根据所述第一损失函数值更新第j-1次子迭代得到的文本增强模型的参数,获得第j次子迭代得到的文本增强模型。
4.如权利要求3所述的文本分类模型的训练方法,其特征在于,所述基于第j-1次子迭代得到的文本分类模型确定第一损失函数值,包括:
将所述有标训练样本中的文本信息作为特征,将与所述文本信息对应的类别标签作为标签,基于第j-1次子迭代得到的文本...
【专利技术属性】
技术研发人员:刘广,黄海龙,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。