文本分类模型的训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号:35405311 阅读:20 留言:0更新日期:2022-11-03 10:58
本发明专利技术公开了一种文本分类模型的训练方法、装置、设备及可读存储介质。其中,该方法包括:获取第一分类模型和第二分类模型,其中,第一分类模型和第二分类模型通过协同训练得到;获取无标记样本经过第一分类模型打标签的第一标记样本;将第一标记样本补入第二分类模型的训练集中,基于补入第一标记样本的训练集对第二分类模型进行训练,得到更新的第二分类模型;采用评估集对更新后的第二分类模型进行测试,确定更新后的第二分类模型的第一分类准确率;基于第一分类准确率对第一分类模型和更新后的第二分类模型再次进行协同训练。通过实施本发明专利技术,避免未标记样本上的错误标签影响文本分类模型的训练准确率,保证了文本分类模型的分类准确率。分类准确率。分类准确率。

【技术实现步骤摘要】
文本分类模型的训练方法、装置、设备及可读存储介质


[0001]本专利技术涉及文本分类术领域,具体涉及一种文本分类模型的训练方法、装置、设备及可读存储介质。

技术介绍

[0002]文本分类是自然语言处理领域的一项基础技能,其广泛应用于知识图谱和人机对话等相关技术中。现有技术中存在有各式各样的文本分类方法及其对应的文本分类模型,例如,直接分类的文本分类方法;基于文本相似度的文本分类方法;基于文本间距离的文本分类方法。但是基于上述文本分类方法训练得到的文本分类模型,其文本分类的准确率是一定的,若想优化文本分类的准确性,则需要采集额外的包含分类标记的样本添加到训练集中,以对文本分类模型进行优化训练。
[0003]向训练集中补入额外的包含有分类标记样本的方式通常有人工打标签和自动打标签两种,由于人工对未标记样本打标签的方法比较费时,多数技术人员采用半监督协同训练方法对未标记样本自动打标签。通过半监督协同训练方法对未标记样本打标签时通常采用置信度概念,即取置信度比较高的未标记样本打上标签,并将其补入到训练集中对文本分类模型进行优化训练。然而上述方法难以确定未标记样本上所打的标签是否准确,若在未标记的样本打上错误标签,则严重影响文本分类模型的准确率。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种文本分类模型的训练方法、装置、设备及可读存储介质,以解决难以确定未标记样本上所打的标签是否准确从而影响文本分类模型的准确率的问题。
[0005]根据第一方面,本专利技术实施例提供了一种文本分类模型的训练方法,包括如下步骤:获取第一分类模型和第二分类模型,其中,所述第一分类模型和所述第二分类模型通过协同训练得到;获取无标记样本经过所述第一分类模型打标签的第一标记样本;将所述第一标记样本补入所述第二分类模型的训练集中,基于补入所述第一标记样本的训练集对所述第二分类模型进行训练,得到更新的第二分类模型;采用评估集对更新后的所述第二分类模型进行测试,确定更新后的所述第二分类模型的第一分类准确率;基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练。
[0006]本专利技术实施例提供的文本分类模型的训练方法,通过将第一分类模型打标签的第一标记样本补入第二分类模型的训练集中,采用添加过第一标记样本的训练集对第二分类模型进行训练,得到更新的第二分类模型。使用评估集对更新后的第二分类模型进行测试,确定更新后的第二分类模型的第一分类准确率,以第一分类准确率表征第一分类模型所打标签是否正确,基于第一分类准确率对第一分类模型和更新后的第二分类模型再次进行协同训练,由此在协同训练第一分类模型和第二分类模型的过程中考虑未标记样本所打标签的准确性,避免未标记样本上的错误标签影响文本分类模型的训练准确率,保证了文本分
类模型的分类准确率。
[0007]结合第一方面,在第一方面的第一实施方式中,所述基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练,包括:获取更新前的所述第二分类模型在所述评估集上测试的第一准确率;判断所述第一分类准确率是否小于所述第一准确率;当所述第一分类准确率大于等于所述第一准确率时,判定所述第一标记样本的标签准确;从无标记样本中除去所述第一标记样本,基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练。
[0008]本专利技术实施例提供的文本分类模型的训练方法,通过比对更新前的第二分类模型在评估集上的第一准确率与更新后的第二分类模型在评估集上的第一分类准确率的大小关系,判定第一标记样本上所打的标签是否准确。当第一标记样本准确时,从无标记样本中除去第一标记样本,使用剩余的无标记样本对第一分类模型和更新后的第二分类模型再次进行协同训练,由此保证第一分类模型和第二分类模型的训练准确率,保证文本分类的准确性。
[0009]结合第一方面第一实施方式,在第一方面的第二实施方式中,所述基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练,包括:采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类,得到经过更新后的所述第二分类模型打标签的第二标记样本;将所述第二标记样本补入所述第一分类模型的训练集中,基于补入所述第二标记样本的训练集对所述第一分类模型进行训练,得到更新的第一分类模型;采用所述评估集对更新后的所述第一分类模型进行测试,确定更新后的所述第一分类模型的第二分类准确率;基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练。
[0010]结合第一方面第二实施方式,在第一方面的第三实施方式中,所述基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练,包括:获取更新前的所述第一分类模型在所述评估集上测试的第二准确率;判断所述第二分类准确率是否小于所述第二准确率;当所述第二分类准确率大于等于所述第二准确率时,判定所述第二标记样本的标签准确;从所述剩余的无标记样本中除去所述第二标记样本,基于其他的无标记样本对更新后的所述第二分类模型和更新后的所述第二分类模型进行协同训练。
[0011]本专利技术实施例提供的文本分类模型的训练方法,通过采用更新后的第二分类模型对剩余的无标记文本进行标记,并将打上第二分类模型标签的第二标记样本补入第一分类模型中的训练集中以更新第一分类模型,比对更新前的第一分类模型在评估集上的第二准确率与更新后的第一分类模型在评估集上的第二分类准确率的大小关系,判定第二标记样本上所打的标签是否准确。当第二标记样本准确时,再从剩余的无标记样本中除去第二标记样本,使用其他的无标记样本对更新后的第一分类模型和更新后的第二分类模型再次进行协同训练,以保证第一分类模型和第二分类模型的训练准确率,由此保证了文本分类的准确性。
[0012]结合第一方面第二实施方式或第一方面第三实施方式,在第一方面的第四实施方式中,所述采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类,得到经过更新后的所述第二分类模型打标签的第二标记样本,包括:判断所述剩余的无标记样本的
数量是否为零;当所述剩余的无标记样本的数量不为零时,采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类,得到第二分类置信度;判断所述第二分类置信度是否大于第二预设阈值;当所述第二分类置信度大于所述第二预设阈值时,在所述第二分类置信度大于所述第二预设阈值的无标记样本上打上更新后的所述第二分类模型的标签,得到第二标记样本。
[0013]本专利技术实施例提供的文本分类模型的训练方法,通过更新后的第二分类模型对剩余的无标记样本进行分类,以获取各个无标记样本的置信度,并在置信度大于预设阈值的样本上打标签,以尽可能保证第二标记样本的准确率最大化。
[0014]结合第一方面第一实施方式,在第一方面的第五实施方式中,所述基于所述第一准确率对所述第一分类模型和更新后的所述第二分类模型再次进行所述协同训练,还包括:当所述第一分类准确率小于所述分类准确率时,判定所述第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法,其特征在于,包括如下步骤:获取第一分类模型和第二分类模型,其中,所述第一分类模型和所述第二分类模型通过协同训练得到;获取无标记样本经过所述第一分类模型打标签的第一标记样本;将所述第一标记样本补入所述第二分类模型的训练集中,基于补入所述第一标记样本的训练集对所述第二分类模型进行训练,得到更新的第二分类模型;采用评估集对更新后的所述第二分类模型进行测试,确定更新后的所述第二分类模型的第一分类准确率;基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练,包括:获取更新前的所述第二分类模型在所述评估集上测试的第一准确率;判断所述第一分类准确率是否小于所述第一准确率;当所述第一分类准确率大于等于所述第一准确率时,判定所述第一标记样本的标签准确;从无标记样本中除去所述第一标记样本,基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练。3.根据权利要求2所述的方法,其特征在于,所述基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练,包括:采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类,得到经过更新后的所述第二分类模型打标签的第二标记样本;将所述第二标记样本补入所述第一分类模型的训练集中,基于补入所述第二标记样本的训练集对所述第一分类模型进行训练,得到更新的第一分类模型;采用所述评估集对更新后的所述第一分类模型进行测试,确定更新后的所述第一分类模型的第二分类准确率;基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练,包括:获取更新前的所述第一分类模型在所述评估集上测试的第二准确率;判断所述第二分类准确率是否小于所述第二准确率;当所述第二分类准确率大于等于所述第二准确率时,判定所述第二标记样本的标签准确;从所述剩余的无标记样本中除去所述第二标记样本,基于其他的无标记样本对更新后的所述第二分类模型和更新后的所述第二分类模型进行协同训练。5.根据权利要求3或4所述的方法,其特征在于,所述采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类,得...

【专利技术属性】
技术研发人员:付红雷
申请(专利权)人:广联达科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1