文本分类模型的训练方法、装置、设备及可读存储介质制造方法及图纸

技术编号：35405311 阅读：20 留言：0更新日期：2022-11-03 10:58

本发明专利技术公开了一种文本分类模型的训练方法、装置、设备及可读存储介质。其中，该方法包括：获取第一分类模型和第二分类模型，其中，第一分类模型和第二分类模型通过协同训练得到；获取无标记样本经过第一分类模型打标签的第一标记样本；将第一标记样本补入第二分类模型的训练集中，基于补入第一标记样本的训练集对第二分类模型进行训练，得到更新的第二分类模型；采用评估集对更新后的第二分类模型进行测试，确定更新后的第二分类模型的第一分类准确率；基于第一分类准确率对第一分类模型和更新后的第二分类模型再次进行协同训练。通过实施本发明专利技术，避免未标记样本上的错误标签影响文本分类模型的训练准确率，保证了文本分类模型的分类准确率。分类准确率。分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类模型的训练方法、装置、设备及可读存储介质

[0001]本专利技术涉及文本分类术领域，具体涉及一种文本分类模型的训练方法、装置、设备及可读存储介质。

技术介绍

[0002]文本分类是自然语言处理领域的一项基础技能，其广泛应用于知识图谱和人机对话等相关技术中。现有技术中存在有各式各样的文本分类方法及其对应的文本分类模型，例如，直接分类的文本分类方法；基于文本相似度的文本分类方法；基于文本间距离的文本分类方法。但是基于上述文本分类方法训练得到的文本分类模型，其文本分类的准确率是一定的，若想优化文本分类的准确性，则需要采集额外的包含分类标记的样本添加到训练集中，以对文本分类模型进行优化训练。
[0003]向训练集中补入额外的包含有分类标记样本的方式通常有人工打标签和自动打标签两种，由于人工对未标记样本打标签的方法比较费时，多数技术人员采用半监督协同训练方法对未标记样本自动打标签。通过半监督协同训练方法对未标记样本打标签时通常采用置信度概念，即取置信度比较高的未标记样本打上标签，并将其补入到训练集中对文本分类模型进行优化训练。然而上述方法难以确定未标记样本上所打的标签是否准确，若在未标记的样本打上错误标签，则严重影响文本分类模型的准确率。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供了一种文本分类模型的训练方法、装置、设备及可读存储介质，以解决难以确定未标记样本上所打的标签是否准确从而影响文本分类模型的准确率的问题。
[0005]根据第一方面，本专利技术实施例提供了一种文本分...

【技术保护点】

【技术特征摘要】
1.一种文本分类模型的训练方法，其特征在于，包括如下步骤：获取第一分类模型和第二分类模型，其中，所述第一分类模型和所述第二分类模型通过协同训练得到；获取无标记样本经过所述第一分类模型打标签的第一标记样本；将所述第一标记样本补入所述第二分类模型的训练集中，基于补入所述第一标记样本的训练集对所述第二分类模型进行训练，得到更新的第二分类模型；采用评估集对更新后的所述第二分类模型进行测试，确定更新后的所述第二分类模型的第一分类准确率；基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练。2.根据权利要求1所述的方法，其特征在于，所述基于所述第一分类准确率对所述第一分类模型和更新后的所述第二分类模型再次进行协同训练，包括：获取更新前的所述第二分类模型在所述评估集上测试的第一准确率；判断所述第一分类准确率是否小于所述第一准确率；当所述第一分类准确率大于等于所述第一准确率时，判定所述第一标记样本的标签准确；从无标记样本中除去所述第一标记样本，基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练。3.根据权利要求2所述的方法，其特征在于，所述基于剩余的无标记样本对所述第一分类模型和更新后的所述第二分类模型进行协同训练，包括：采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类，得到经过更新后的所述第二分类模型打标签的第二标记样本；将所述第二标记样本补入所述第一分类模型的训练集中，基于补入所述第二标记样本的训练集对所述第一分类模型进行训练，得到更新的第一分类模型；采用所述评估集对更新后的所述第一分类模型进行测试，确定更新后的所述第一分类模型的第二分类准确率；基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练。4.根据权利要求3所述的方法，其特征在于，所述基于所述第二分类准确率对更新后的所述第一分类模型和更新后的所述第二分类模型进行协同训练，包括：获取更新前的所述第一分类模型在所述评估集上测试的第二准确率；判断所述第二分类准确率是否小于所述第二准确率；当所述第二分类准确率大于等于所述第二准确率时，判定所述第二标记样本的标签准确；从所述剩余的无标记样本中除去所述第二标记样本，基于其他的无标记样本对更新后的所述第二分类模型和更新后的所述第二分类模型进行协同训练。5.根据权利要求3或4所述的方法，其特征在于，所述采用更新后的所述第二分类模型对所述剩余的无标记样本进行分类，得...

【专利技术属性】
技术研发人员：付红雷，
申请(专利权)人：广联达科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人