分类处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：35095711 阅读：27 留言：0更新日期：2022-10-01 16:58

本申请涉及一种分类处理方法、装置、计算机设备和存储介质。该方法包括：基于使用标记数据集训练的分类模型，预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分；标记预测得分达到过滤阈值的未标记的样本数据，得到伪标记数据的集合；基于标记数据集和伪标记数据的集合，确定新的标记数据集；使用新的标记数据集重新训练分类模型后，将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集，返回基于使用标记数据集训练的分类模型，预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练，直至满足训练停止条件，得到训练完毕的分类模型。采用本方法能够提高分类准确性。法能够提高分类准确性。法能够提高分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】
分类处理方法、装置、计算机设备和存储介质

[0001]本申请涉及机器学习
，特别是涉及一种分类处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]在当今社会生活中，利用机器学习方法训练出的分类模型正扮演着越来越重要的角色。有监督学习方法使用标记的数据集来训练分类模型，无法对未标记数据加以利用。为了实现对未标记数据的利用，出现了半监督学习方法。
[0003]传统的半监督学习方法中，通过使用从标记数据所学的知识来标记未标记数据，再利用标记好的未标记数据训练分类模型。但是，仅使用从标记数据所学的知识标记未标记数据无法保证标记的准确性，从而导致分类模型的准确性降低。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够提高准确性的分类处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种分类处理方法。所述方法包括：
[0006]基于使用标记数据集训练的分类模型，预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分；
[0007]针对预测得分达到过滤阈值的未标记的样本数据，标记相应预测类别标签，得到伪标记数据的集合；所述伪标记数据是添加相应预测类别标签的样本数据；
[0008]基于所述标记数据集和所述伪标记数据的集合，确定新的标记数据集；
[0009]使用新的标记数据集重新训练所述分类模型后，将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集，返回...

【技术保护点】

【技术特征摘要】
1.一种分类处理方法，其特征在于，所述方法包括：基于使用标记数据集训练的分类模型，预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分；针对预测得分达到过滤阈值的未标记的样本数据，标记相应预测类别标签，得到伪标记数据的集合；所述伪标记数据是添加相应预测类别标签的样本数据；基于所述标记数据集和所述伪标记数据的集合，确定新的标记数据集；使用新的标记数据集重新训练所述分类模型后，将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集，返回所述基于使用标记数据集训练的分类模型，预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练，直至满足训练停止条件，得到训练完毕的分类模型。2.根据权利要求1所述的方法，其特征在于，所述针对预测得分达到过滤阈值的未标记的样本数据，标记相应预测类别标签包括：针对每个未标记的样本数据，若所述未标记的样本数据的预测类别标签属于头部类别标签、且所述预测得分达到第一过滤阈值，则针对所述未标记的样本数据标记相应预测类别标签；若所述预测类别标签属于尾部类别标签、且所述预测得分达到第二过滤阈值，则针对所述未标记的样本数据标记相应预测类别标签；所述第二过滤阈值小于所述第一过滤阈值。3.根据权利要求1所述的方法，其特征在于，所述基于所述标记数据集和所述伪标记数据的集合，确定新的标记数据集包括：基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量，分别确定各预测类别标签下伪标记数据对应的第一权重；预测类别标签下伪标记数据对应的第一权重的大小与所述预测类别标签下伪标记数据的数量负相关；针对所述标记数据集中的标记数据赋予第二权重；基于赋予所述第一权重后的所述伪标记数据和赋予所述第二权重后的所述标记数据生成新的标记数据集。4.根据权利要求3所述的方法，其特征在于，所述伪标记数据的集合中包括多个预测类别标签；所述基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量，分别确定各预测类别标签下伪标记数据对应的第一权重包括：按照所述多个预测类别标签中各预测类别标签下伪标记数据的数量由大到小的顺序，对各预测类别标签排序；针对排序后的每个当前预测类别标签，根据当前权重计算关联标签下伪标记数据的数量与参照类别标签下伪标记数据的数量的比值，确定所述当前预测类别标签下伪标记数据的第一权重；其中，所述当前权重计算关联标签是所述多个预测类别标签中...

【专利技术属性】
技术研发人员：李业良，黄继青，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人