分类处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:35095711 阅读:27 留言:0更新日期:2022-10-01 16:58
本申请涉及一种分类处理方法、装置、计算机设备和存储介质。该方法包括:基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分;标记预测得分达到过滤阈值的未标记的样本数据,得到伪标记数据的集合;基于标记数据集和伪标记数据的集合,确定新的标记数据集;使用新的标记数据集重新训练分类模型后,将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集,返回基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练,直至满足训练停止条件,得到训练完毕的分类模型。采用本方法能够提高分类准确性。法能够提高分类准确性。法能够提高分类准确性。

【技术实现步骤摘要】
分类处理方法、装置、计算机设备和存储介质


[0001]本申请涉及机器学习
,特别是涉及一种分类处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]在当今社会生活中,利用机器学习方法训练出的分类模型正扮演着越来越重要的角色。有监督学习方法使用标记的数据集来训练分类模型,无法对未标记数据加以利用。为了实现对未标记数据的利用,出现了半监督学习方法。
[0003]传统的半监督学习方法中,通过使用从标记数据所学的知识来标记未标记数据,再利用标记好的未标记数据训练分类模型。但是,仅使用从标记数据所学的知识标记未标记数据无法保证标记的准确性,从而导致分类模型的准确性降低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高准确性的分类处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种分类处理方法。所述方法包括:
[0006]基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分;
[0007]针对预测得分达到过滤阈值的未标记的样本数据,标记相应预测类别标签,得到伪标记数据的集合;所述伪标记数据是添加相应预测类别标签的样本数据;
[0008]基于所述标记数据集和所述伪标记数据的集合,确定新的标记数据集;
[0009]使用新的标记数据集重新训练所述分类模型后,将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集,返回所述基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练,直至满足训练停止条件,得到训练完毕的分类模型。
[0010]第二方面,本申请还提供了一种分类处理装置。所述装置包括:
[0011]预测模块,用于基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分;
[0012]确定模块,用于针对预测得分达到过滤阈值的未标记的样本数据,标记相应预测类别标签,得到伪标记数据的集合;所述伪标记数据是添加相应预测类别标签的样本数据;基于所述标记数据集和所述伪标记数据的集合,确定新的标记数据集;
[0013]训练模块,用于使用新的标记数据集重新训练所述分类模型后,将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集,返回所述基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练,直至满足训练停止条件,得到训练完毕的分类模型。
[0014]在其中一个实施例中,所述确定模块,还用于针对每个未标记的样本数据,若所述
未标记的样本数据的预测类别标签属于头部类别标签、且所述预测得分达到第一过滤阈值,则针对所述未标记的样本数据标记相应预测类别标签;
[0015]若所述预测类别标签属于尾部类别标签、且所述预测得分达到第二过滤阈值,则针对所述未标记的样本数据标记相应预测类别标签;所述第二过滤阈值小于所述第一过滤阈值。
[0016]在其中一个实施例中,所述确定模块,还用于基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量,分别确定各预测类别标签下伪标记数据对应的第一权重;预测类别标签下伪标记数据对应的第一权重的大小与所述预测类别标签下伪标记数据的数量负相关;针对所述标记数据集中的标记数据赋予第二权重;基于赋予所述第一权重后的所述伪标记数据和赋予所述第二权重后的所述标记数据生成新的标记数据集。
[0017]在其中一个实施例中,所述伪标记数据的集合中包括多个预测类别标签;所述确定模块,还用于按照所述多个预测类别标签中各预测类别标签下伪标记数据的数量由大到小的顺序,对各预测类别标签排序;针对排序后的每个当前预测类别标签,根据当前权重计算关联标签下伪标记数据的数量与参照类别标签下伪标记数据的数量的比值,确定所述当前预测类别标签下伪标记数据的第一权重;
[0018]其中,所述当前权重计算关联标签是所述多个预测类别标签中与所述当前预测类别标签的权重计算相关的预测类别标签;所述当前权重计算关联标签下伪标记数据的数量比上一预测类别标签的权重计算关联标签下伪标记数据的数量大,且比下一预测类别标签的权重计算关联标签下伪标记数据的数量小;不同预测类别标签的权重计算关联标签不同;所述参照类别标签是所述多个预测类别标签中伪标记数据的数量最大的预测类别标签。
[0019]在其中一个实施例中,所述训练模块,还用于利用新的标记数据集中所述伪标记数据的第一权重和所述标记数据的第二权重确定所述分类模型的加权损失函数;朝着最小化所述加权损失函数的损失值的方向,使用新的标记数据集重新训练所述分类模型。
[0020]在其中一个实施例中,所述分类模型是文本分类模型;所述预测模块,还用于对标记数据集中标记的样本数据进行分词处理,并对分词处理后的样本数据进行随机均匀采样,得到训练样本数据;使用所述训练样本数据训练所述文本分类模型。
[0021]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
[0022]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
[0023]第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
[0024]上述分类处理方法、装置、计算机设备、存储介质和计算机程序产品,基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分;针对预测得分达到过滤阈值的未标记的样本数据,标记相应预测类别标签,得到伪标记数据的集合;伪标记数据是添加相应预测类别标签的样本数据;基于标记数据集和伪标记数据的集合,确定新的标记数据集;使用新的标记数据集重新训练分类模型后,
将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集,返回基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练,直至满足训练停止条件,得到训练完毕的分类模型。通过不断地利用分类模型对未标记数据进行预测,确定伪标记数据的集合,再基于标记数据集和伪标记数据的集合得到新的标记数据集,使用新的标记数据集重复训练分类模型,从而实现了对未标记数据的有效利用,能够使用从标记数据和未标记数据所学的知识来标记未标记数据,再进行分类模型的训练,提高了准确性。
附图说明
[0025]图1为一个实施例中分类处理方法的应用环境图;
[0026]图2为一个实施例中分类处理方法的流程示意图;
[0027]图3为一个实施例中分类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分类处理方法,其特征在于,所述方法包括:基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分;针对预测得分达到过滤阈值的未标记的样本数据,标记相应预测类别标签,得到伪标记数据的集合;所述伪标记数据是添加相应预测类别标签的样本数据;基于所述标记数据集和所述伪标记数据的集合,确定新的标记数据集;使用新的标记数据集重新训练所述分类模型后,将去除已标记预测类别标签的样本数据后的未标记数据集作为新的未标记数据集,返回所述基于使用标记数据集训练的分类模型,预测未标记数据集中各未标记的样本数据的预测类别标签和相应的预测得分的步骤以迭代训练,直至满足训练停止条件,得到训练完毕的分类模型。2.根据权利要求1所述的方法,其特征在于,所述针对预测得分达到过滤阈值的未标记的样本数据,标记相应预测类别标签包括:针对每个未标记的样本数据,若所述未标记的样本数据的预测类别标签属于头部类别标签、且所述预测得分达到第一过滤阈值,则针对所述未标记的样本数据标记相应预测类别标签;若所述预测类别标签属于尾部类别标签、且所述预测得分达到第二过滤阈值,则针对所述未标记的样本数据标记相应预测类别标签;所述第二过滤阈值小于所述第一过滤阈值。3.根据权利要求1所述的方法,其特征在于,所述基于所述标记数据集和所述伪标记数据的集合,确定新的标记数据集包括:基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量,分别确定各预测类别标签下伪标记数据对应的第一权重;预测类别标签下伪标记数据对应的第一权重的大小与所述预测类别标签下伪标记数据的数量负相关;针对所述标记数据集中的标记数据赋予第二权重;基于赋予所述第一权重后的所述伪标记数据和赋予所述第二权重后的所述标记数据生成新的标记数据集。4.根据权利要求3所述的方法,其特征在于,所述伪标记数据的集合中包括多个预测类别标签;所述基于所述伪标记数据的集合中各预测类别标签下伪标记数据的数量,分别确定各预测类别标签下伪标记数据对应的第一权重包括:按照所述多个预测类别标签中各预测类别标签下伪标记数据的数量由大到小的顺序,对各预测类别标签排序;针对排序后的每个当前预测类别标签,根据当前权重计算关联标签下伪标记数据的数量与参照类别标签下伪标记数据的数量的比值,确定所述当前预测类别标签下伪标记数据的第一权重;其中,所述当前权重计算关联标签是所述多个预测类别标签中...

【专利技术属性】
技术研发人员:李业良黄继青刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1