样本预测模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32565883 阅读:17 留言:0更新日期:2022-03-09 16:51
本发明专利技术提供了一种样本预测模型的训练方法、装置、电子设备及存储介质,属于数据处理领域,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于第一样本与伪标签的第二样本训练样本预测模型,其中,预置分类阈值可以通过将第二预测概率作为分类阈值对第一样本进行分类,并确定符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,保证了第一模型对第二样本进行分类获得伪标签的质量。伪标签的质量。伪标签的质量。

【技术实现步骤摘要】
样本预测模型的训练方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理领域,更具体地,涉及一种样本预测模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]伪标签(Pseudo Labeling)算法是一种通过已知标签样本进行模型训练,并采用训练得到的模型对未知标签样本进行预测,得到该模型输出的预测概率,再根据预测概率确定未知标签样本可能对应的伪标签的算法,通过伪标签算法,能够扩大模型训练中的样本容量,提升模型性能。
[0003]目前,伪标签算法中通常在预测标签中选择预测概率较高的作为伪标签,但是,直接选择预测概率较高的预测标签可能导致误报、漏报的问题,使得伪标签的质量差,无法准确获得未知标签样本的分类,影响模型性能。

技术实现思路

[0004]本专利技术提供了一种样本预测模型的训练方法、装置、电子设备及存储介质,以解决在样本预测方法中采用伪标签算法进行模型训练时,伪标签的质量差,无法准确获得未知标签样本的分类,影响模型性能的问题。
[0005]本专利技术第一方面提供了一种样本预测模型的训练方法,该方法可以包括:
[0006]获取已知标签的第一样本,以及未知标签的第二样本;
[0007]基于所述第一样本进行模型训练,获得第一模型;
[0008]采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
[0009]采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
[0010]根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
[0011]采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
[0012]可选地,将所述采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值的步骤替换为:
[0013]将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
[0014]所述根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定
所述第二样本对应的伪标签之后,还包括:
[0015]确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
[0016]确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
[0017]在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
[0018]可选地,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值,包括:
[0019]依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;
[0020]确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;
[0021]将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
[0022]可选地,所述第一样本包括第一已知类样本、第二已知类样本,所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差,包括:
[0023]确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率;
[0024]确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率;
[0025]根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
[0026]可选地,所述确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,包括:
[0027]根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度;
[0028]确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
[0029]可选地,所述根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度,包括:
[0030]根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
[0031]可选地,所述确定所述目标标签对应的所述第一样本之间的第二相似度标准差,包括:
[0032]确定所述目标标签对应的所述第一样本两两之间的第二相似度;
[0033]确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
[0034]可选地,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类之前,还包括:
[0035]对所述第二预测概率进行去重。
[0036]本专利技术第二方面提供了一种样本预测模型的训练装置,该装置可以包括:
[0037]样本获取模块,用于获取已知标签的第一样本,以及未知标签的第二样本;
[0038]模型训练模块,用于基于所述第一样本进行模型训练,获得第一模型;
[0039]概率预测模块,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
[0040]阈值确定模块,用于采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
[0041]样本标记模块,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
[0042]所述模型训练模块,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
[0043]可选地,所述阈值确定模块,还用于将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
[0044]可选地,所述装置还包括:
[0045]第一相似度标准差模块,用于确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本预测模型的训练方法,其特征在于,所述方法包括:获取已知标签的第一样本,以及未知标签的第二样本;基于所述第一样本进行模型训练,获得第一模型;采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。2.根据权利要求1所述的方法,其特征在于,将所述采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值的步骤替换为:将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;所述根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签之后,还包括:确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;确定所述目标标签对应的所述第一样本之间的第二相似度标准差;在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。3.根据权利要求1所述的方法,其特征在于,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值,包括:依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。4.根据权利要求3所述的方法,其特征在于,所述第一样本包括第一已知类样本、第二已知类样本,所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差,包括:确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样
本对应的第一平均概率;确定所述第二...

【专利技术属性】
技术研发人员:赵扬周红伟董纪伟
申请(专利权)人:同盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1