样本预测模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号：32565883 阅读：17 留言：0更新日期：2022-03-09 16:51

本发明专利技术提供了一种样本预测模型的训练方法、装置、电子设备及存储介质，属于数据处理领域，其中，可以采用已知标签的第一样本训练第一模型，再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率，并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签，再基于第一样本与伪标签的第二样本训练样本预测模型，其中，预置分类阈值可以通过将第二预测概率作为分类阈值对第一样本进行分类，并确定符合第一分类条件的分类阈值得到，第二预测概率为第一模型对第一样本的预测概率，由于第一样本为已知标签，因此可以通过第一样本对第一模型的分类性能进行检验，保证了第一模型对第二样本进行分类获得伪标签的质量。伪标签的质量。伪标签的质量。

全部详细技术资料下载

【技术实现步骤摘要】
样本预测模型的训练方法、装置、电子设备及存储介质

[0001]本专利技术涉及数据处理领域，更具体地，涉及一种样本预测模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]伪标签(Pseudo Labeling)算法是一种通过已知标签样本进行模型训练，并采用训练得到的模型对未知标签样本进行预测，得到该模型输出的预测概率，再根据预测概率确定未知标签样本可能对应的伪标签的算法，通过伪标签算法，能够扩大模型训练中的样本容量，提升模型性能。
[0003]目前，伪标签算法中通常在预测标签中选择预测概率较高的作为伪标签，但是，直接选择预测概率较高的预测标签可能导致误报、漏报的问题，使得伪标签的质量差，无法准确获得未知标签样本的分类，影响模型性能。

技术实现思路

[0004]本专利技术提供了一种样本预测模型的训练方法、装置、电子设备及存储介质，以解决在样本预测方法中采用伪标签算法进行模型训练时，伪标签的质量差，无法准确获得未知标签样本的分类，影响模型性能的问题。
[0005]本专利技术第一方面提供了一种样本预测模型的训练方法，该方法可以包括：
[0006]获取已知标签的第一样本，以及未知标签的第二样本；
[0007]基于所述第一样本进行模型训练，获得第一模型；
[0008]采用所述第一模型对所述第二样本进行预测，获得所述第二样本对应的第一预测概率；
[0009]采用第一模型对所述第一样本进行预测确定第二预测概率，并将不同所述第二预测概率作为分类阈值对所述第一...

【技术保护点】

【技术特征摘要】
1.一种样本预测模型的训练方法，其特征在于，所述方法包括：获取已知标签的第一样本，以及未知标签的第二样本；基于所述第一样本进行模型训练，获得第一模型；采用所述第一模型对所述第二样本进行预测，获得所述第二样本对应的第一预测概率；采用第一模型对所述第一样本进行预测确定第二预测概率，并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类，将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值；根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类，确定所述第二样本对应的伪标签；采用已知标签的所述第一样本，以及伪标签的所述第二样本进行模型训练，获得样本预测模型。2.根据权利要求1所述的方法，其特征在于，将所述采用第一模型对所述第一样本进行预测确定第二预测概率，并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类，将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值的步骤替换为：将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类，并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值；所述根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类，确定所述第二样本对应的伪标签之后，还包括：确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差，所述目标标签为所述已知标签与所述伪标签间任一同类标签；确定所述目标标签对应的所述第一样本之间的第二相似度标准差；在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下，保留所述伪标签。3.根据权利要求1所述的方法，其特征在于，所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类，将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值，包括：依次将每一所述第二预测概率作为分类阈值，将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本，将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本；确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差；将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。4.根据权利要求3所述的方法，其特征在于，所述第一样本包括第一已知类样本、第二已知类样本，所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差，包括：确定所述第一预测类样本在所述第一已知类样本中的第一占比，与所述第一预测类样
本对应的第一平均概率；确定所述第二...

【专利技术属性】
技术研发人员：赵扬，周红伟，董纪伟，
申请(专利权)人：同盾科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人