基于数据类别预测方法、装置、设备和介质制造方法及图纸

技术编号:39296812 阅读:18 留言:0更新日期:2023-11-07 11:04
本申请提供了一种基于数据类别预测方法、装置、设备和介质,用于提高数据类别预测的准确率。该方法包括:获取训练样本集合中的初始样本数据和初始样本数据在第t次训练时的第一分类权重,根据第一分类权重对初始样本数据进行加权处理,得到第t次训练的第一加权样本数据;通过初始分类模型输出第一加权样本数据对应的第一类别预测结果,根据第一类别预测结果、第一分类权重和初始样本数据对应的类别标签信息,确定初始分类模型的第一损失;根据第一损失对第一分类权重和初始分类模型进行修正,得到第t次训练的第二分类权重和候选分类模型,根据第t次训练的第二分类权重和候选分类模型得到目标分类模型;目标分类模型用于预测目标数据所属的类别。测目标数据所属的类别。测目标数据所属的类别。

【技术实现步骤摘要】
基于数据类别预测方法、装置、设备和介质


[0001]本申请涉及人工智能领域,尤其涉及一种基于数据类别预测方法、装置、设备和介质。

技术介绍

[0002]在一些特定的预测场景中,例如,在预测银行贷款是否会违约、发行债券的主体是否会出现债务违约等场景,往往会出现第一类别的样本(例如,违约的样本)数据量远远小于第二类别的样本(例如,未违约的样本)数据量的现象,从而导致产生样本数据不均衡的问题。若采用不均衡样本数据构建用于预测数据类别的分类模型,那么由此训练得到的分类模型在实际应用中,对第一类别数据的预测准确性可能远低于第二类别数据的预测准确性,也就是说,会造成第一类别数据的预测准确性过低。

技术实现思路

[0003]本申请实施例提供一种基于数据类别预测方法、装置、设备和介质,用于提高数据类别预测的准确率。
[0004]本申请实施例一方面提供了一种基于数据类别预测方法,包括:
[0005]获取训练样本集合中的初始样本数据,以及获取初始样本数据在第t次训练时的第一分类权重,根据第一分类权重对初始样本数据进行加权处理,得到第本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于数据类别预测方法,其特征在于,包括:获取训练样本集合中的初始样本数据,以及获取所述初始样本数据在第t次训练时的第一分类权重,根据所述第一分类权重对所述初始样本数据进行加权处理,得到第t次训练的第一加权样本数据;其中,所述第一分类权重用于平衡不同类别的初始样本数据在所述训练样本集合中所占的比例,所述训练样本集合中不同类别的初始样本数据对应不同的第一分类权重;t为正整数;将所述第一加权样本数据输入至初始分类模型,通过所述初始分类模型对所述第一加权样本数据进行类别预测处理,得到所述第一加权样本数据对应的第一类别预测结果,根据所述第一类别预测结果、所述第一分类权重以及所述初始样本数据对应的类别标签信息,确定所述初始分类模型对应的第一损失;根据所述第一损失对所述第一分类权重进行权重修正,得到第t次训练的第二分类权重,根据所述第一损失对所述初始分类模型进行网络参数修正,得到第t次训练的候选分类模型,根据所述第二分类权重和第t次训练的候选分类模型得到目标分类模型;其中,所述目标分类模型用于预测目标数据所属的类别。2.根据权利要求1所述的方法,其特征在于,所述训练样本集合包括第一类别的样本数据和第二类别的样本数据;在所述获取训练样本集合中的初始样本数据之后,还包括:获取所述训练样本集合中的第一类别的样本数据对应的第一样本数量,以及获取所述训练样本集合中的第二类别的样本数据对应的第二样本数量;根据所述第一样本数量和所述第二样本数量,确定所述第一类别和所述第二类别分别对应的初始分类权重;其中,所述第一样本数量和所述第一类别对应的初始分类权重之间的乘积,与第二样本数量和所述第二类别对应的初始分类权重之间的乘积是相同的;t=1时,第t次训练时的第一分类权重为所述初始样本数据所属的类别对应的初始分类权重。3.根据权利要求1所述的方法,其特征在于,在所述将所述第一加权样本数据输入至初始分类模型之前,还包括:获取源分类模型,将所述第一加权样本数据输入至所述源分类模型,通过所述源分类模型对所述第一加权样本数据进行类别预测处理,得到所述第一加权样本数据对应的初始类别预测结果;根据所述初始类别预测结果和所述初始样本数据对应的类别标签信息,确定所述源分类模型对应的交叉熵损失;根据所述交叉熵损失对所述源分类模型进行网络参数修正,将包含修正后的网络参数的源分类模型确定为所述初始分类模型。4.根据权利要求1所述的方法,其特征在于,所述初始分类模型包括M个分类子模型;M为大于1的整数;所述通过所述初始分类模型对所述第一加权样本数据进行类别预测处理,得到所述第一加权样本数据对应的第一类别预测结果,包括:通过所述初始分类模型的M个分类子模型对所述第一加权样本数据进行类别预测处理,得到M个子类别预测结果;将所述M个子类别预测结果之和确定为所述第一加权样本数据对应的第一类别预测结
果。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一类别预测结果、所述第一分类权重以及所述初始样本数据对应的类别标签信息,确定所述初始分类模型对应的第一损失,包括:对所述第一类别预测结果进行对数处理,得到所述第一类别预测结果对应的对数结果;根据所述第一类别预测结果和所述初始样本数据对应的类别标签信息确定所述对数结果对应的修正系数;将所述对数结果、所述修正系数以及所述第一分类权重之间的乘积确定为所述初始分类模型对应的第一损失。6.根...

【专利技术属性】
技术研发人员:高思哲陈波欧阳天雄严君刚曾庆然赵雪尧
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1