建立预测模型的方法及装置制造方法及图纸

技术编号:36183529 阅读:27 留言:0更新日期:2022-12-31 20:42
本申请实施例公开了一种建立预测模型的方法及装置,应用于深度学习技术领域。主要技术方案包括:获取训练数据集,训练数据集包括C个类别的样本数据以及样本数据对应的标签;将样本数据作为第一预测模型的输入,将样本数据对应的标签作为第一预测模型的目标输出,训练第一预测模型,第一预测模型包括特征提取网络和预测网络,特征提取网络用以利用样本数据提取特征表示,预测网络用以利用特征表示得到针对样本数据的预测结果;在训练中采用动量梯度下降的方式对第一预测模型进行参数更新,其中动量在参数更新中的权重依据训练数据集的长尾数据分布与均匀分布的差异程度确定。本申请能够降低陷入局部最优的可能性,提高预测效果。果。果。

【技术实现步骤摘要】
建立预测模型的方法及装置


[0001]本申请涉及深度学习
,特别是涉及一种建立预测模型的方法及装置。

技术介绍

[0002]自然界收集的样本通常呈长尾分布,即很少一部分类别(即头部类别)收集到绝大多数样本,而大多数类别即尾部类别却只能收集到很少量的样本。以图像分类为例,对于动物识别任务的训练集,猫狗等常见动物可以轻轻松松地采集数以百万张的图像,但对于雪豹等罕见动物,则采集到的图像数量很有限,越是稀有的动物越难采集到图像。这造成收集到的数据集存在着严重的类别不平衡问题,从而使得基于深度神经网络训练得到的预测模型过拟合于头部类别,严重地影响模型效果。因此,亟需一种建立预测模型的方法,以减轻长尾数据带来的过拟合于头部类别的问题,提高预测效果。

技术实现思路

[0003]有鉴于此,本申请提供了一种建立预测模型的方法及装置,用以减轻长尾数据带来的过拟合于头部类别的问题,提高预测效果。
[0004]本申请提供了如下方案:
[0005]第一方面,提供了一种建立预测模型的方法,所述方法包括:
[0006]获取训练数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种建立预测模型的方法,其特征在于,所述方法包括:获取训练数据集,所述训练数据集包括C个类别的样本数据以及样本数据对应的标签,所述C为大于1的正整数;将样本数据作为第一预测模型的输入,将样本数据对应的标签作为第一预测模型的目标输出,训练所述第一预测模型,所述第一预测模型包括特征提取网络和预测网络,所述特征提取网络用以利用样本数据提取特征表示,所述预测网络用以利用所述特征表示得到针对样本数据的预测结果;在所述训练中采用动量梯度下降的方式对所述第一预测模型进行参数更新,其中动量在所述参数更新中的权重依据所述训练数据集的长尾数据分布与均匀分布的差异程度确定。2.根据权利要求1所述的方法,其特征在于,所述采用动量梯度下降的方式对所述第一预测模型进行参数更新包括:在所述训练的每一次迭代中,将上一次迭代更新后的第一预测模型的参数和本次迭代的动量进行加权处理以更新所述第一预测模型的参数,本次迭代的动量是依据上一次迭代采用的动量和损失函数的梯度确定的,参数更新的方向与本次迭代的动量方向相反,本次迭代的动量方向与上一次参数更新的方向相同且与损失函数的梯度方向相同。3.根据权利要求1所述的方法,其特征在于,所述动量在所述参数更新中的权重绝对值大于或等于1,所述训练数据集的长尾数据分布与均匀分布的差异程度包括所述训练数据集的长尾数据分布与均匀分布的KL散度值。4.根据权利要求3所述的方法,其特征在于,所述动量在所述参数更新中的权重取值为:散度计算值乘以log
2 C得到的值与1中的较大值,所述散度计算值为所述训练数据集的长尾数据分布与均匀分布的KL散度值。5.根据权利要求1所述的方法,其特征在于,所述第一预测模型为N个,所述N为大于1的正整数;所述方法还包括:采用自举法Bootstrap对所述训练数据集进行N次重采样,得到N个数据集分别用以训练N个所述第一预测模型;训练结束后,利用训练得到的N个所述第一预测模型得到第二预测模型,所述第二预测模型用以在输入待预测数据后,整合N个预测网络输出的预测结果以确定所...

【专利技术属性】
技术研发人员:于开丞卿泉陈鹏
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1