一种深度学习模型的训练方法及装置制造方法及图纸

技术编号：37797689 阅读：7 留言：0更新日期：2023-06-09 09:27

本发明专利技术公开了一种深度学习模型的训练方法及装置，所述方法包括：向深度学习模型输入N批mini

全部详细技术资料下载

【技术实现步骤摘要】
一种深度学习模型的训练方法及装置

[0001]本专利技术涉及深度学习
，尤其涉及一种深度学习模型的训练方法及装置。

技术介绍

[0002]目前，智能机器人在商场、机场、车站等公共场所的应用日益广泛，对建筑物、绿化带、行人、车辆等进行分割和识别已经成为其必不可少的功能。这些功能的实现都依赖于ResNet、YOLO等复杂深度神经网络及其配套学习算法。目标检测就是找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。
[0003]目前大多数的深度学习任务的尺度一般为224*224，检测任务coco数据集则是640*640，在许多真实情况下存在一些1280*960分辨率的训练任务，虽然可以在输入深度模型前降低图片的分辨率从而提高batch size，但是在某些实际项目中(电路板缺陷检测，真实场景垃圾分类和某些高精度工业级项目)，降低输入图片的分辨率会在训练过程中损失部分特征，且违背使用高分辨率相机的初衷造成浪费，在这种情况下，batch size的设置受限于计算机算力和实际任务，数据存在局部过拟合的问题，导致训练过程无法良好的提取特征最终导致训练出的模型不能落地。
[0004]由上述可得，现有的深度学习模型的训练方法在batch size设置受限的情况下，导致特征提取过程中数据局部过拟合的问题，最终会造成训练模型鲁棒性不高的问题。

技术实现思路

[0005]本专利技术实施例提供一种深度学习模型的训练方法及装置，能够在batch size设置受限的情况下解...

【技术保护点】

【技术特征摘要】
1.一种深度学习模型的训练方法，其特征在于，包括：：向深度学习模型输入N批mini
‑
batch，以使所述深度学习模型根据所述N批mini
‑
batch计算出相应的N个均值和N个方差；根据所述N个均值计算全局均值后，根据所述N个均值以及所述全局均值计算得到权重系数；根据所述N个方差计算标准差后，根据所述N个方差以及所述标准差计算得到偏差；根据所述权重系数对所述N个均值进行线性变换，生成第一数据特征；根据所述偏差对所述N个方差进行线性变换，生成第二数据特征；根据所述第一数据特征和所述第二数据特征训练所述深度学习模型。2.根据权利要求1所述的一种深度学习模型的训练方法，其特征在于，所述根据所述N个均值以及所述全局均值计算得到权重系数，具体为：个均值以及所述全局均值计算得到权重系数，具体为：σ
←
σ+α(σ
b
‑
σ)；其中，r为所述权重系数，σ
b
表示当前训练迭代过程中的实际统计到的均值标准差，σ表示网络推理时的标准差，r
max
一般取1
‑
10。3.根据权利要求2所述的一种深度学习模型的训练方法，其特征在于，所述根据所述N个方差计算标准差后，根据所述N个方差以及所述标准差计算得到偏差，具体为：个方差计算标准差后，根据所述N个方差以及所述标准差计算得到偏差，具体为：μ
←
μ+α(μ
b
‑
μ)；其中，d为所述偏差，μ
b
表示当前训练迭代过程中的实际统计到的均值。4.根据权利要求3所述的一种深度学习模型的训练方法，其特征在于，所述根据所述N个均值计算全局均值，具体为：根据指数滑动平均方法，结合所述N个均值，计算得到所述全局均值。5.根据权利要求4所述的一种深度学习模型的训练方法，其特征在于，所述根据所述N个方差计算标准差，具体为：根据指数滑动平均方法，结合所述N个方差，计算得到所述标准差。6.一种深度学习模型的训练装置，其特征在于，包括：：输入模块、第一计算模块、第二计算模块、第一变换模块、第二变换模块和训练模块；其中，所述输入模块用于向深度学习模型输入N批mini
‑
batch，以使所述深度学习模型根据所述N批mini
‑
batch计算出相应的N个均值和N个方差；

【专利技术属性】
技术研发人员：万里红，吴国栋，袁野，
申请(专利权)人：中原动力智能机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人