模型训练方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:43360850 阅读:26 留言:0更新日期:2024-11-19 17:45
本发明专利技术实施例提供了模型训练方法、装置、设备、存储介质及程序产品。该方法包括:基于设定的图像数据集对设定的深度神经网络模型进行预训练,获得预训练后的深度神经网络模型,并作为全局模型以及每个子训练任务的模型;基于多种噪声强度确定目标噪声强度;基于所述目标噪声强度以及设定的子训练任务数量确定每个子训练任务的噪声分布;基于各个子训练任务的噪声分布、各个子训练任务的权重参数以及所述全局模型的权重参数对各个子训练任务以及所述全局模型进行多轮训练,获得训练后的全局模型。本公开实施例,可以使得训练后的全局模型在器件变化环境下具备更强的鲁棒性和性能,以及在不同硬件环境下,具备更好的适应能力和通用性。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种模型训练方法、装置、设备、存储介质及程序产品


技术介绍

1、近年来,深度神经网络在各个领域取得了显著突破,随着gpt等大语言模型的出现,深度学习技术正在逐渐改变我们的工作方式。与此同时,训练和推理的计算需求也在急剧增加,这对计算资源有限、功耗限制严格的边缘计算平台提出了巨大挑战。随着新兴非易失性存储器设备的出现,模拟内存计算在加速深度学习系统和降低功耗方面显示出巨大潜力,相比于标准的冯-诺依曼架构,其可直接在权重数据存储点执行深度神经网络所必需的矩阵向量乘法,从而减少内存和计算单元之间频繁的数据传输,打破了“内存墙”的限制。然而,模拟计算的性能会受到制造缺陷、器件变化、和其他物理因素的影响,导致实际计算结果与预期值可能存在偏差,从而降低深度神经网络的推理精度。

2、模拟存内计算是在边缘平台上加速深度神经网络的新兴技术趋势,然而,制造和器件变化造成的不稳定性限制了其准确性和可靠性。虽然现有的方案通过在模型的训练阶段注入噪声,能够实现对硬件噪声的感知,在一定程度上增强了深度神经网络在器件变化情况下的鲁棒性。然而本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于多种噪声强度确定目标噪声强度,包括:

3.根据权利要求1所述的方法,其特征在于,基于所述目标噪声强度以及设定的子训练任务数量确定每个子训练任务的噪声分布,包括:

4.根据权利要求1所述的方法,其特征在于,基于各个子训练任务的噪声分布、各个子训练任务的权重参数以及所述全局模型的权重参数对各个子训练任务以及所述全局模型进行多轮训练,获得训练后的全局模型,包括:

5.根据权利要求4所述的方法,其特征在于,将各个子训练任务的更新后的权重参数进行聚合,获得聚合的权...

【技术特征摘要】

1.一种模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,基于多种噪声强度确定目标噪声强度,包括:

3.根据权利要求1所述的方法,其特征在于,基于所述目标噪声强度以及设定的子训练任务数量确定每个子训练任务的噪声分布,包括:

4.根据权利要求1所述的方法,其特征在于,基于各个子训练任务的噪声分布、各个子训练任务的权重参数以及所述全局模型的权重参数对各个子训练任务以及所述全局模型进行多轮训练,获得训练后的全局模型,包括:

5.根据权利要求4所述的方法,其特征在于,将各个子训练任务的更新后的权重参数进行聚合,获得聚合的权重参数,包括:

<...

【专利技术属性】
技术研发人员:代旭李英豪胡杨王磊郝培霖
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1