边缘设备的网络模型的训练方法、装置及电子设备制造方法及图纸

技术编号:38129665 阅读:21 留言:0更新日期:2023-07-08 09:36
本申请提供一种边缘设备的网络模型的训练方法、装置及电子设备,边缘设备的网络模型包括多个权重固化的卷积层,每个卷积层的输出端设置有可变参数层,可变参数层的权重可变,最后一个卷积层的输出端连接全连接层,并且该全连接层也设置为权重可变。在边缘设备上进行网络模型的训练时,卷积层的权重固化,不做更新,主要的前向和反向传播部分均为量化数据类型,在不改变原有卷积层的速度的基础上,在每层卷积后加一个可学习的权重参数,迭代更新该权重参数,达到变换特征分布的目的,本实施例的模型微调方案能够微调整个网络中的多个权重,从而提高网络模型识别性能。从而提高网络模型识别性能。从而提高网络模型识别性能。

【技术实现步骤摘要】
边缘设备的网络模型的训练方法、装置及电子设备


[0001]本申请涉及边缘计算
,具体而言,涉及一种边缘设备的网络模型的训练方法、装置及电子设备。

技术介绍

[0002]随着智能化的普及,个人的智能设备大部分时间都处于闲置状态。将训练任务从云端迁移到边缘上可以充分利用边缘设备的算力。边缘上的数据量远少于云端,训练模型所需时间通常不会很长。减少需要上传的数据,训练效率也能得到提高。同时个人敏感数据不用再上传到云端,隐私问题能够很好的得到解决。边缘设备上的存储和计算资源是有限的,为了在资源受限的设备上有效的训练神经网络模型,可以采用模型微调技术。
[0003]模型微调(finetune)技术,指先在服务器集群上用大规模数据集训练一个预训练模型,然后在众多下游任务上,仅通过微调少量参数即可完成目标任务的适配。边缘设备的边缘芯片一般追求低功耗和低面积,往往仅能用于模型的推理,而难以支持模型的训练。但在一些场景(如环境变化剧烈的车载环境)中,实时采集到的数据可能与模型训练时的数据分布有较大差异,使得模型的性能下降,这时模型微调就显得至关重要。
[0004]目前在边缘设备上做模型微调,一般只能做到微调最后一层卷积层,模型性能距离微调整个网络有较大差距,边缘设备的网络模型识别性能较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种边缘设备的网络模型的训练方法、装置及电子设备,用以解决现有技术中在边缘设备上做模型微调,一般只能做到微调最后一层卷积层,模型性能距离微调整个网络有较大差距,边缘设备的网络模型识别性能较差的问题。
[0006]本申请实施例提供的一种边缘设备的网络模型的训练方法,网络模型包括多个权重固化的卷积层,和权重可变的全连接层,在每相邻两个卷积层之间设置一个可变参数层,方法包括:
[0007]将训练数据输入网络模型,通过前向推理得到预测值,计算预测值和真实标签间的损失,再通过反向传播计算得到网络模型的权重梯度;
[0008]根据原权重和对应的权重梯度,得到更新后的权重。
[0009]上述技术方案中,边缘设备的网络模型包括多个权重固化的卷积层,每个卷积层的输出端设置有可变参数层,可变参数层的权重可变,最后一个卷积层的输出端连接全连接层,并且该全连接层也设置为权重可变。在边缘设备上进行网络模型的训练时,卷积层的权重固化,不做更新,主要的前向和反向传播部分均为量化数据类型,在不改变原有卷积层的速度的基础上,在每层卷积后加一个可学习的权重参数,迭代更新该权重参数,达到变换特征分布的目的,本实施例的模型微调方案能够微调整个网络中的多个权重,从而提高网络模型识别性能。
[0010]在一些可选的实施方式中,将训练数据输入网络模型,通过前向推理得到预测值,
包括:
[0011]对于网络模型的卷积层f(
·
),通过前向推理得到预测值y:
[0012]y=f(x)+r;
[0013]其中,r为卷积层对应可变参数层的权重值,x为本轮迭代的输入。
[0014]在一些可选的实施方式中,计算预测值和真实标签间的损失,包括:
[0015]对于网络模型的卷积层f(
·
),计算损失L:
[0016][0017]其中,为真实标签值。
[0018]在一些可选的实施方式中,通过反向传播计算得到网络模型的权重梯度,包括:
[0019]对于网络模型的卷积层f(
·
),通过反向传播计算权重梯度:
[0020][0021]在一些可选的实施方式中,根据原权重和对应的权重梯度,得到更新后的权重,包括:
[0022]对于网络模型的卷积层f(
·
),卷积层对应可变参数层更新后的权重值:
[0023][0024]在一些可选的实施方式中,将训练数据输入网络模型,通过前向推理得到预测值,包括:
[0025]对于网络模型的权重可变的全连接层,通过前向推理得到预测值y:
[0026]y=W*x;
[0027]其中,W为全连接层的权重,x为本轮迭代的输入。
[0028]在一些可选的实施方式中,计算预测值和真实标签间的损失,包括:
[0029]对于网络模型的权重可变的全连接层,计算损失L:
[0030][0031]其中,为真实标签值。
[0032]在一些可选的实施方式中,通过反向传播计算得到网络模型的权重梯度,包括:
[0033]对于网络模型的权重可变的全连接层,通过反向传播计算权重梯度:
[0034][0035]在一些可选的实施方式中,根据原权重和对应的权重梯度,得到更新后的权重,包括:
[0036]对于网络模型的权重可变的全连接层,卷积层对应可变参数层更新后的权重值:
[0037][0038]本申请实施例提供的一种边缘设备的网络模型结构,该网络模型包括多个权重固化的卷积层,和权重可变的全连接层,在每相邻两个卷积层之间设置一个可变参数层。
[0039]上述技术方案中,边缘设备的网络模型包括多个权重固化的卷积层,每个卷积层
的输出端设置有可变参数层,可变参数层的权重可变,最后一个卷积层的输出端连接全连接层,并且该全连接层也设置为权重可变。本实施例的网络模型在进行训练时,能够微调整个网络中的多个权重,从而提高网络模型识别性能。
[0040]本申请实施例提供的一种边缘设备的网络模型的训练装置,包括:
[0041]推理模块,用于将训练数据输入网络模型,通过前向推理得到预测值;
[0042]损失计算模块,用于计算预测值和真实标签间的损失;
[0043]梯度计算模块,用于通过反向传播计算得到网络模型的权重梯度;
[0044]更新参数模块,用于根据原权重和对应的权重梯度,得到更新后的权重。
[0045]上述技术方案中,边缘设备的网络模型包括多个权重固化的卷积层,每个卷积层的输出端设置有可变参数层,可变参数层的权重可变,最后一个卷积层的输出端连接全连接层,并且该全连接层也设置为权重可变。在通过推理模块、损失计算模块、梯度计算模块和更新参数模块,实现网络模型的训练时,卷积层的权重固化,不做更新,主要的前向和反向传播部分均为量化数据类型,在不改变原有卷积层的速度的基础上,在每层卷积后加一个可学习的权重参数,迭代更新该权重参数,达到变换特征分布的目的,本实施例的训练装置能够在训练过程中微调整个网络中的多个权重,从而提高网络模型识别性能。
[0046]在一些可选的实施方式中,推理模块,还用于对于网络模型的卷积层f(
·
),通过前向推理得到预测值y:y=f(x)+r;其中,r为卷积层对应可变参数层的权重值,x为本轮迭代的输入。
[0047]在一些可选的实施方式中,损失计算模块,还用于对于网络模型的卷积层f(
·
),计算损失L:其中,为真实标签值。
[0048]在一些可选的实施方式中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种边缘设备的网络模型的训练方法,其特征在于,所述网络模型包括多个权重固化的卷积层和权重可变的全连接层,在每相邻两个卷积层之间设置一个可变参数层,所述方法包括:将训练数据输入所述网络模型,通过前向推理得到预测值,计算预测值和真实标签间的损失,再通过反向传播计算得到所述网络模型的权重梯度;根据原权重和对应的权重梯度,得到更新后的权重。2.如权利要求1所述的方法,其特征在于,所述将训练数据输入所述网络模型,通过前向推理得到预测值,包括:对于所述网络模型的卷积层f(
·
),通过前向推理得到预测值y:y=f(x)+r;其中,r为卷积层对应可变参数层的权重值,x为本轮迭代的输入。3.如权利要求2所述的方法,其特征在于,所述计算预测值和真实标签间的损失,包括:对于所述网络模型的卷积层f(
·
),计算损失L:其中,为真实标签值。4.如权利要求3所述的方法,其特征在于,所述通过反向传播计算得到所述网络模型的权重梯度,包括:对于所述网络模型的卷积层f(
·
),通过反向传播计算权重梯度:5.如权利要求4所述的方法,其特征在于,所述根据原权重和对应的权重梯度,得到更新后的权重,包括:对于所述网络模型的卷积层f(
·
),卷积层对应可变参数层更新后的权重值:6.如权利要求1所述的方法,其特征在于,所述将训练数据输入所述网络模型,通过前向推理得到预测值,包括:对于所述网络模型的权重可变的全连接层,通过前向推理得到预测值y:y=W*x;其中,W为全连接层的权重,x为本轮迭代的输入。7.如权利要求6所述的方法,其特征在于,所...

【专利技术属性】
技术研发人员:刘建伟
申请(专利权)人:爱芯元智半导体上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1