边缘设备的网络模型的训练方法、装置及电子设备制造方法及图纸

技术编号：38129665 阅读：21 留言：0更新日期：2023-07-08 09:36

本申请提供一种边缘设备的网络模型的训练方法、装置及电子设备，边缘设备的网络模型包括多个权重固化的卷积层，每个卷积层的输出端设置有可变参数层，可变参数层的权重可变，最后一个卷积层的输出端连接全连接层，并且该全连接层也设置为权重可变。在边缘设备上进行网络模型的训练时，卷积层的权重固化，不做更新，主要的前向和反向传播部分均为量化数据类型，在不改变原有卷积层的速度的基础上，在每层卷积后加一个可学习的权重参数，迭代更新该权重参数，达到变换特征分布的目的，本实施例的模型微调方案能够微调整个网络中的多个权重，从而提高网络模型识别性能。从而提高网络模型识别性能。从而提高网络模型识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
边缘设备的网络模型的训练方法、装置及电子设备

[0001]本申请涉及边缘计算
，具体而言，涉及一种边缘设备的网络模型的训练方法、装置及电子设备。

技术介绍

[0002]随着智能化的普及，个人的智能设备大部分时间都处于闲置状态。将训练任务从云端迁移到边缘上可以充分利用边缘设备的算力。边缘上的数据量远少于云端，训练模型所需时间通常不会很长。减少需要上传的数据，训练效率也能得到提高。同时个人敏感数据不用再上传到云端，隐私问题能够很好的得到解决。边缘设备上的存储和计算资源是有限的，为了在资源受限的设备上有效的训练神经网络模型，可以采用模型微调技术。
[0003]模型微调(finetune)技术，指先在服务器集群上用大规模数据集训练一个预训练模型，然后在众多下游任务上，仅通过微调少量参数即可完成目标任务的适配。边缘设备的边缘芯片一般追求低功耗和低面积，往往仅能用于模型的推理，而难以支持模型的训练。但在一些场景(如环境变化剧烈的车载环境)中，实时采集到的数据可能与模型训练时的数据分布有较大差异，使得模型的性能下降，这时模型微调就显得至关重要。
[0004]目前在边缘设备上做模型微调，一般只能做到微调最后一层卷积层，模型性能距离微调整个网络有较大差距，边缘设备的网络模型识别性能较差。

技术实现思路

[0005]本申请实施例的目的在于提供一种边缘设备的网络模型的训练方法、装置及电子设备，用以解决现有技术中在边缘设备上做模型微调，一般只能做到微调最后一层卷积层，模型性能距离微调整个网络有较大差距，...

【技术保护点】

【技术特征摘要】
1.一种边缘设备的网络模型的训练方法，其特征在于，所述网络模型包括多个权重固化的卷积层和权重可变的全连接层，在每相邻两个卷积层之间设置一个可变参数层，所述方法包括：将训练数据输入所述网络模型，通过前向推理得到预测值，计算预测值和真实标签间的损失，再通过反向传播计算得到所述网络模型的权重梯度；根据原权重和对应的权重梯度，得到更新后的权重。2.如权利要求1所述的方法，其特征在于，所述将训练数据输入所述网络模型，通过前向推理得到预测值，包括：对于所述网络模型的卷积层f(
·
)，通过前向推理得到预测值y：y＝f(x)+r；其中，r为卷积层对应可变参数层的权重值，x为本轮迭代的输入。3.如权利要求2所述的方法，其特征在于，所述计算预测值和真实标签间的损失，包括：对于所述网络模型的卷积层f(
·
)，计算损失L：其中，为真实标签值。4.如权利要求3所述的方法，其特征在于，所述通过反向传播计算得到所述网络模型的权重梯度，包括：对于所述网络模型的卷积层f(
·
)，通过反向传播计算权重梯度：5.如权利要求4所述的方法，其特征在于，所述根据原权重和对应的权重梯度，得到更新后的权重，包括：对于所述网络模型的卷积层f(
·
)，卷积层对应可变参数层更新后的权重值：6.如权利要求1所述的方法，其特征在于，所述将训练数据输入所述网络模型，通过前向推理得到预测值，包括：对于所述网络模型的权重可变的全连接层，通过前向推理得到预测值y：y＝W*x；其中，W为全连接层的权重，x为本轮迭代的输入。7.如权利要求6所述的方法，其特征在于，所...

【专利技术属性】
技术研发人员：刘建伟，
申请(专利权)人：爱芯元智半导体上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人