混合神经网络模型的训练方法、应用方法及训练装置制造方法及图纸

技术编号：38096166 阅读：11 留言：0更新日期：2023-07-06 09:10

提供了一种混合神经网络模型的训练方法、应用方法及训练装置。该训练方法包括：在Transformer的下采样后和/或前馈网络后设置多个压缩核，形成第一剪枝卷积层；根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重，对权重的第一目标梯度进行计算，第一目标梯度包括第一梯度项和第二梯度项，其中第一梯度项与原始梯度相关，第二梯度项与惩罚梯度相关，第一剪枝矩阵和所述第二剪枝矩阵分别对应权重的第一权重分项和第二权重分项；如果第一权重分项和第二权重分项的组合对小于第一预设阈值，则将第一梯度项设置为零；对第一目标梯度进行更新，以对Transformer进行训练。本申请实施例有助于减少计算量和参数量。有助于减少计算量和参数量。有助于减少计算量和参数量。

全部详细技术资料下载

【技术实现步骤摘要】
混合神经网络模型的训练方法、应用方法及训练装置

[0001]本申请实施例涉及神经网络
，并且更为具体地，涉及一种混合神经网络模型的训练方法、应用方法及训练装置。

技术介绍

[0002]人工智能可以包括卷积神经网络、循环神经网络、Transformer等神经网络模型，被广泛应用于机器人、自然语言处理、计算机视觉、图像处理等领域。神经网络模型通常需要部署在端侧设备上得以应用。但目前神经网络模型结构整体的计算量与参数量依然较大，不利于在端侧设备上部署。

技术实现思路

[0003]本申请实施例提供一种混合神经网络模型的训练方法、应用方法及训练装置。下面对本申请实施例涉及的各个方面进行介绍。
[0004]第一方面，提供一种混合神经网络模型的训练方法，所述混合神经网络模型包括：第一网络模型；第二网络模型，所述第二网络模型的输入向量为所述第一网络模型的输出向量，所述第二网络模型为Transformer，且所述Transformer在时间和/或空间上具有线性复杂度；所述训练方法包括：在所述Transformer的下采样后和/或前馈网络后设置多个压缩核，形成第一剪枝卷积层，所述多个压缩核初始化为单位矩阵；根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重，对所述权重的第一目标梯度进行计算，所述第一目标梯度包括第一梯度项和第二梯度项，其中所述第一梯度项与原始梯度相关，所述第二梯度项与惩罚梯度相关，所述第一剪枝矩阵和所述第二剪枝矩阵分别对应所述权重的第一权重分项和第二权重分项，且所述第一权重分项和第二权重分项的初...

【技术保护点】

【技术特征摘要】
1.一种混合神经网络模型的训练方法，其特征在于，所述混合神经网络模型包括：第一网络模型；第二网络模型，所述第二网络模型的输入向量为所述第一网络模型的输出向量，所述第二网络模型为Transformer，且所述Transformer在时间和/或空间上具有线性复杂度；所述训练方法包括：在所述Transformer的下采样和/或前馈网络后设置多个压缩核，形成第一剪枝卷积层，所述压缩核初始化为单位矩阵；根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重，对所述权重的第一目标梯度进行计算，所述第一目标梯度包括第一梯度项和第二梯度项，其中所述第一梯度项与原始梯度相关，所述第二梯度项与惩罚梯度相关，所述第一剪枝矩阵和所述第二剪枝矩阵分别对应所述权重的第一权重分项和第二权重分项，且所述第一权重分项和第二权重分项的初始化值相等；如果所述第一权重分项和所述第二权重分项的组合对小于第一预设阈值，则将所述第一梯度项设置为零；对所述第一目标梯度进行更新，以对所述Transformer进行训练。2.根据权利要求1所述的训练方法，其特征在于，第一网络模型为卷积神经网络，所述训练方法还包括:在所述卷积神经网络的卷积层后设置多个压缩核，形成第二剪枝卷积层，所述压缩核初始化为单位矩阵；对卷积核的权重进行第二目标梯度计算，所述第二目标梯度包括：第三梯度项和第四梯度项，其中所述第三梯度项与原始梯度相关，所述第四梯度项和惩罚梯度相关；如果所述权重的二范数小于第二预设阈值，则将所述第三梯度项设置为零；对所述第二目标梯度进行更新，以对所述卷积神经网络进行训练。3.根据权利要求1所述的训练方法，其特征在于，所述混合神经网络模型还包括：第三网络模型，所述第三网络模型的输出向量为所述第一网络模型的输入向量，且所述第三网络模型为Transformer，所述Transformer在时间和/或空间上具有线性复杂度。4.根据权利要求1
‑
3中任一项所述的训练方法，其特征在于，所述Transformer采用以下方式中的任一项，以使所述Transformer在时间和/或空间上具有线性复杂度：采用高斯核函数代替矩阵点积，采用Nystromformer矩阵分解的线性化方式代替矩阵点积。5.一种混合神经网络模型的应用方法，其特征在于，包括：获取待处理的特征向量；将所述特征向量输入预先训练好的所述混合神经网络模型进行处理，得到所述特征向量对应的输出结果；其中，所述混合神经网络模型为应用权利要求1
‑
4中任一项所述的训练方法训练得到的模型。6.一种混合神经网络模型的训练装置，其特征在于，所述训练装置包括：第一网络模型单元；第二网络模型单元，所述第二网络模型单元的输入向量为所述第一网络模型单元的输
出向量，所述第二网络模型为Transformer，且所述...

【专利技术属性】
技术研发人员：欧俊宏，
申请(专利权)人：哲库科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人