混合神经网络模型的训练方法、应用方法及训练装置制造方法及图纸

技术编号:38096166 阅读:11 留言:0更新日期:2023-07-06 09:10
提供了一种混合神经网络模型的训练方法、应用方法及训练装置。该训练方法包括:在Transformer的下采样后和/或前馈网络后设置多个压缩核,形成第一剪枝卷积层;根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重,对权重的第一目标梯度进行计算,第一目标梯度包括第一梯度项和第二梯度项,其中第一梯度项与原始梯度相关,第二梯度项与惩罚梯度相关,第一剪枝矩阵和所述第二剪枝矩阵分别对应权重的第一权重分项和第二权重分项;如果第一权重分项和第二权重分项的组合对小于第一预设阈值,则将第一梯度项设置为零;对第一目标梯度进行更新,以对Transformer进行训练。本申请实施例有助于减少计算量和参数量。有助于减少计算量和参数量。有助于减少计算量和参数量。

【技术实现步骤摘要】
混合神经网络模型的训练方法、应用方法及训练装置


[0001]本申请实施例涉及神经网络
,并且更为具体地,涉及一种混合神经网络模型的训练方法、应用方法及训练装置。

技术介绍

[0002]人工智能可以包括卷积神经网络、循环神经网络、Transformer等神经网络模型,被广泛应用于机器人、自然语言处理、计算机视觉、图像处理等领域。神经网络模型通常需要部署在端侧设备上得以应用。但目前神经网络模型结构整体的计算量与参数量依然较大,不利于在端侧设备上部署。

技术实现思路

[0003]本申请实施例提供一种混合神经网络模型的训练方法、应用方法及训练装置。下面对本申请实施例涉及的各个方面进行介绍。
[0004]第一方面,提供一种混合神经网络模型的训练方法,所述混合神经网络模型包括:第一网络模型;第二网络模型,所述第二网络模型的输入向量为所述第一网络模型的输出向量,所述第二网络模型为Transformer,且所述Transformer在时间和/或空间上具有线性复杂度;所述训练方法包括:在所述Transformer的下采样后和/或前馈网络后设置多个压缩核,形成第一剪枝卷积层,所述多个压缩核初始化为单位矩阵;根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重,对所述权重的第一目标梯度进行计算,所述第一目标梯度包括第一梯度项和第二梯度项,其中所述第一梯度项与原始梯度相关,所述第二梯度项与惩罚梯度相关,所述第一剪枝矩阵和所述第二剪枝矩阵分别对应所述权重的第一权重分项和第二权重分项,且所述第一权重分项和第二权重分项的初始化值相等;如果所述第一权重分项和所述第二权重分项的组合对小于第一预设阈值,则将所述第一梯度项设置为零;对所述第一目标梯度进行更新,以对所述Transformer进行训练。
[0005]第二方面,提供一种混合神经网络模型的应用方法,包括:获取待处理的特征向量;将所述特征向量输入预先训练好的所述混合神经网络模型进行处理,得到所述特征向量对应的输出结果;其中,所述混合神经网络模型为应用第一方面所述的训练方法训练得到的模型。
[0006]第三方面,提供一种混合神经网络模型的训练装置,包括:第一网络模型单元;第二网络模型单元,所述第二网络模型单元的输入向量为所述第一网络模型单元的输出向量,所述第二网络模型为Transformer,且所述Transformer在时间和/或空间上具有线性复杂度;所述Transformer包括:第一剪枝卷积层,由设置在下采样后和/或前馈网络后的多个压缩核组成,所述多个压缩核初始化为单位矩阵;第一计算模块,用于执行以下操作:根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重,对所述权重的第一目标梯度进行计算,所述第一目标梯度包括第一梯度项和第二梯度项,其中所述第一梯度项与原始梯度相关,所述第二梯度项与惩罚梯度相关,所述第一剪枝矩阵和所述第二剪枝矩阵分别对应所述权
重的第一权重分项和第二权重分项,且所述第一权重分项和第二权重分项的初始化值相等;如果所述第一权重分项和所述第二权重分项的组合对小于第一阈值,则将所述第一梯度项设置为零;对所述第一目标梯度进行更新,以对所述Transformer进行训练。
[0007]第四方面,提供一种混合神经网络模型的应用装置,包括:获取模块,用于获取待处理的特征向量;模型处理模块,用于将所述特征向量输入预先训练好的所述混合神经网络模型进行处理,得到所述特征向量对应的输出结果;其中,所述混合神经网络模型为应用第一方面所述的训练方法训练得到的模型。
[0008]第五方面,提供一种电子设备,包括:存储器,用于存储指令;处理器,用于执行所述存储器中存储的指令,使得所述电子设备执行如第一方面或第二方面所述的方法。
[0009]第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于执行如第一方面或第二方面所述的方法。
[0010]本申请实施例对于线性Transformer以压缩剪枝矩阵维度的方式进行模型剪枝,有助于减少计算量和参数量,使神经网络混合模型同时具备可在端侧设备部署的模型轻量化特性与Transformer的高精度特性。
附图说明
[0011]图1是卷积神经网络梯度重置与重参数化剪枝的示意图。
[0012]图2是Softmax

free自注意力机制计算的流程示意图。
[0013]图3是本申请实施例提供的混合神经网络模型的训练方法的流程示意图。
[0014]图4是图3中的一种可能的混合神经网络模型的结构示意图。
[0015]图5是线性自注意力机制计算的流程示意图。
[0016]图6是图4模型重参数化后的结构示意图。
[0017]图7是图6的线性自注意力剪枝后采样计算的流程示意图。
[0018]图8是本申请实施例提供的混合神经网络模型的应用方法的流程示意图。
[0019]图9是本申请实施例提供的混合神经网络模型的训练装置的示意图。
[0020]图10是本申请实施例提供的混合神经网络模型的应用装置的示意图。
[0021]图11是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
[0023]首先对本申请实施例中涉及到的应用场景进行介绍。
[0024]人工智能是计算机科学的一个分支,可以用来研究各种智能机器的设计原理与实现方法,使机器具有感知、推理和决策功能。人工智能被广泛应用于机器人、自然语言处理、计算机视觉、图像处理等领域。
[0025]人工智能可以包括机器学习,机器学习是基于统计学角度的算法分析模型,该算法分析模型可以分为监督学习模型、无监督学习模型及强化学习模型等。深度学习是机器学习领域中一个新的研究方向,其动机在于建立、模拟人脑进行分析学习的神经网络。根据算法模型的不同,深度学习可以分为卷积神经网络(convolutional neural network,
CNN)、循环神经网络(recurrent neural network,RNN)以及Transformer等。
[0026]神经网络又称为人工神经网络,是一种模仿动物神经网络行为特征、进行分布式并行信息处理的算法数学模型。神经网络模型由神经元及神经元之间相互连接关系构成,可以通过调整神经元之间的连接方式,达到处理信息的目的,并具有自学习和自适应的能力。
[0027]CNN是深度学习中的代表算法之一,是一种带有卷积结构的神经网络。卷积神经网络中,隐含层中的卷积层是实现卷积神经网络特征提取功能的核心模块。卷积层可以是卷积神经网络中对输入信号进行卷积计算处理的神经单元。卷积计算可以是用一个固定大小的矩形区去席卷原始数据,将原始数据分成与矩形区大小相同的小块,然后将这些小块和矩形区相乘输出一个卷积值,从而可以节约计算量。应理解,矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合神经网络模型的训练方法,其特征在于,所述混合神经网络模型包括:第一网络模型;第二网络模型,所述第二网络模型的输入向量为所述第一网络模型的输出向量,所述第二网络模型为Transformer,且所述Transformer在时间和/或空间上具有线性复杂度;所述训练方法包括:在所述Transformer的下采样和/或前馈网络后设置多个压缩核,形成第一剪枝卷积层,所述压缩核初始化为单位矩阵;根据第一剪枝矩阵和第二剪枝矩阵设置卷积核的权重,对所述权重的第一目标梯度进行计算,所述第一目标梯度包括第一梯度项和第二梯度项,其中所述第一梯度项与原始梯度相关,所述第二梯度项与惩罚梯度相关,所述第一剪枝矩阵和所述第二剪枝矩阵分别对应所述权重的第一权重分项和第二权重分项,且所述第一权重分项和第二权重分项的初始化值相等;如果所述第一权重分项和所述第二权重分项的组合对小于第一预设阈值,则将所述第一梯度项设置为零;对所述第一目标梯度进行更新,以对所述Transformer进行训练。2.根据权利要求1所述的训练方法,其特征在于,第一网络模型为卷积神经网络,所述训练方法还包括:在所述卷积神经网络的卷积层后设置多个压缩核,形成第二剪枝卷积层,所述压缩核初始化为单位矩阵;对卷积核的权重进行第二目标梯度计算,所述第二目标梯度包括:第三梯度项和第四梯度项,其中所述第三梯度项与原始梯度相关,所述第四梯度项和惩罚梯度相关;如果所述权重的二范数小于第二预设阈值,则将所述第三梯度项设置为零;对所述第二目标梯度进行更新,以对所述卷积神经网络进行训练。3.根据权利要求1所述的训练方法,其特征在于,所述混合神经网络模型还包括:第三网络模型,所述第三网络模型的输出向量为所述第一网络模型的输入向量,且所述第三网络模型为Transformer,所述Transformer在时间和/或空间上具有线性复杂度。4.根据权利要求1

3中任一项所述的训练方法,其特征在于,所述Transformer采用以下方式中的任一项,以使所述Transformer在时间和/或空间上具有线性复杂度:采用高斯核函数代替矩阵点积,采用Nystromformer矩阵分解的线性化方式代替矩阵点积。5.一种混合神经网络模型的应用方法,其特征在于,包括:获取待处理的特征向量;将所述特征向量输入预先训练好的所述混合神经网络模型进行处理,得到所述特征向量对应的输出结果;其中,所述混合神经网络模型为应用权利要求1

4中任一项所述的训练方法训练得到的模型。6.一种混合神经网络模型的训练装置,其特征在于,所述训练装置包括:第一网络模型单元;第二网络模型单元,所述第二网络模型单元的输入向量为所述第一网络模型单元的输
出向量,所述第二网络模型为Transformer,且所述...

【专利技术属性】
技术研发人员:欧俊宏
申请(专利权)人:哲库科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1