一种神经网络模型的生成方法及系统技术方案

技术编号：39324854 阅读：8 留言：0更新日期：2023-11-12 16:03

本申请提供一种神经网络模型的生成方法及系统，应用于计算机领域。该方法包括：对第一神经网络模型进行压缩，得到第二神经网络模型；其中，第二神经网络模型包括N个模型层，N个模型层对应第一神经网络模型中的部分模型层，N个模型层中的任意一个模型层的参数量小于第一神经网络模型中对应的模型层的参数量，N个模型层中至少两个模型层的参数量不同，N为大于1的整数；对所述第二神经网络模型中至少一个模型层的参数进行复用，得到第三神经网络模型；其中，第三神经网络模型包括M个模型层，M个模型层中的至少两个模型层的参数相同，N个模型层包含在M个模型层中，M为大于N的整数。该方法能够提升稠密模型的压缩灵活性，提升模型精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络模型的生成方法及系统

[0001]本申请涉及计算机
，尤其涉及一种神经网络模型的生成方法及系统。

技术介绍

[0002]基于Transformer的预训练模型被广泛的应用于在自然语言处理、计算机视觉与多模态等领域。例如，使用大规模数据集通过自监督学习方式预训练出一个Transformer稠密模型，然后结合任务进行模型适配已经成为一种人工智能应用的常用方案。
[0003]由于Transformer稠密模型复杂度高，对计算和存储能力的要求也高，在实际部署模型前可以对Transformer稠密模型进行压缩处理，即从Transformer稠密模型中提取训练一个子模型，但如何保证Transformer稠密模型压缩之后的模型精度成为一个值得研究的问题。

技术实现思路

[0004]本申请提供一种通信方法及装置，能够提升压缩的神经网络模型的精度。
[0005]第一方面，本申请实施例提供一种神经网络模型的生成方法，该方法包括：对第一神经网络模型进行压缩，得到第二神经网络模型；对所述第二神经网络模型中至少一个模型层的参数进行复用，得到第三神经网络模型。
[0006]其中，所述第二神经网络模型包括N个模型层，所述N个模型层对应所述第一神经网络模型中的部分模型层，所述N个模型层中的任意一个模型层的参数量小于所述第一神经网络模型中对应的模型层的参数量，所述N个模型层中至少两个模型层的参数量不同，所述N为大于1的整数。所述第三神经网络模型包括M个模型层，所述M个模型层中的至少两个模型层的...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的生成方法，其特征在于，包括：对第一神经网络模型进行压缩，得到第二神经网络模型；其中，所述第二神经网络模型包括N个模型层，所述N个模型层对应所述第一神经网络模型中的部分模型层，所述N个模型层中的任意一个模型层的参数量小于所述第一神经网络模型中对应的模型层的参数量，所述N个模型层中至少两个模型层的参数量不同，所述N为大于1的整数；对所述第二神经网络模型中至少一个模型层的参数进行复用，得到第三神经网络模型；其中，所述第三神经网络模型包括M个模型层，所述M个模型层中的至少两个模型层的参数相同，所述N个模型层包含在所述M个模型层中，所述M为大于所述N的整数。2.如权利要求1所述的方法，其特征在于，所述对第一神经网络模型进行压缩，得到第二神经网络模型，包括：根据压缩比例集合对所述第一神经网络模型进行压缩，得到所述第二神经网络模型；其中，所述压缩比例集合包括所述N个模型层中每个模型层对应的压缩比例，所述第一神经网络中的第一模型层与所述第二神经网络中的第二模型层对应，所述第二模型层的参数包含于所述第一模型层的参数，所述第二模型层的参数量是基于所述第二模型层对应的压缩比例，以及所述第一模型层的参数量确定的。3.如权利要求2所述的方法，其特征在于，所述第一模型层的参数包括所述第二模型层的参数，所述第二模型层的参数的重要性高于所述第一模型层中除所述第二模型层的参数之外的参数的重要性。4.如权利要求2或3所述的方法，其特征在于，所述第二神经网络模型符合目标压缩条件，所述目标压缩条件是从第三方服务器中获取的。5.如权利要求1所述的方法，其特征在于，所述对第一神经网络模型进行压缩，得到第二神经网络模型，包括：根据重要性阈值集合对所述第一神经网络模型进行压缩，得到所述第二神经网络模型；其中，所述重要性阈值集合包括所述N个模型层中每个模型层对应的重要性阈值，所述第一神经网络中的第一模型层与所述第二神经网络中的第二模型层对应，所述第二模型层的参数为所述第一模型层中的部分参数，所述第一模型层中的部分参数的重要性高于所述第二模型层对应的重要性阈值。6.如权利要求2
‑
5任一项所述的方法，其特征在于，所述第一神经网络模型为Transformer稠密模型，所述第一模型层的参数包括多头自注意力模块的多个第一权重参数和多层全连接模块的多个第二权重参数；其中，所述多个第一权重参数的重要性是基于所述多头自注意力模块关联的向量所确定的，所述多头自注意力模块关联的向量包括查询、键和值中的一个或多个。7.如权利要求6所述的方法，其特征在于，所述M个模型层中参数相同的两个模型层中的至少一个模型层还包括特征变换模块。8.如权利要求1
‑
7任一项所述的方法，其特征在于，所述第一神经网络模型是基于子网...

【专利技术属性】
技术研发人员：林菁，姚益武，王兵，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人