System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识蒸馏的模型构建方法、装置、设备及介质制造方法及图纸_技高网

基于知识蒸馏的模型构建方法、装置、设备及介质制造方法及图纸

技术编号:41329310 阅读:4 留言:0更新日期:2024-05-13 15:07
本发明专利技术涉及人工智能模型压缩技术领域,其公开了一种基于知识蒸馏的模型构建方法、装置、设备及介质。其中,该方法包括:通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;将所述待迁移网络参数迁移至学生模型,并对所述学生模型进行数据填充以得到初始学生模型;获取预设的训练数据,根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型;获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果。本发明专利技术实施例不仅可以减小模型的大小,构建的模型能够在有限资源的设备中实现部署,而且可以提高模型的推理速度,提升用户体验。

【技术实现步骤摘要】

本专利技术实施例涉及人工智能模型压缩,尤其涉及一种基于知识蒸馏的模型构建方法、装置、设备及介质


技术介绍

1、在人工智能领域,人工智能模型是较为常用的智能化载体,需要将其应用于各种智能设备上实现智能化运行。但将人工智能模型应用于智能设备上需要考虑设备硬件与模型的匹配度,例如大型人工智能模型(简称大模型)若在有限的硬件资源的设备上运行,需要占用较多的内存资源,而且推理速度慢,无法发挥出大模型推理计算的实际效果与性能,达不到用户期待的运行效果。


技术实现思路

1、本专利技术实施例提供了一种基于知识蒸馏的模型构建方法、装置、设备及介质,旨在解决现有大模型在有限的硬件资源设备运行时占用内存资源较多、推理速度较慢的问题。

2、第一方面,本专利技术实施例提供了一种基于知识蒸馏的模型构建方法,其包括:

3、通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;

4、将所述待迁移网络参数迁移至学生模型,并对所述学生模型进行数据填充以得到初始学生模型;

5、获取预设的训练数据,根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型;

6、获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果。

7、第二方面,本专利技术实施例还提供了一种基于知识蒸馏的模型构建装置,其包括:

8、提取单元,用于通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;p>

9、迁移填充单元,用于将所述待迁移网络参数迁移至学生模型,并对所述学生模型进行数据填充以得到初始学生模型;

10、训练验证单元,用于获取预设的训练数据,根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型;

11、推理单元,用于获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果。

12、第三方面,本专利技术实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。

13、第四方面,本专利技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现上述方法。

14、本专利技术实施例提供了一种基于知识蒸馏的模型构建方法、装置、设备及介质。其中,所述方法包括:通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;将所述待迁移网络参数迁移至学生模型,并对所述学生模型进行数据填充以得到初始学生模型;获取预设的训练数据,根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型;获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果。本专利技术实施例的技术方案,先通过混合步长提取法从教师模型中提取网络参数,将提取的网络参数迁移至学生模型中并进行数据填充以得到初始学生模型,然后利用训练数据对初始学生模型进行训练和验证得到目标学生模型,最后通过验证数据集验证目标学生模型的实际推理结果。通过混合步长提取法将大模型的教师模型的网络参数迁移至小模型的学生模型以进行知识蒸馏实现模型压缩,不仅维持了学生模型的表征能力,还可以减小模型的大小,使模型在运行时占用较少的内存资源,能够在有限资源的设备中实现部署;而且学生模型通过进一步的迭代训练及验证,不仅保证了一定的推理精度,而且还提高了模型的推理速度。

本文档来自技高网...

【技术保护点】

1.一种基于知识蒸馏的模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述混合步长提取法包括第一间隔步长提取法和第二间隔步长提取法;所述通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述教师模型和所述训练数据对所述训练学生模型进行验证以得到目标学生模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述训练学生模型、所述教师模型以及所述训练数据计算目标损失,包括:

6.根据权利要求1所述的方法,其特征在于,所述对所述学生模型进行数据填充以得到初始学生模型,包括:

7.根据权利要求1所述的方法,其特征在于,所述获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果的步骤之后,还包括:

8.一种基于知识蒸馏的模型构建装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种基于知识蒸馏的模型构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述混合步长提取法包括第一间隔步长提取法和第二间隔步长提取法;所述通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述教师模型和所述训练数据对所述训练学生模型进行验证以得到目标学生模型,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述训练学生模型、所述教师模型以及所述训练数据计算目标损失,包括:

【专利技术属性】
技术研发人员:辛大奇冯志民
申请(专利权)人:深圳市和讯华谷信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1