System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术实施例涉及人工智能模型压缩,尤其涉及一种基于知识蒸馏的模型构建方法、装置、设备及介质。
技术介绍
1、在人工智能领域,人工智能模型是较为常用的智能化载体,需要将其应用于各种智能设备上实现智能化运行。但将人工智能模型应用于智能设备上需要考虑设备硬件与模型的匹配度,例如大型人工智能模型(简称大模型)若在有限的硬件资源的设备上运行,需要占用较多的内存资源,而且推理速度慢,无法发挥出大模型推理计算的实际效果与性能,达不到用户期待的运行效果。
技术实现思路
1、本专利技术实施例提供了一种基于知识蒸馏的模型构建方法、装置、设备及介质,旨在解决现有大模型在有限的硬件资源设备运行时占用内存资源较多、推理速度较慢的问题。
2、第一方面,本专利技术实施例提供了一种基于知识蒸馏的模型构建方法,其包括:
3、通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;
4、将所述待迁移网络参数迁移至学生模型,并对所述学生模型进行数据填充以得到初始学生模型;
5、获取预设的训练数据,根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型;
6、获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果。
7、第二方面,本专利技术实施例还提供了一种基于知识蒸馏的模型构建装置,其包括:
8、提取单元,用于通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数;
...【技术保护点】
1.一种基于知识蒸馏的模型构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述混合步长提取法包括第一间隔步长提取法和第二间隔步长提取法;所述通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述教师模型和所述训练数据对所述训练学生模型进行验证以得到目标学生模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练学生模型、所述教师模型以及所述训练数据计算目标损失,包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述学生模型进行数据填充以得到初始学生模型,包括:
7.根据权利要求1所述的方法,其特征在于,所述获取验证数据集,将所述验证数据集输入所述目标学生模型中进行推理以得到推理结果的步骤之后,还包括:
8.一种基于知识蒸馏的模型构建装置,其
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种基于知识蒸馏的模型构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述混合步长提取法包括第一间隔步长提取法和第二间隔步长提取法;所述通过混合步长提取法从教师模型中提取网络参数以得到待迁移网络参数,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述教师模型对所述初始学生模型进行训练和验证以得到目标学生模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述教师模型和所述训练数据对所述训练学生模型进行验证以得到目标学生模型,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述训练学生模型、所述教师模型以及所述训练数据计算目标损失,包括:
【专利技术属性】
技术研发人员:辛大奇,冯志民,
申请(专利权)人:深圳市和讯华谷信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。