用于执行目标任务的模型的训练方法、装置及设备制造方法及图纸

技术编号：40593014 阅读：3 留言：0更新日期：2024-03-12 21:54

本公开提供了一种用于执行目标任务的模型的训练方法、装置及设备，涉及人工智能技术领域，尤其涉及语音处理、自然语言处理、图像处理领域。实现方案为：获取用于执行目标任务的第一教师模型；基于多个第一量化因子对第一教师模型进行多次离线量化，以相应获得多个第一量化模型；确定每个第一量化模型的第一预设指标，以在多个第一量化模型中确定第一预设指标满足第一预设条件的多个第二量化模型，并相应获取多个第二量化因子；针对每个第二量化因子，执行量化操作，以获得多个第二量化因子对应的多个第三量化模型；以及将多个第三量化模型中的预设指标最优的第三量化模型确定为目标量化模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及语音处理、自然语言处理、图像处理领域，具体涉及一种用于执行目标任务的模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、模型压缩是指在保证模型精度和性能的前提下，通过减少模型的大小、降低模型复杂度、优化模型结构等方式，实现模型压缩的方法。模型压缩的主要目的是减小模型的存储空间和计算资源需求，提高模型的推理速度和效率，同时保持模型的准确性和性能。模型压缩在深度学习领域具有广泛的应用价值，例如在嵌入式设备、移动设备、物联网等领域中，由于存储空间和计算资源的限制，模型压缩显得尤为重要。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

1、本公开提供了一种用于执行目标任务的模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本

3、根据本公开的另一方面，提供了一种用于执行目标任务的模型的训练装置，其中，目标任务为语音处理、自然语言处理以及图像处理中的一项，包括：第一获取单元，被配置为获取用于执行目标任务的第一教师模型，第一教师模型基于与目标任务相应的多个第一样本数据训练获得；第二获取单元，被配置为基于多个第一量化因子对第一教师模型进行多次离线量化，以相应获得多个第一量化模型，其中，多个第一量化因子各不相同；第一确定单元，被配置为确定多个第一量化模型中每个第一量化模型的第一预设指标，以在多个第一量化模型中确定第一预设指标满足第一预设条件的多个第二量化模型，并相应获取多个第二量化因子，其中，多个第二量化因子包括多个第二量化模型中的每个对应的第一量化因子；第一执行单元，被配置为针对多个第二量化因子中的每个第二量化因子，执行量化操作，以获得多个第二量化因子对应的多个第三量化模型，第一执行单元包括：第一获取子单元，被配置为将该第二量化因子作为第一教师模型的在线量化的初始量化因子，基于该初始量化因子对第一教师模型进行初始量化，以获得初始量化模型；第二获取子单元，被配置为获取相应于目标任务的多个第二样本数据；以及第一训练子单元，被配置为基于多个第二样本数据，对初始量化模型进行训练，以获得该第二量化因子对应的第三量化模型；以及第二确定单元，被配置为将多个第三量化模型中的预设指标最优的第三量化模型确定为目标量化模型。

4、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述用于执行目标任务的模型的训练方法。

5、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述用于执行目标任务的模型的训练方法。

6、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，计算机程序在被处理器执行时实现上述用于执行目标任务的模型的训练方法。

7、根据本公开的一个或多个实施例，通过对一个教师模型，获取具有较好效果的多个离线量化的量化参数，以将其分别作为在线量化的初始量化参数；分别针对不同的初始量化参数，进行在线量化，并分别确定每个量化模型的预设指标，从中选取预设指标最优(例如准确率最高)的作为目标量化模型，从而能够避免随机初始化量化因子而陷入局部最优，进一步提升量化模型的准确性。

8、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种用于执行目标任务的模型的训练方法，其中，所述目标任务为语音处理、自然语言处理以及图像处理中的一项，所述方法包括：

2.根据权利要求1所述的方法，其中，所述多个第一量化因子分别对应于所述第一教师模型的多个网络层，并且所述多个第一量化因子中的每个第一量化因子基于该第一量化因子对应的网络层的参数分布确定。

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述获取用于执行所述目标任务的多个第一教师模型包括：

5.根据权利要求4所述的方法，还包括：

6.根据权利要求3-5中任一项所述的方法，所述基于所述多个第二样本数据，对所述初始量化模型进行训练，以获得该第二量化因子对应的第三量化模型包括：

7.一种用于执行目标任务的模型的训练装置，其中，所述目标任务为语音处理、自然语言处理以及图像处理中的一项，所述装置包括：

8.根据权利要求7所述的装置，其中，所述多个第一量化因子分别对应于所述第一教师模型的多个网络层，并且所述多个第一量化因子中的每个第一量化因子基于该第一量化因子对应的网络层的参数分布确定。

9.根据权利要求7所述的装置，还包括：

10.根据权利要求9所述的装置，其中，所述第三获取单元包括：

11.根据权利要求10所述的装置，还包括：

12.根据权利要求9-11中任一项所述的装置，所述第一训练子单元被进一步配置为：

13.一种电子设备，包括：

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种用于执行目标任务的模型的训练方法，其中，所述目标任务为语音处理、自然语言处理以及图像处理中的一项，所述方法包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求3所述的方法，其中，所述获取用于执行所述目标任务的多个第一教师模型包括：

5.根据权利要求4所述的方法，还包括：

7.一种用于执行目标任务的模型的训练装置，其中，所述目标任务为语音处理、自然语言处理以及图像处理中的一项，所...

【专利技术属性】
技术研发人员：杨歌，
申请(专利权)人：百度时代网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人