基于文本生成模型的优化器量化方法、装置以及控制器制造方法及图纸

技术编号：41219560 阅读：3 留言：0更新日期：2024-05-09 23:40

本申请涉及人工智能技术领域，特别涉及基于文本生成模型的优化器量化方法、装置以及控制器。优化器量化方法包括读取优化器的文本输入张量，文本输入张量为第一位宽的浮点数据；确定文本输入张量的梯度信息并对梯度信息分块处理，得到多个独立块，根据归一化常数对独立块进行量化处理，得到独立块的量化结果，量化结果为第二位宽的整数数据；将量化结果进行优化预处理，得到优化量化结果，将优化量化结果作为第一优化器状态；对第一优化器状态进行反量化处理，得到第二优化器状态，并更新优化器；对第二优化器状态进行量化处理以回到第一优化器状态，存储独立块的优化量化结果，有利于降低文本生成模型中优化器的显存占用，提高显卡的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别涉及一种基于文本生成模型的优化器量化方法、装置以及控制器。

技术介绍

1、随着人工智能技术的迅速发展，大型深度神经网络模型在聊天机器人、图像生成、视频理解和文本生成等众多领域得到了广泛应用。当前大型深度神经网络模型的应用指数级增长，其中，文本生成模型在对话系统、推荐系统、搜索引擎中都是必不可少的，因此对文本生成模型的显存要求和量化要求也越来越高。当前在训练文本生成模型，通常需要将模型参数、模型梯度、优化器状态都存储在固定数量的可用内存中，状态优化器随着时间的推移维护梯度统计，使用了可以分配给模型参数的内存，占了整体显存的很大一部分，这极大限制了训练的大型深度神经网络模型的最大尺寸。

2、相关技术中，为了缓解文本生成模型训练过程中的显存压力，通过减少或有效分配文本生成模型参数所需的内存来实现更大的模型训练。例如，将模型参数、模型梯度、优化器状态等信息切碎然后分散到不同的显卡上，让每张显卡的显存占用被均摊，使得相同数量的卡可以训练更大的文本生成模型，这种将优化器分布在多个卡的方法虽然有效，但它只能在多张显卡情况下可用，且需要在使用数据并行性的情况下使用，另外优化器分片还可能产生大量通信开销，从而使得训练速度变慢。另外，虽然目前部分量化方法可以减少文本生成模型的内存占用，但是在量化过程中会导致文本生成模型的性能下降，使得文本生成模型的收敛度低从而导致精度降低。

技术实现思路

1、本申请旨在至少解决现有技术中存在的技术问题之一。为此，本申请实施例提供了一

2、第一方面，本申请实施例提供了一种基于文本生成模型的优化器量化方法，包括：

3、读取优化器的文本输入张量，所述文本输入张量为第一位宽的浮点数据；

4、确定所述文本输入张量的梯度信息；

5、对将所述梯度信息进行分块处理，得到多个独立块，并对所述独立块进行归一化处理，得到所述独立块的归一化常数，并根据所述归一化常数对所述独立块进行量化处理，得到所述独立块的量化结果，所述量化结果为第二位宽的整数数据，其中，所述第二位宽小于第一位宽；

6、对所述量化结果进行优化预处理，得到优化量化结果，并将所述优化量化结果作为第一优化器状态；

7、对所述第一优化器状态进行反量化处理，得到第二优化器状态，并根据所述第二优化器状更新所述优化器；

8、对所述第二优化器状态进行量化处理，以回到所述第一优化器状态，并存储所述独立块的优化量化结果。

9、根据本申请的一些实施例，所述第二位宽的整数数据由以下数据结构定义：

10、符号位，为所述数据结构的第一位；

11、指数位，用于由连续为零的位数指示所述整数数据的指数位的大小；

12、指示位，设置为1；

13、线性量化位，用于指示所述整数数据的线性量化值。

14、根据本申请的一些实施例，所述第二位宽的整数数据由以下数据结构定义：

15、分数的固定位，为所述数据结构的第一位；

16、指数位，用于由连续为零的位数指示所述整数数据的指数位的大小；

17、指示位，设置为1；

18、线性量化位，用于指示所述整数数据的线性量化值。

19、根据本申请的一些实施例，所述得到所述独立块的量化结果包括：

20、将所述文本输入张量转换成一维元素序列，并将所述一维元素序列分成预设区间大小的多个独立块；

21、确定所述独立块的归一化常数，并根据所述归一化常数将所述文本输入张量转换为目标量化数据类型的域的范围；

22、确定所述一维元素序列的每个元素在所述目标量化数据类型的域中的对应值；

23、存储与所述对应值所对应的索引；

24、根据所述索引得到所述独立块的量化结果。

25、根据本申请的一些实施例，在所述存储与所述对应值所对应的索引之后，还包括：

26、对所述索引执行反规范化处理；

27、确定所述一维元素序列的最大值；

28、根据经反规范化处理的索引和所述一维元素序列的最大值，通过二分法确定与所述索引对应的量化输出数据；

29、将所述通过二分法确定与所述索引对应的量化输出数据确定为所述独立块的量化结果。

30、根据本申请的一些实施例，将所述文本输入张量输入至嵌入层模块，得到嵌入向量；

31、将所述嵌入向量输入至transformer模型，并执行向前运算，以获得所述优化器的损失函数；

32、将所述损失函数执行反向传播计算，以优化所述损失函数值；

33、确定所述优化器的梯度，并根据所述损失函数和所述梯度得到所述损失函数对于所述文本生成模型的梯度；

34、对所述梯度进行量化处理。

35、根据本申请的一些实施例，在所述将所述文本输入张量输入至所述嵌入层模块之前，还包括：

36、对输入的高度不均匀分布的所述文本输入张量进行归一化处理。

37、第二方面，本申请实施例提供了一种基于文本生成模型的优化器量化装置，包括：

38、读取模块，用于读取优化器的文本输入张量，所述文本输入张量为第一位宽的浮点数据；

39、梯度计算模块，用于确定所述文本输入张量的梯度信息；

40、逐块量化模块，用于对所述梯度信息进行分块处理，得到多个独立块，还用于对所述独立块进行归一化处理，得到所述独立块的归一化常数，并根据所述归一化常数对所述独立块进行量化处理，得到所述独立块的量化结果，所述量化结果为第二位宽的整数数据，其中，所述第二位宽小于第一位宽；

41、动态量化模块，用于对所述量化结果进行优化预处理，得到优化量化结果；

42、嵌入层模块，用于对所述优化量化结果进行预处理，得到第一优化器状态；

43、反量化模块，用于对所述第一优化器状态进行反量化处理，得到第二优化器状态，并将所述第二优化器状更新为所述优化器状态；对所述第二优化器状态进行量化处理，以回到所述第一优化器状态，并存储所述独立块的量化结果。

44、第三方面，本申请实施例提供了一种控制器，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行如上述第一方面的技术方案中所述的基于文本生成模型的优化器量化方法。

45、第三方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如第一方面的技术方案中所述的基于文本生成模型的优化器量化方法。

46、本申请实施例提供的基于文本生成模型的优化器量化方法、装置以及控制器至少具备如下的优点或有益效果之一：读取优化器的文本输入本文档来自技高网...

【技术保护点】

1.一种基于文本生成模型的优化器量化方法，其特征在于，包括：

2.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述第二位宽的整数数据由以下数据结构定义：

3.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述第二位宽的整数数据由以下数据结构定义：

4.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述得到所述独立块的量化结果包括：

5.根据权利要求4所述的基于文本生成模型的优化器量化方法，其特征在于，在所述存储与所述对应值所对应的索引之后，还包括：

6.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，还包括：

7.根据权利要求6所述的基于文本生成模型的优化器量化方法，其特征在于，在所述将所述文本输入张量输入至所述嵌入层模块之前，还包括：

8.一种基于文本生成模型的优化器量化装置，其特征在于，包括：

9.一种控制器，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处

10.一种计算机可读存储介质，其特征在于：存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至7中任意一项所述的基于文本生成模型的优化器量化方法。

...

【技术特征摘要】

1.一种基于文本生成模型的优化器量化方法，其特征在于，包括：

2.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述第二位宽的整数数据由以下数据结构定义：

3.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述第二位宽的整数数据由以下数据结构定义：

4.根据权利要求1所述的基于文本生成模型的优化器量化方法，其特征在于，所述得到所述独立块的量化结果包括：

5.根据权利要求4所述的基于文本生成模型的优化器量化方法，其特征在于，在所述存储与所述对应值所对应的索引之后，还包括：

6.根据权利要求1所述的基于文本生成模型的优化器量化方...

【专利技术属性】
技术研发人员：聂建政，李论通，彭佩玺，田永鸿，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人