文本生成方法及其模型梯度剪枝方法、装置、设备、介质制造方法及图纸

技术编号：41069089 阅读：5 留言：0更新日期：2024-04-24 11:24

本发明专利技术涉及人工智能技术领域，公开了文本生成方法及其模型梯度剪枝方法、装置、设备、介质，训练预热阶段保持文本生成模型当前的模型梯度不变；非训练预热阶段，基于滑窗尺寸信息和性能损失函数，确定出文本生成模型在每个训练步数下以损失函数变化率为表征的性能；根据设定的训练状态条件以及每个训练步数下以损失函数变化率为表征的性能和单步训练时长，依次对每个训练步数下的梯度剪枝量进行调整。每得到一个调整后的梯度剪枝量，则按照调整后的梯度剪枝量对文本生成模型进行梯度剪枝操作，直至当前训练步数达到文本生成模型的总训练步数，结束对文本生成模型的剪枝操作，保证了文本生成模型的训练任务能够在低速不稳定的网络环境中顺利完成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，特别是涉及文本生成方法及其模型梯度剪枝方法、装置、设备、介质。

技术介绍

1、随着大语言模型（large language model，llm）的快速发展，llm成为了当今人工智能（artificial intelligence，ai）领域的热门研究方向。大语言模型的训练需要更多的计算资源，而单台设备早已无法满足这样的计算需求，因此分布式计算成为了一种基本需求。

2、目前面向llm的大规模训练场景，人们往往采用专业的计算集群，配备了高性能的图形处理器（graphics processing unit，gpu）以及节点之间的高速专用网络，如无线带宽（infiniband，ib）网络，其网速往往达到100gbps以上。

3、而对于更广泛的大众，当想从事llm应用或微调落地时，并不具备这样的计算设备和网络条件，更多的是有诸多分散的独立gpu节点，彼此之间用普通以太网通过互连技术（switch）实现的连接。在这种网络环境下进行分布式大模型训练任务的过程中，低速且不稳定的网络状况往往成为整个训练过程的瓶颈，且训练的时间随着网络带宽的降低成非线性上升，这些问题的存在导致目前大语言模型并不适合在低速且不稳定的网络环境下进行落地应用。

4、可见，如何实现大语言模型在低速且不稳定的网络环境下进行落地应用，是本领域技术人员需要解决的问题。

技术实现思路

1、本专利技术实施例的目的是提供一种文本生成方法及其模型梯度剪枝方法、装置、设备、介质，可

2、为解决上述技术问题，本专利技术实施例提供一种文本生成方法，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，包括：

3、获取输入文本；

4、在文本生成模型处于训练预热阶段的情况下，保持所述文本生成模型当前的模型梯度不变；

5、在所述文本生成模型不处于训练预热阶段的情况下，基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数，确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能；

6、当分布式网络环境发生变化的情况下，根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长，依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整；其中，所述训练状态条件包括模型性能和训练时长；

7、每得到一个训练步数所对应的调整后的梯度剪枝量，则按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作，直至当前训练步数达到所述文本生成模型的总训练步数，则结束对所述文本生成模型的剪枝操作；

8、利用梯度剪枝后的文本生成模型对所述输入文本进行分析，以得到应答文本。

9、一方面，所述文本生成模型为答案生成模型的情况下，所述输入文本为问题文本，所述应答文本为答案文本；所述文本生成模型为标题生成模型的情况下，所述输入文本为文章，所述应答文本为文本标题。

10、本专利技术实施例提供了一种文本生成模型梯度剪枝方法，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，所述方法包括：

11、在文本生成模型处于训练预热阶段的情况下，保持所述文本生成模型当前的模型梯度不变；

12、在所述文本生成模型不处于训练预热阶段的情况下，基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数，确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能；

13、当分布式网络环境发生变化的情况下，根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长，依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整；其中，所述训练状态条件包括模型性能和训练时长；

14、每得到一个训练步数所对应的调整后的梯度剪枝量，则按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作，直至当前训练步数达到所述文本生成模型的总训练步数，则结束对所述文本生成模型的剪枝操作，以实现梯度剪枝后的文本生成模型在所述分布式网络环境上的部署。

15、一方面，所述基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数，确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能包括：

16、调用以损失函数变化率为表征的性能计算公式，对与当前训练步数相邻的滑窗尺寸信息内的性能损失进行处理，以得到所述文本生成模型在当前训练步数下以损失函数变化率为表征的性能；所述以损失函数变化率为表征的性能计算公式为：

17、；

18、其中， t表示当前训练步数， m表示滑窗尺寸， l（ t）表示当前训练步数对应的性能损失函数， l（ t- m）表示当前训练步数减去滑窗尺寸所在步数对应的性能损失函数，表示当前训练步数之前的滑窗尺寸中对应的滑动平均损失， τ表示当前训练步数之前的滑窗尺寸内的训练步数， l（ τ）表示当前训练步数之前的滑窗尺寸内的训练步数所对应的性能损失函数，表示滑窗尺寸中最小性能损失，表示当前达到的最小性能损失相比滑动平均损失的偏差，表示当前训练步数下以损失函数变化率为表征的性能。

19、一方面，所述根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长，依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整包括：

20、判断当前训练步数下以损失函数变化率为表征的性能是否满足所述模型性能；

21、在以损失函数变化率为表征的性能不满足所述模型性能的情况下，下调所述文本生成模型在当前训练步数下的梯度剪枝量，按照下调后的梯度剪枝量对所述文本生成模型进行梯度剪枝；

22、在以损失函数变化率为表征的性能满足所述模型性能的情况下，判断当前训练步数的单步训练时长是否满足所述训练时长；

23、在当前训练步数的单步训练时长不满足所述训练时长的情况下，上调所述文本生成模型在当前训练步数下的梯度剪枝量，按照上调后的梯度剪枝量对所述文本生成模型进行梯度剪枝。

24、一方面，所述判断当前训练步数下以损失函数变化率为表征的性能是否满足所述模型性能包括：

25、根据当前训练步数下的衰减函数和显著度超参数，确定得到当前训练步数对应的衰减损失；

26、调用性能判别公式对当前训练步数下以损失函数变化率为表征的性能以及所述衰减损失进行比较，以判断当前训练步数下以损失函数变化率为表征的性能是否满足所述模型性能；其中，本文档来自技高网...

【技术保护点】

1.一种文本生成方法，其特征在于，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，包括：

2.根据权利要求1所述的文本生成方法，其特征在于，所述文本生成模型为答案生成模型的情况下，所述输入文本为问题文本，所述应答文本为答案文本；所述文本生成模型为标题生成模型的情况下，所述输入文本为文章，所述应答文本为文本标题。

3.一种文本生成模型梯度剪枝方法，其特征在于，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，所述方法包括：

4.根据权利要求3所述的文本生成模型梯度剪枝方法，其特征在于，所述基于设定的滑窗尺寸信息以及训练步数对应的性能损失函数，确定出所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能包括：

5.根据权利要求4所述的文本生成模型梯度剪枝方法，其特征在于，所述根据设定的训练状态条件以及所述文本生成模型在每个训练步数下以损失函数变化率为表征的性能和单步训练时长，依次对所述文本生成模型在每个训练步数下的梯度剪枝量进行动态调整包括：

6.根据权利要求5所述的文本生成模型梯度剪枝方法，

7.根据权利要求6所述的文本生成模型梯度剪枝方法，其特征在于，所述根据当前训练步数下的衰减函数和显著度超参数，确定得到当前训练步数对应的衰减损失包括：

8.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，下调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

9.根据权利要求8所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作包括：

10.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，下调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

11.根据权利要求10所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作包括：

12.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，所述判断当前训练步数的单步训练时长是否满足所述训练时长包括：

13.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，上调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

14.根据权利要求13所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作包括：

15.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，上调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

16.根据权利要求15所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作包括：

17.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，还包括：

18.根据权利要求17所述的文本生成模型梯度剪枝方法，其特征在于，保持所述文本生成模型在当前训练步数下的模型梯度不变包括：

19.根据权利要求3所述的文本生成模型梯度剪枝方法，其特征在于，所述在文本生成模型处于训练预热阶段的情况下，保持所述文本生成模型当前的模型梯度不变包括：

20.根据权利要求19所述的文本生成模型梯度剪枝方法，其特征在于，所述预热步数的设置过程包括：

21.根据权利要求19所述的文本生成模型梯度剪枝方法，其特征在于，保持所述文本生成模型当前的模型梯度不变包括：

22.一种文本生成模型梯度剪枝装置，其特征在于，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，所述装置包括保持单元、确定单元、调整单元和剪枝单元；

23.一种文本生成模型梯度剪枝设备，其特征在于，包括：

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求3至21任意一项所述文本生成模型梯度剪枝方法的步骤。

...

【技术特征摘要】

1.一种文本生成方法，其特征在于，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，包括：

3.一种文本生成模型梯度剪枝方法，其特征在于，适用于多个分散的图形处理器通过以太网连接构建的分布式网络环境，所述方法包括：

6.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，所述判断当前训练步数下以损失函数变化率为表征的性能是否满足所述模型性能包括：

8.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，下调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

9.根据权利要求8所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型进行梯度剪枝操作包括：

10.根据权利要求5所述的文本生成模型梯度剪枝方法，其特征在于，下调所述文本生成模型在当前训练步数下的梯度剪枝量包括：

11.根据权利要求10所述的文本生成模型梯度剪枝方法，其特征在于，按照所述调整后的梯度剪枝量对所述文本生成模型...

【专利技术属性】
技术研发人员：朱克峰，李仁刚，戴钰桀，李兵兵，王彦伟，宿栋栋，黄伟，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人