大语言模型训练方法及计算机设备技术

技术编号：41322602 阅读：5 留言：0更新日期：2024-05-13 15:01

本申请实施例公开了一种大语言模型训练方法及计算机设备，属于计算机技术领域。方法包括：处理器获取多个GPU的状态信息及多个训练任务；处理器基于多个GPU的状态信息，将多个训练任务分发给多个GPU；多个GPU通过大语言模型执行分发到的训练任务；处理器在多个GPU执行分发到的训练任务的过程中，响应于第一GPU处于阻塞状态，基于多个GPU的状态信息，确定每个GPU的繁忙度；处理器基于多个GPU的繁忙度，从多个GPU中确定第二GPU，第二GPU的繁忙度低于第一GPU的繁忙度；处理器基于第一GPU待执行训练任务的优先级，将第一训练任务分发给第二GPU。本申请提升大语言模型的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机，特别涉及一种大语言模型训练方法及计算机设备。

技术介绍

1、随着人工智能的飞速发展，出现了越来越多人工智能模型，例如，大语言模型。大语言模型是一种使用大量文本数据训练的深度学习模型，大语言模型能够应用在语音与图像识别、自然语言处理、个性化推荐系统等诸多领域。由于大语言模型的规模和数据量的较大，导致大语言模型的训练效率低，如何提升大语言模型的训练效率，是目前亟需解决的技术问题。

技术实现思路

1、本申请实施例提供了一种大语言模型训练方法及计算机设备，能够提升大语言模型的训练效率。所述技术方案如下：

2、一方面，提供了一种大语言模型训练方法，由计算机设备执行，所述计算机设备包括处理器和多个图形处理器gpu，所述方法包括：

3、所述处理器获取多个gpu的状态信息及多个训练任务，所述多个gpu中部署有相同的大语言模型，所述训练任务用于训练所述大语言模型，所述状态信息指示所述gpu的运行状态；

4、所述处理器基于所述多个gpu的状态信息，将所述多个训练任务分发给所述多个gpu；

5、所述多个gpu通过所述大语言模型执行分发到的训练任务；

6、所述处理器在所述多个gpu执行分发到的训练任务的过程中，响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态，基于所述多个gpu的状态信息，确定每个gpu的繁忙度，所述第一gpu为所述多个gpu中的任一个，所述繁忙度指示所述gpu的繁忙程度；

7、所述处理

8、所述处理器基于所述第一gpu待执行训练任务的优先级，将第一训练任务分发给所述第二gpu，所述第一训练任务的优先级高于第二训练任务的优先级，所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。

9、另一方面，提供了一种计算机设备，所述计算机设备包括处理器和多个图形处理器gpu；

10、所述处理器，用于获取多个gpu的状态信息及多个训练任务，所述多个gpu中部署有相同的大语言模型，所述训练任务用于训练所述大语言模型，所述状态信息指示所述gpu的运行状态；

11、所述处理器，还用于基于所述多个gpu的状态信息，将所述多个训练任务分发给所述多个gpu；

12、所述多个gpu，用于通过所述大语言模型执行分发到的训练任务；

13、所述处理器，还用于在所述多个gpu执行分发到的训练任务的过程中，响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态，基于所述多个gpu的状态信息，确定每个gpu的繁忙度，所述第一gpu为所述多个gpu中的任一个，所述繁忙度指示所述gpu的繁忙程度；

14、所述处理器，还用于基于所述多个gpu的繁忙度，从所述多个gpu中确定第二gpu，所述第二gpu的繁忙度低于所述第一gpu的繁忙度；

15、所述处理器，还用于基于所述第一gpu待执行训练任务的优先级，将第一训练任务分发给所述第二gpu，所述第一训练任务的优先级高于第二训练任务的优先级，所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。

16、在一种可能实现方式中，所述处理器，用于基于所述状态信息指示的负载率，将所述多个训练任务分发给所述多个gpu，以使所述多个gpu的负载率之间的差值不大于第一阈值,所述负载率指示所述gpu的负载情况；或者，基于所述状态信息指示的内存使用率，将所述多个训练任务分发给所述多个gpu，以使所述多个gpu的内存使用率之间的差值不大于第二阈值，所述内存使用率指示所述gpu的内存使用情况；或者，基于所述状态信息指示所述gpu待执行的训练任务数量，将所述多个训练任务分发给所述多个gpu，以使所述多个gpu中待执行的训练任务数量之间的差值大不于第三阈值；或者，基于所述多个gpu的状态信息，确定所述每个gpu的繁忙度，基于所述多个gpu的繁忙度，将所述多个训练任务分发给所述多个gpu，以使所述多个gpu的繁忙度之间的差值不大于第四阈值。

17、在另一种可能实现方式中，所述处理器，用于基于所述状态信息指示的负载率，确定所述gpu的繁忙度，所述负载率指示所述gpu的负载情况；或者，基于所述状态信息指示的内存使用率，确定所述gpu的繁忙度，所述内存使用率指示所述gpu的内存使用情况；或者，对所述状态信息指示的负载率及内存使用率进行加权，得到所述gpu的繁忙度。

18、在另一种可能实现方式中，所述处理器，用于基于所述多个gpu的繁忙度及所述每个gpu待执行训练任务的优先级，从所述多个gpu中确定所述第二gpu，所述第二gpu的繁忙度低于所述第一gpu的繁忙度、且所述第二gpu待执行训练任务的最高优先级低于所述第一gpu待执行训练任务的最高优先级。

19、在另一种可能实现方式中，所述gpu，还用于接收所述处理器分发的训练任务，基于所述训练任务的优先级，将所述训练任务添加在所述gpu的任务队列中，所述任务队列用于存储所述gpu待执行训练任务，所述任务队列中的训练任务按照优先级由高到低顺序排列；

20、所述gpu，用于通过所述大语言模型，执行所述任务队列中排在最前的训练任务。

21、在另一种可能实现方式中，所述每个gpu，用于通过所述大语言模型执行分发到的训练任务，得到第一梯度，所述第一梯度用于调整所述大语言模型；

22、所述每个gpu，还用于向所述处理器发送所述第一梯度；

23、所述处理器，还用于获取所述多个gpu得到的第一梯度，对获取到的第一梯度进行融合，得到第二梯度；向所述多个gpu发送所述第二梯度；

24、所述每个gpu，用于接收所述第二梯度，基于所述第二梯度，对所述大语言模型的模型参数进行调整。

25、在另一种可能实现方式中，所述gpu，用于通过所述大语言模型执行第一训练任务，得到所述第一梯度，所述第一训练任务为所述gpu分发到的任一训练任务；

26、所述gpu，还用于通过所述大语言模型执行第二训练任务，得到第三梯度，所述第二训练任务为所述gpu分发到的训练任务中所述第一训练任务的下一个训练任务。

27、在另一种可能实现方式中，所述处理器，还用于将所述多个训练任务转换成第一格式的训练任务；

28、所述处理器，用于基于所述多个gpu的状态信息，将所述第一格式的多个训练任务分发给所述多个gpu；

29、所述gpu，用于将所述第一格式的训练任务转换为第二格式的训练任务，通过所述大语言模型执行所述第二格式的训练任务，所述第一格式的数据量小于所述第二格式的数据量。

30、在另一种可能实现方式中，所述gpu，还用于基于所述大语言模型的迭代次数，从多个格式中确定所述第二格式；或者，基于所述大语言模型的损失值，从多个格本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法，其特征在于，由计算机设备执行，所述计算机设备包括处理器和多个图形处理器GPU，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个GPU的状态信息，将所述多个训练任务分发给所述多个GPU，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个GPU的状态信息，确定每个GPU的繁忙度，包括：

4.根据权利要求1所述的方法，其特征在于，所述处理器基于所述多个GPU的繁忙度，从所述多个GPU中确定第二GPU，所述第二GPU的繁忙度低于所述第一GPU的繁忙度，包括：

5.根据权利要求1所述的方法，其特征在于，所述多个GPU通过所述大语言模型执行分发到的训练任务之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述多个GPU通过所述大语言模型执行分发到的训练任务，包括：

7.根据权利要求6所述的方法，其特征在于，所述每个GPU通过所述大语言模型执行分发到的训练任务，得到第一梯度，包括：

8.根据权利要求1所述的方法，其特征在于，所

9.根据权利要求8所述的方法，其特征在于，所述GPU将所述第一格式的训练任务转换为第二格式的训练任务之前，所述方法还包括：

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和多个图形处理器GPU；

...

【技术特征摘要】

1.一种大语言模型训练方法，其特征在于，由计算机设备执行，所述计算机设备包括处理器和多个图形处理器gpu，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述多个gpu的状态信息，将所述多个训练任务分发给所述多个gpu，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述多个gpu的状态信息，确定每个gpu的繁忙度，包括：

4.根据权利要求1所述的方法，其特征在于，所述处理器基于所述多个gpu的繁忙度，从所述多个gpu中确定第二gpu，所述第二gpu的繁忙度低于所述第一gpu的繁忙度，包括：

5.根据权利要求1所述的方法，其特征在于，所述多个gpu通过所述大语言模型执行分发到的训...

【专利技术属性】
技术研发人员：陈孝良，涂贤玲，常乐，黄赟贺，
申请(专利权)人：北京声智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人