System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型训练方法及计算机设备技术_技高网

大语言模型训练方法及计算机设备技术

技术编号:41322602 阅读:5 留言:0更新日期:2024-05-13 15:01
本申请实施例公开了一种大语言模型训练方法及计算机设备,属于计算机技术领域。方法包括:处理器获取多个GPU的状态信息及多个训练任务;处理器基于多个GPU的状态信息,将多个训练任务分发给多个GPU;多个GPU通过大语言模型执行分发到的训练任务;处理器在多个GPU执行分发到的训练任务的过程中,响应于第一GPU处于阻塞状态,基于多个GPU的状态信息,确定每个GPU的繁忙度;处理器基于多个GPU的繁忙度,从多个GPU中确定第二GPU,第二GPU的繁忙度低于第一GPU的繁忙度;处理器基于第一GPU待执行训练任务的优先级,将第一训练任务分发给第二GPU。本申请提升大语言模型的训练效率。

【技术实现步骤摘要】

本申请实施例涉及计算机,特别涉及一种大语言模型训练方法及计算机设备


技术介绍

1、随着人工智能的飞速发展,出现了越来越多人工智能模型,例如,大语言模型。大语言模型是一种使用大量文本数据训练的深度学习模型,大语言模型能够应用在语音与图像识别、自然语言处理、个性化推荐系统等诸多领域。由于大语言模型的规模和数据量的较大,导致大语言模型的训练效率低,如何提升大语言模型的训练效率,是目前亟需解决的技术问题。


技术实现思路

1、本申请实施例提供了一种大语言模型训练方法及计算机设备,能够提升大语言模型的训练效率。所述技术方案如下:

2、一方面,提供了一种大语言模型训练方法,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器gpu,所述方法包括:

3、所述处理器获取多个gpu的状态信息及多个训练任务,所述多个gpu中部署有相同的大语言模型,所述训练任务用于训练所述大语言模型,所述状态信息指示所述gpu的运行状态;

4、所述处理器基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu;

5、所述多个gpu通过所述大语言模型执行分发到的训练任务;

6、所述处理器在所述多个gpu执行分发到的训练任务的过程中,响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态,基于所述多个gpu的状态信息,确定每个gpu的繁忙度,所述第一gpu为所述多个gpu中的任一个,所述繁忙度指示所述gpu的繁忙程度;

7、所述处理器基于所述多个gpu的繁忙度,从所述多个gpu中确定第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度;

8、所述处理器基于所述第一gpu待执行训练任务的优先级,将第一训练任务分发给所述第二gpu,所述第一训练任务的优先级高于第二训练任务的优先级,所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。

9、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和多个图形处理器gpu;

10、所述处理器,用于获取多个gpu的状态信息及多个训练任务,所述多个gpu中部署有相同的大语言模型,所述训练任务用于训练所述大语言模型,所述状态信息指示所述gpu的运行状态;

11、所述处理器,还用于基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu;

12、所述多个gpu,用于通过所述大语言模型执行分发到的训练任务;

13、所述处理器,还用于在所述多个gpu执行分发到的训练任务的过程中,响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态,基于所述多个gpu的状态信息,确定每个gpu的繁忙度,所述第一gpu为所述多个gpu中的任一个,所述繁忙度指示所述gpu的繁忙程度;

14、所述处理器,还用于基于所述多个gpu的繁忙度,从所述多个gpu中确定第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度;

15、所述处理器,还用于基于所述第一gpu待执行训练任务的优先级,将第一训练任务分发给所述第二gpu,所述第一训练任务的优先级高于第二训练任务的优先级,所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。

16、在一种可能实现方式中,所述处理器,用于基于所述状态信息指示的负载率,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的负载率之间的差值不大于第一阈值,所述负载率指示所述gpu的负载情况;或者,基于所述状态信息指示的内存使用率,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的内存使用率之间的差值不大于第二阈值,所述内存使用率指示所述gpu的内存使用情况;或者,基于所述状态信息指示所述gpu待执行的训练任务数量,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu中待执行的训练任务数量之间的差值大不于第三阈值;或者,基于所述多个gpu的状态信息,确定所述每个gpu的繁忙度,基于所述多个gpu的繁忙度,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的繁忙度之间的差值不大于第四阈值。

17、在另一种可能实现方式中,所述处理器,用于基于所述状态信息指示的负载率,确定所述gpu的繁忙度,所述负载率指示所述gpu的负载情况;或者,基于所述状态信息指示的内存使用率,确定所述gpu的繁忙度,所述内存使用率指示所述gpu的内存使用情况;或者,对所述状态信息指示的负载率及内存使用率进行加权,得到所述gpu的繁忙度。

18、在另一种可能实现方式中,所述处理器,用于基于所述多个gpu的繁忙度及所述每个gpu待执行训练任务的优先级,从所述多个gpu中确定所述第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度、且所述第二gpu待执行训练任务的最高优先级低于所述第一gpu待执行训练任务的最高优先级。

19、在另一种可能实现方式中,所述gpu,还用于接收所述处理器分发的训练任务,基于所述训练任务的优先级,将所述训练任务添加在所述gpu的任务队列中,所述任务队列用于存储所述gpu待执行训练任务,所述任务队列中的训练任务按照优先级由高到低顺序排列;

20、所述gpu,用于通过所述大语言模型,执行所述任务队列中排在最前的训练任务。

21、在另一种可能实现方式中,所述每个gpu,用于通过所述大语言模型执行分发到的训练任务,得到第一梯度,所述第一梯度用于调整所述大语言模型;

22、所述每个gpu,还用于向所述处理器发送所述第一梯度;

23、所述处理器,还用于获取所述多个gpu得到的第一梯度,对获取到的第一梯度进行融合,得到第二梯度;向所述多个gpu发送所述第二梯度;

24、所述每个gpu,用于接收所述第二梯度,基于所述第二梯度,对所述大语言模型的模型参数进行调整。

25、在另一种可能实现方式中,所述gpu,用于通过所述大语言模型执行第一训练任务,得到所述第一梯度,所述第一训练任务为所述gpu分发到的任一训练任务;

26、所述gpu,还用于通过所述大语言模型执行第二训练任务,得到第三梯度,所述第二训练任务为所述gpu分发到的训练任务中所述第一训练任务的下一个训练任务。

27、在另一种可能实现方式中,所述处理器,还用于将所述多个训练任务转换成第一格式的训练任务;

28、所述处理器,用于基于所述多个gpu的状态信息,将所述第一格式的多个训练任务分发给所述多个gpu;

29、所述gpu,用于将所述第一格式的训练任务转换为第二格式的训练任务,通过所述大语言模型执行所述第二格式的训练任务,所述第一格式的数据量小于所述第二格式的数据量。

30、在另一种可能实现方式中,所述gpu,还用于基于所述大语言模型的迭代次数,从多个格式中确定所述第二格式;或者,基于所述大语言模型的损失值,从多个格本文档来自技高网...

【技术保护点】

1.一种大语言模型训练方法,其特征在于,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器GPU,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个GPU的状态信息,将所述多个训练任务分发给所述多个GPU,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述多个GPU的状态信息,确定每个GPU的繁忙度,包括:

4.根据权利要求1所述的方法,其特征在于,所述处理器基于所述多个GPU的繁忙度,从所述多个GPU中确定第二GPU,所述第二GPU的繁忙度低于所述第一GPU的繁忙度,包括:

5.根据权利要求1所述的方法,其特征在于,所述多个GPU通过所述大语言模型执行分发到的训练任务之前,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述多个GPU通过所述大语言模型执行分发到的训练任务,包括:

7.根据权利要求6所述的方法,其特征在于,所述每个GPU通过所述大语言模型执行分发到的训练任务,得到第一梯度,包括:

8.根据权利要求1所述的方法,其特征在于,所述处理器基于所述多个GPU的状态信息,将所述多个训练任务分发给所述多个GPU之前,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述GPU将所述第一格式的训练任务转换为第二格式的训练任务之前,所述方法还包括:

10.一种计算机设备,其特征在于,所述计算机设备包括处理器和多个图形处理器GPU;

...

【技术特征摘要】

1.一种大语言模型训练方法,其特征在于,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器gpu,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述多个gpu的状态信息,确定每个gpu的繁忙度,包括:

4.根据权利要求1所述的方法,其特征在于,所述处理器基于所述多个gpu的繁忙度,从所述多个gpu中确定第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度,包括:

5.根据权利要求1所述的方法,其特征在于,所述多个gpu通过所述大语言模型执行分发到的训...

【专利技术属性】
技术研发人员:陈孝良涂贤玲常乐黄赟贺
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1