System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及计算机,特别涉及一种大语言模型训练方法及计算机设备。
技术介绍
1、随着人工智能的飞速发展,出现了越来越多人工智能模型,例如,大语言模型。大语言模型是一种使用大量文本数据训练的深度学习模型,大语言模型能够应用在语音与图像识别、自然语言处理、个性化推荐系统等诸多领域。由于大语言模型的规模和数据量的较大,导致大语言模型的训练效率低,如何提升大语言模型的训练效率,是目前亟需解决的技术问题。
技术实现思路
1、本申请实施例提供了一种大语言模型训练方法及计算机设备,能够提升大语言模型的训练效率。所述技术方案如下:
2、一方面,提供了一种大语言模型训练方法,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器gpu,所述方法包括:
3、所述处理器获取多个gpu的状态信息及多个训练任务,所述多个gpu中部署有相同的大语言模型,所述训练任务用于训练所述大语言模型,所述状态信息指示所述gpu的运行状态;
4、所述处理器基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu;
5、所述多个gpu通过所述大语言模型执行分发到的训练任务;
6、所述处理器在所述多个gpu执行分发到的训练任务的过程中,响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态,基于所述多个gpu的状态信息,确定每个gpu的繁忙度,所述第一gpu为所述多个gpu中的任一个,所述繁忙度指示所述gpu的繁忙程度;
7、所述处理
8、所述处理器基于所述第一gpu待执行训练任务的优先级,将第一训练任务分发给所述第二gpu,所述第一训练任务的优先级高于第二训练任务的优先级,所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。
9、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和多个图形处理器gpu;
10、所述处理器,用于获取多个gpu的状态信息及多个训练任务,所述多个gpu中部署有相同的大语言模型,所述训练任务用于训练所述大语言模型,所述状态信息指示所述gpu的运行状态;
11、所述处理器,还用于基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu;
12、所述多个gpu,用于通过所述大语言模型执行分发到的训练任务;
13、所述处理器,还用于在所述多个gpu执行分发到的训练任务的过程中,响应于第一gpu的状态信息指示所述第一gpu处于阻塞状态,基于所述多个gpu的状态信息,确定每个gpu的繁忙度,所述第一gpu为所述多个gpu中的任一个,所述繁忙度指示所述gpu的繁忙程度;
14、所述处理器,还用于基于所述多个gpu的繁忙度,从所述多个gpu中确定第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度;
15、所述处理器,还用于基于所述第一gpu待执行训练任务的优先级,将第一训练任务分发给所述第二gpu,所述第一训练任务的优先级高于第二训练任务的优先级,所述第二训练任务为所述第一gpu待执行训练任务中除所述第一训练任务以外的训练任务。
16、在一种可能实现方式中,所述处理器,用于基于所述状态信息指示的负载率,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的负载率之间的差值不大于第一阈值,所述负载率指示所述gpu的负载情况;或者,基于所述状态信息指示的内存使用率,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的内存使用率之间的差值不大于第二阈值,所述内存使用率指示所述gpu的内存使用情况;或者,基于所述状态信息指示所述gpu待执行的训练任务数量,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu中待执行的训练任务数量之间的差值大不于第三阈值;或者,基于所述多个gpu的状态信息,确定所述每个gpu的繁忙度,基于所述多个gpu的繁忙度,将所述多个训练任务分发给所述多个gpu,以使所述多个gpu的繁忙度之间的差值不大于第四阈值。
17、在另一种可能实现方式中,所述处理器,用于基于所述状态信息指示的负载率,确定所述gpu的繁忙度,所述负载率指示所述gpu的负载情况;或者,基于所述状态信息指示的内存使用率,确定所述gpu的繁忙度,所述内存使用率指示所述gpu的内存使用情况;或者,对所述状态信息指示的负载率及内存使用率进行加权,得到所述gpu的繁忙度。
18、在另一种可能实现方式中,所述处理器,用于基于所述多个gpu的繁忙度及所述每个gpu待执行训练任务的优先级,从所述多个gpu中确定所述第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度、且所述第二gpu待执行训练任务的最高优先级低于所述第一gpu待执行训练任务的最高优先级。
19、在另一种可能实现方式中,所述gpu,还用于接收所述处理器分发的训练任务,基于所述训练任务的优先级,将所述训练任务添加在所述gpu的任务队列中,所述任务队列用于存储所述gpu待执行训练任务,所述任务队列中的训练任务按照优先级由高到低顺序排列;
20、所述gpu,用于通过所述大语言模型,执行所述任务队列中排在最前的训练任务。
21、在另一种可能实现方式中,所述每个gpu,用于通过所述大语言模型执行分发到的训练任务,得到第一梯度,所述第一梯度用于调整所述大语言模型;
22、所述每个gpu,还用于向所述处理器发送所述第一梯度;
23、所述处理器,还用于获取所述多个gpu得到的第一梯度,对获取到的第一梯度进行融合,得到第二梯度;向所述多个gpu发送所述第二梯度;
24、所述每个gpu,用于接收所述第二梯度,基于所述第二梯度,对所述大语言模型的模型参数进行调整。
25、在另一种可能实现方式中,所述gpu,用于通过所述大语言模型执行第一训练任务,得到所述第一梯度,所述第一训练任务为所述gpu分发到的任一训练任务;
26、所述gpu,还用于通过所述大语言模型执行第二训练任务,得到第三梯度,所述第二训练任务为所述gpu分发到的训练任务中所述第一训练任务的下一个训练任务。
27、在另一种可能实现方式中,所述处理器,还用于将所述多个训练任务转换成第一格式的训练任务;
28、所述处理器,用于基于所述多个gpu的状态信息,将所述第一格式的多个训练任务分发给所述多个gpu;
29、所述gpu,用于将所述第一格式的训练任务转换为第二格式的训练任务,通过所述大语言模型执行所述第二格式的训练任务,所述第一格式的数据量小于所述第二格式的数据量。
30、在另一种可能实现方式中,所述gpu,还用于基于所述大语言模型的迭代次数,从多个格式中确定所述第二格式;或者,基于所述大语言模型的损失值,从多个格本文档来自技高网...
【技术保护点】
1.一种大语言模型训练方法,其特征在于,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器GPU,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个GPU的状态信息,将所述多个训练任务分发给所述多个GPU,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个GPU的状态信息,确定每个GPU的繁忙度,包括:
4.根据权利要求1所述的方法,其特征在于,所述处理器基于所述多个GPU的繁忙度,从所述多个GPU中确定第二GPU,所述第二GPU的繁忙度低于所述第一GPU的繁忙度,包括:
5.根据权利要求1所述的方法,其特征在于,所述多个GPU通过所述大语言模型执行分发到的训练任务之前,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述多个GPU通过所述大语言模型执行分发到的训练任务,包括:
7.根据权利要求6所述的方法,其特征在于,所述每个GPU通过所述大语言模型执行分发到的训练任务,得到第一梯度,包括:
8.根据权利要求1所述的方法,其特征在于,所
9.根据权利要求8所述的方法,其特征在于,所述GPU将所述第一格式的训练任务转换为第二格式的训练任务之前,所述方法还包括:
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和多个图形处理器GPU;
...【技术特征摘要】
1.一种大语言模型训练方法,其特征在于,由计算机设备执行,所述计算机设备包括处理器和多个图形处理器gpu,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述多个gpu的状态信息,将所述多个训练任务分发给所述多个gpu,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个gpu的状态信息,确定每个gpu的繁忙度,包括:
4.根据权利要求1所述的方法,其特征在于,所述处理器基于所述多个gpu的繁忙度,从所述多个gpu中确定第二gpu,所述第二gpu的繁忙度低于所述第一gpu的繁忙度,包括:
5.根据权利要求1所述的方法,其特征在于,所述多个gpu通过所述大语言模型执行分发到的训...
【专利技术属性】
技术研发人员:陈孝良,涂贤玲,常乐,黄赟贺,
申请(专利权)人:北京声智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。