一种针对大语言模型的资源优化和碳减排方法及设备技术

技术编号:39292333 阅读:17 留言:0更新日期:2023-11-07 11:00
本申请实施例提供一种针对大语言模型的资源优化和碳减排方法及设备。针对大语言模型的预训练过程,基于所选定的时间区间内动态变化的碳排放强度,为大语言模型确定在该时间区间内的预训练起止时间节点以及预训练期间的GPU资源量调控参数值,以使大语言模型在该时间区间内对应的预训练碳排放预估总量达到指定要求。这样,可在选定的时间区间内,基于动态变化的碳排放强度合理地调控预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,从而动态调控用于大语言模型预训练的GPU资源量,进而将预训练任务合理切分至所选定时间区间内的相关时间节点,这可有效降低大语言模型预训练所产生的碳排放量。效降低大语言模型预训练所产生的碳排放量。效降低大语言模型预训练所产生的碳排放量。

【技术实现步骤摘要】
一种针对大语言模型的资源优化和碳减排方法及设备


[0001]本申请涉及计算机
,尤其涉及一种针对大语言模型的资源优化和碳减排方法及设备。

技术介绍

[0002]随着各类生成式AI的发布,大语言模型(Large Language Model,LLM)成为研究热点,并且开始在各个领域广泛应用。近年来,大语言模型的参数规模不断增大,其模型效果也有了极大的提升,然而,更大的模型意味着更大的计算资源需求,进而意味着更加巨大的能源需求和更多的碳排放。
[0003]目前,针对大语言模型的能耗和碳排优化问题,现有的研究方案大多通过芯片的功耗限制、优化神经网络模型结构或者选用更低能耗更高效率的处理器等方式来降低计算能耗,但现有的研究方案大多未深入研究大语言模型在GPU上进行预训练时的低碳优化调控策略。
[0004]因此,亟需为大语言模型提供更优的碳减排方案。

技术实现思路

[0005]本申请的多个方面提供一种针对大语言模型的资源优化和碳减排方法及设备,用以通过对GPU资源的优化调控,更好地降低大语言模型预训练所产生的碳排放量。
[0006]本申请实施例提供一种针对大语言模型的资源优化和碳减排方法,包括:为待处理的大语言模型,选定用于开展预训练的时间区间;基于所述时间区间内动态变化的碳排放强度,为所述大语言模型确定在所述时间区间内的预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,以使所述大语言模型在所述时间区间内对应的预训练碳排放预估总量达到指定要求;按照所述预训练起止时间节点以及所述各个GPU资源量调控参数值,在所述时间区间内动态调控用于对所述大语言模型进行预训练的GPU资源量。
[0007]本申请实施例还提供一种计算设备,包括存储器和处理器;所述存储器用于存储一条或多条计算机指令;所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于执行前述的针对大语言模型的资源优化和碳减排方法。
[0008]本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的针对大语言模型的资源优化和碳减排方法。
[0009]在本申请实施例中,针对大语言模型的预训练过程,基于所选定的时间区间内动态变化的碳排放强度,为大语言模型确定在该时间区间内的预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,以使大语言模型在该时间区间内对应的预训练碳排放预估总量达到指定要求;基于此,可在该时间区间内,按照前述确定出的预
训练起止时间节点以及各个GPU资源量调控参数值,动态调控用于对大语言模型进行预训练的GPU资源量。这样,可在选定的时间区间内,基于动态变化的碳排放强度合理地调控预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,从而动态调控用于大语言模型预训练的GPU资源量,进而将预训练任务合理切分至所选定时间区间内的相关时间节点,这可有效降低大语言模型预训练所产生的碳排放量。
附图说明
[0010]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请一示例性实施例提供的一种针对大语言模型的资源优化和碳减排方法的流程示意图;图2为本申请一示例性实施例提供的一种针对大语言模型的资源优化和碳减排方法的逻辑示意图;图3为本申请另一示例性实施例提供的一种计算设备的结构示意图。
具体实施方式
[0011]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0012]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0013]图1为本申请一示例性实施例提供的一种针对大语言模型的资源优化和碳减排方法的流程示意图,该方法可由数据处理装置执行,该数据处理装置可实现为软件和/或硬件的结合,该数据处理装置可集成在计算设备中。
[0014]本实施例提供的针对大语言模型的资源优化和碳减排方法可应用于各种需要对大语言模型进行碳减排的场景中,本实施例对应用场景不做限定。通常,大语言模型需要部署在包含众多服务器的计算系统中,实际应用中,这里的计算系统可以是云数据中心,这种情况下,用于执行本实施例中针对大语言模型的资源优化和碳减排方法的计算设备可以是数据中心内部署的资源调度设备,而本实施例提供的针对大语言模型的资源优化和碳减排方法则可作为数据中心内部署的资源调度设备中新增的功能模块。当然,本实施例中的计算系统也可以是其它类型的系统,例如,企业机房等。本实施例中的计算设备可以是计算系统中具备全局GPU资源管理权限的设备。另外,本实施例中的计算设备可以是单台服务器,当然也可以是服务器集群等,本实施例对计算设备的物理实现形式不做限定。
[0015]专利技术人在研究过程中发现,大语言模型的碳排放主要产生在三个阶段:一是设备制造阶段的碳排放,二是模型预训练阶段的碳排放,三是模型应用和推理阶段的碳排放。其中,设备制造阶段的碳排放蕴含在服务器等硬件设备中,这一部分碳排放在生产阶段就已经决定。模型应用和推理阶段的能耗则与用户的规模和访问需求密切相关。由于用户的问题需求需要及时响应,这部分碳排放较难实现优化控制。而大语言模型的预训练阶段对计算资源的需求较大,通常有一个比较长时间的训练周期(从几周到几个月不等),且时间上
与应用阶段相比更加集中。因此,本实施例中提出在大语言模型的预训练阶段,探索如何降低大语言模型预训练所产生的碳排放量。
[0016]图2为本申请一示例性实施例提供的一种针对大语言模型的资源优化和碳减排方法的逻辑示意图。参考图2,本实施例中可使用GPU资源承载针对大语言模型的预训练任务。GPU资源可装配在服务器上,本实施例中,可由计算设备执行本实施例提供的方法,以对系统中的全部GPU资源进行集中管理。
[0017]参考图1,本实施例提供的针对大语言模型的资源优化和碳减排方法,可包括:步骤100、为待处理的大语言模型,选定用于开展预训练的时间区间;步骤101、基于时间区间内动态变化的碳排放强度,为大语言模型确定在时间区间内的预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,以使大语言模型在时间区间内对应的预训练碳排放预估总量达到指定要求;步骤102、按照预训练起止时间节点以及各个GPU资源量调控参数值,在时间区间内动态调控用于对大语言模型进行预训练的GPU资源量。
[0018]实际应用中,针对大语言模型的预训练任务通常会指定有时延阈值,在步骤100中,为大语言模型所选定的用于开展预训练的时间区间应大于该预置时延阈值,当然,还可增加更多的筛本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对大语言模型的资源优化和碳减排方法,包括:为待处理的大语言模型,选定用于开展预训练的时间区间;基于所述时间区间内动态变化的碳排放强度,为所述大语言模型确定在所述时间区间内的预训练起止时间节点以及预训练期间的GPU资源量调控参数值,以使所述大语言模型在所述时间区间内对应的预训练碳排放预估总量达到指定要求达到指定要求;按照所述预训练起止时间节点以及所述各个GPU资源量调控参数值,在所述时间区间内动态调控用于对所述大语言模型进行预训练的GPU资源量。2.根据权利要求1所述的方法,基于所述时间区间内动态变化的碳排放强度,为所述大语言模型确定在所述时间区间内的预训练起止时间节点以及预训练期间的各个时间节点下的GPU资源量调控参数值,包括:以所述大语言模型在所述时间区间内对应的预训练碳排放预估总量达到指定要求为目标,构建目标函数,其中,所述目标函数中以所述时间区间内单个时间节点下碳排放强度和能耗总量的乘积表征对应时间节点下的碳排放预估量,且单个时间节点下的能耗总量以GPU资源量调控参数和用于表征预训练起止时间节点的参数作为影响因子;求解所述目标函数,以确定所述预训练起止时间节点以及所述各个GPU资源量调控参数值。3.根据权利要求2所述的方法,所述GPU资源量调控参数包括GPU并行度,以所述大语言模型在所述时间区间内对应的预训练碳排放预估总量达到指定要求为目标,构建目标函数,包括:获取单个GPU处于运行状态时在单个时间节点下所导致的第一能耗值以及单个GPU处于空闲状态时在单个时间节点下所导致的第二能耗值;基于单个时间节点下的GPU并行度、所述第一能耗值及所述第二能耗值,对所述时间区间中相应时间节点下GPU所导致的能耗量进行表征;结合用于表征预训练起止时间节点的参数以及表征出的单个时间节点下GPU所导致的能耗量,对相应时间节点下的能耗总量进行表征,以构建出所述目标函数。4.根据权利要求3所述的方法,所述目标函数表征为:其中,表示t时间节点的碳排放强度,表示t时间节点下的GPU并行度,表示所述第一能耗值,表示GPU处于运行状态时在单个时间节点下的自身能耗值,则表示一个GPU处于运行状态时在其所处服务器上的其他部分所导致的单个时间节点的能耗值;表示t时间节点下空闲的GPU数量,N为GPU总数目,相应地,表示所述第二能耗值,表示GPU处于空闲状态时在单个时间节点下的自身能耗值,则表示一个GPU处于空闲状态时在其所处服务器上的其他部分所导致的单个时间节点的能耗值;和为用于表征预训练起止时间节点的参数,其中,表示t时间节点是否处于预训练期间,表示t时间节点是否因预训练开始而导致发生服务器开机事件,
表示...

【专利技术属性】
技术研发人员:闫月君王朝阳刘文宇
申请(专利权)人:阿里云计算有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1