System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请属于人工智能,具体涉及一种模型训练方法及其装置。
技术介绍
1、随着生成式人工智能(artificial intelligence,ai)技术的发展,ai模型能力越发强大,例如,ai模型可以生成与用户相似的证件照。目前,若想要得到可以生成与用户相关的内容的ai模型,则需要通过与用户相关的数据来对该ai模型进行训练,如可以生成用户写真图像的ai模型需要使用包含用户的图像进行训练,可以模拟用户语言风格与其他用户进行交流的ai模型需要使用用户的历史聊天记录进行训练。
2、然而,由于ai模型训练时,涉及的参数量大,且ai模型的训练需要经过多轮迭代,因此,导致ai模型的训练内存占用较大,且训练时间较长,进而导致模型训练的效率较差。
技术实现思路
1、本申请实施例的目的是提供一种模型训练方法及其装置,能够减少ai模型训练时的内存占用和训练时长,提高ai模型训练的效率。
2、第一方面,本申请实施例提供了一种模型训练方法,该方法包括:获取第一模型对应的第一计算图,第一计算图用于描述第一模型的n个第一计算节点之间的计算顺序,n为正整数;从n个第一计算节点中确定出m个第一计算节点,m为小于或等于n的正整数;计算与m个第一计算节点一一对应的m个梯度,并基于每个梯度分别更新对应的第一计算节点的权重参数,得到训练后的第一模型。
3、第二方面,本申请实施例提供了一种模型训练装置,该装置包括:处理模块;处理模块,用于获取第一模型对应的第一计算图,第一计算图用于描述第一模
4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
7、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
8、在本申请实施例中,电子设备可以先获取第一模型对应的第一计算图,第一计算图用于描述第一模型的n个第一计算节点之间的计算顺序,n为正整数;再从n个第一计算节点中确定出m个第一计算节点,m为小于或等于n的正整数;计算与m个第一计算节点一一对应的m个梯度,并基于每个梯度分别更新对应的第一计算节点的权重参数,得到训练后的第一模型。通过该方案,由于电子设备可以在获取到用于描述第一模型的n个第一计算节点之间的计算顺序的第一计算图的情况下,从该第一模型的n个第一计算节点确定出部分第一计算节点(即m个第一计算节点),并仅计算该部分第一计算节点的梯度,而无需计算n个第一计算节点的梯度,这样电子设备基于该m个梯度,仅更新部分第一计算节点的权重参数,而无需更新n个第一计算节点的权重参数,便可以完成对第一模型的训练。因此,通过减少需要进行梯度计算的节点的数量,减少了模型训练时的资源占用,从而减少了模型训练时的内存占用和训练时长,提高模型训练的效率。
本文档来自技高网...【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取第一模型对应的第一计算图,包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述N个第一计算节点中确定出M个第一计算节点,包括:
4.根据权利要求1所述的方法,其特征在于,所述计算与所述M个第一计算节点一一对应的M个梯度之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种模型训练装置,其特征在于,所述装置包括:处理模块;
7.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于将所述N个第一计算节点中,从所述LoRA计算节点至第三计算节点的计算节点,确定为所述M个第一计算节点,所述第三计算节点为所述N个第一计算节点中的输出节点。
9.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于在计算与所述M个第一计算节点一一对应的M个梯度之前,基于所述M个第一计算节点,
10.根据权利要求9所述的装置,其特征在于,所述处理模块,还用于基于N+M个第一内存大小,确定第一顺序,每个第一内存大小分别对应所述第三计算图中的一个计算节点,所述第一内存大小为计算对应的所述计算节点所需的内存大小,所述第一顺序用于指示为所述第三计算图中的N+M个计算节点分配内存块的顺序;
...【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取第一模型对应的第一计算图,包括:
3.根据权利要求2所述的方法,其特征在于,所述从所述n个第一计算节点中确定出m个第一计算节点,包括:
4.根据权利要求1所述的方法,其特征在于,所述计算与所述m个第一计算节点一一对应的m个梯度之前,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
6.一种模型训练装置,其特征在于,所述装置包括:处理模块;
7.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于:
8.根据权利要求7所述的装置,其特征在于,所述处理模块,具体用于将所述n个第一计算节点中,从所述lora计算节点至第三...
【专利技术属性】
技术研发人员:覃营晟,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。