【技术实现步骤摘要】
一种数据处理方法、系统、设备及可读存储介质
[0001]本申请涉及计算机
,特别涉及一种数据处理方法、系统、设备及可读存储介质。
技术介绍
[0002]目前,可以借助硬件模块(如GPU)进行模型训练。例如:作为主机的服务器将大量训练数据发给硬件模块,硬件模块处理训练数据进行模型训练,模型训练完成后,硬件模块将训练完成的模型反馈给主机。由于训练数据的数据量较大,且主机和硬件模块之间的数据传输需要经过主机内存、GPU缓存、GPU内存等存储介质,因此主机和硬件模块之间的数据传输开销较大,会影响模型训练效率。
[0003]因此,如何降低主机和硬件模块之间的数据传输开销,提升模型训练效率,是本领域技术人员需要解决的问题。
技术实现思路
[0004]有鉴于此,本申请的目的在于提供一种数据处理方法、系统、设备及可读存储介质,以降低主机和硬件模块之间的数据传输开销,提升模型训练效率。其具体方案如下:第一方面,本申请提供了一种数据处理方法,应用于与主机通过CXL(Compute Express Link,高速互联 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于与主机通过CXL协议连接的硬件计算平台,包括:基于CXL协议共享所述主机中的、用于训练目标模型的训练数据;调用所述目标模型处理所述训练数据得到训练结果,并基于所述训练结果计算所述目标模型的新参数;其中,计算所述新参数包括:确定矩滑动平均当前值,并基于所述矩滑动平均当前值调整学习率,基于调整后的学习率计算所述新参数;利用所述新参数更新所述目标模型,得到新模型;若所述新模型符合收敛条件,则保留所述新模型,并使所述主机基于CXL协议共享所述新模型。2.根据权利要求1所述的方法,其特征在于,所述确定矩滑动平均当前值,并基于所述矩滑动平均当前值调整学习率,包括:基于预设的目标衰减系数和矩滑动平均最大值确定矩滑动平均当前值;若所述矩滑动平均当前值大于预设阈值,则利用warmup策略调整所述学习率;否则,利用随机梯度下降以及动量算法调整所述学习率。3.根据权利要求2所述的方法,其特征在于,所述基于预设的目标衰减系数和矩滑动平均最大值确定矩滑动平均当前值,包括:按照第一公式计算所述矩滑动平均当前值;所述第一公式为:其中,ρ
t
为所述矩滑动平均当前值,ρ
∞
为所述矩滑动平均最大值,t表示当前训练时刻,β2为所述目标衰减系数。4.根据权利要求2所述的方法,其特征在于,所述利用warmup策略调整所述学习率,包括:基于所述训练数据、所述训练结果以及前一训练时刻输出的模型参数计算当前训练时刻的更新梯度;基于预设的对象衰减系数、所述更新梯度和前一训练时刻的第一滑动平均计算新第一滑动平均;基于所述更新梯度、所述目标衰减系数、所述新第一滑动平均和前一训练时刻的第二滑动平均计算新第二滑动平均;基于所述新第二滑动平均和所述目标衰减系数计算当前训练时刻的学习率;相应地,所述基于调整后的学习率计算所述新参数,包括:基于当前训练时刻的...
【专利技术属性】
技术研发人员:郭振华,邱志勇,赵雅倩,李仁刚,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。