【技术实现步骤摘要】
一种计算机运算加速方法及系统
[0001]本专利技术涉及人工智能领域,尤其涉及基于GPU的人工智能加速方法及系统。
技术介绍
[0002]人工智能(Artificial Intelligence,AI)最初是在1956年的Dartmouth学会上提出,在早期的研究中,受限于计算性能以及存储能力的限制,人工智能的研究进展缓慢。在计算性能大幅提升的基础上,近年来成为了研究的热点,而且很多人工智能项目得到落地,在医疗、交通、语音识别等领域有广泛应用。虽然计算机性能得到很大提升,但是人工智能例如人工神经网络的参数有成千上万个,训练样本也有上万个,训练的过程仍需要很长时间,很多时候需要以天为单位计算训练时间。
[0003]GPU(Graphics Processing Unit,图形处理器)的核心非常多,例如RTX 4090具有16384个CUDA核心,特别适合简单数据的并行计算。但是但一个GPU的计算能力仍然有限,多GPU并行训练能大幅提升训练效率,并行方式主要有数据并行和模型并行,数据并行是指每个GPU中都有人工智能模型的 ...
【技术保护点】
【技术特征摘要】
1.一种计算机运算加速方法,应用在人工智能模型的训练中,其特征在于,所述方法包括以下步骤:S1,判断参与人工智能模型训练的GPU是否相同,如果不相同,采用测试工具获取GPU的性能,根据所述性能得到每个GPU对应的batch_size并将训练样本集分配到对应的GPU;否则,将训练样本集平均分配给各个GPU,并设置相同的batch_size;S2,在相同的iteration中,统计各个GPU完成batch_size个训练样本的时间,根据所述时间调整各个GPU的batch_size;S3,当有GPU中的训练数据被全部训练完成,若是最后一次epoch训练,则等待其他GPU训练完成;否则,停止其他GPU中训练样本的训练,并对其他GPU中未训练的样本进行标记,将标记的样本作为下一次epoch首先进行训练的样本。2.如权利要求1所述的方法,其特征在于,所述根据所述性能得到每个GPU对应的batch_size并将训练样本集分配到对应的GPU,具体为:设置batch_size的区间[Threshold1,Threshold2],将性能最低的GPU的batch_size设置为Threshold1,计算剩余的GPU中第i个GPU的性能与最低GPU性能的比值r
i
,根据公式batch_size
i
=min{r
i
·
Threshold1,Threshold2}计算得到剩余的GPU中第i个GPU的batch_size
i
;其中,i为正整数,且1≤i≤N
‑
1,N为参与人工智能模型训练的GPU个数;根据公式计算得到分配给第j个GPU的训练样本数sample_size
j
,其中,p
j
、p
k
分别为第j、k个GPU的性能,sample_size为训练样本集个数。3.如权利要求1所述的方法,其特征在于,所述根据所述时间调整各个GPU的batch_size,具体为:获取在相同的iteration中,各个GPU完成batch_size个训练样本的训练的最早时间和最晚时间,若所述最晚时间和所述最早时间的差大于时间阈值,则最早时间完成batch_size样本训练的GPU的batch_size增加w,最晚时间完成batch_size样本训练的GPU的batch_size减少w;其中,w为正整数。4.如权利要求1所述的方法,其特征在于,所述根据所述时间调整各个GPU的batch_size,具体为:计算在相同的iteration中,各个GPU完成batch_size个训练样本训练的平均时间,基于GPU完成batch_size个训练样本训练与所述平均时间的偏差,调整GPU对应的batch_size。5.如权利要求1所述的方法,其特征在于,所述基于GPU完成batch_size个训练样本训练与所述平均时间的偏差,调整GPU对应的batch_size,具体为:找出与所述平均时间最接近的GPU的batch_size,将所述最接近的GPU的batch_size作为基准batch_si...
【专利技术属性】
技术研发人员:余方平,
申请(专利权)人:郑州怀守网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。