【技术实现步骤摘要】
数据加载方法、装置、电子设备和存储介质
[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习、云计算等
,尤其涉及数据加载方法、装置、电子设备和存储介质。
技术介绍
[0002]在使用多个GPU(graphics processing unit,图形处理器)(后续简称为多卡)对深度学习模型进行分布式训练中,如果模型训练意外终止或中断,则需要重启训练任务,并恢复训练现场,以对深度学习模型进行继续训练。或者,如果硬件资源、训练策略等改变,则需保存训练现场,并迁移到其他环境进行训练现场的恢复,以对深度学习模型进行继续训练。因此,如何实现训练现场的恢复,以尽可能少地丢失训练成果是非常重要的。
技术实现思路
[0003]本公开提供了一种用于数据加载方法、装置、电子设备和存储介质。
[0004]根据本公开的一方面,提供了一种数据加载方法,包括:
[0005]获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量;
[0006]加载所述深度学习模型的模型参数的参数信息;
[0007]在所述第一数量为多个的情况下,对所述参数信息中所述模型参数的第一参数值集合进行分组,以得到所述第一数量的所述模型参数的第二参数值集合;
[0008]将所述第一数量的所述模型参数的第二参数值集合,加载至所述第一数量的所述第一GPU。
[0009]根据本公开的另一方面,提供了一种数据加载装置,包括:
[0010]获取模块,用于获取用于对深度学习模型进行深 ...
【技术保护点】
【技术特征摘要】
1.一种数据加载方法,所述方法包括:获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量;加载所述深度学习模型的模型参数的参数信息;在所述第一数量为多个的情况下,对所述参数信息中所述模型参数的第一参数值集合进行分组,以得到所述第一数量的所述模型参数的第二参数值集合;将所述第一数量的所述模型参数的第二参数值集合,加载至所述第一数量的所述第一GPU。2.根据权利要求1所述的方法,其中,所述参数信息存储于多个第二GPU中,所述对所述参数信息中所述模型参数的第一参数值集合进行分组,以得到所述第一数量的所述模型参数的第二参数值集合,包括:根据所述参数信息,确定所述模型参数的第一切分方式;根据所述第一切分方式和所述第一数量,对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组,以得到所述第一数量的所述模型参数的第二参数值集合。3.根据权利要求2所述的方法,其中,所述根据所述第一切分方式和所述第一数量,对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组,包括:确定所述第二GPU的第二数量;在所述第一数量为所述第二数量的非整数倍,或所述第二数量为所述第一数量的非整数倍的情况下,根据所述第一切分方式,将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并,以得到第三参数值集合;根据所述第一数量和所述第一切分方式,对所述第三参数值集合进行切分,以得到所述第一数量的第二参数值集合。4.根据权利要求3所述的方法,其中,所述根据所述第一切分方式和所述第一数量,对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组,还包括:在所述第一数量为第二数量的N倍的情况下,根据N和所述第一切分方式,将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行切分,以得到所述第一数量的第二参数值集合;在所述第二数量为所述第一数量的M倍的情况下,根据M和所述第一切分方式,将从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并,以得到所述第一数量的第二参数值集合;其中,N和M均为大于1的正整数。5.根据权利要求3所述的方法,其中,所述根据所述第一切分方式和所述第一数量,对从所述多个第二GPU中加载的参数信息中的所述模型参数的第一参数值集合进行分组,还包括:在所述第一数量等于所述第二数量的情况下,将从每个所述第二GPU中加载的参数信息中的所述模型参数的第一参数值集合,作为一个所述第二参数值集合。6.根据权利要求1所述的方法,其中,所述参数信息存储于一个第三GPU中,
所述对所述参数信息中所述模型参数的第一参数值集合进行分组,以得到所述第一数量的所述模型参数的第二参数值集合,包括:从所述参数信息中提取第二切分方式,其中,所述第一参数值集合是根据所述第二切分方式对所述模型参数对应的多个参数值子集进行合并得到的;根据所述第二切分方式和所述第一数量,对所述参数信息中的所述模型参数的第一参数值集合进行切分,以得到所述第一数量的第二参数值集合。7.根据权利要求1
‑
6中任一项所述的方法,其中,所述方法还包括:从所述参数信息中提取第一训练策略;将所述第一训练策略加载至所述第一GPU,以使所述第一GPU根据加载的所述第一训练策略和所述模型参数的第二参数值集合进行所述深度学习模型的深度学习。8.根据权利要求1所述的方法,其中,所述方法还包括:在所述第一数量为单个的情况下,确定存储所述参数信息的第四GPU的第三数量;在所述第三数量为多个的情况下,根据所述参数信息,确定所述模型参数的第三切分方式;根据所述第三切分方式,将从所述多个第四GPU中加载的参数信息中的所述模型参数的第一参数值集合进行合并,以得到第四参数值集合;将所述第四参数值集合,加载至所述第一GPU。9.根据权利要求8所述的方法,其中,所述方法,还包括:在所述第三数量为单个的情况下,将从所述第四GPU中加载的参数信息中的所述模型参数的第一参数值集合,加载至所述第一GPU。10.根据权利要求8或9所述的方法,其中,所述方法还包括:从所述参数信息中提取第二训练策略;将所述第二训练策略加载至所述第一GPU,以使所述第一GPU根据加载的所述第二训练策略以及所述模型参数的第一参数值集合或第四参数值集合进行所述深度学习模型的深度学习。11.一种数据加载装置,所述装置包括:获取模块,用于获取用于对深度学习模型进行深度学习的第一图形处理器GPU的第一数量;第一加载模块,用于加载所述深度学习模型的模型参数的参数信息;分组模块,用...
【专利技术属性】
技术研发人员:沈亮,郝宏翔,刘鹏,巩伟宝,吴志华,于佃海,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。