一种模型训练优化方法、计算设备、电子设备及存储介质技术

技术编号:34453684 阅读:25 留言:0更新日期:2022-08-06 16:57
本公开提供了模型训练优化方法、计算设备、电子设备及存储介质,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:确定用于模型训练的分词的索引;根据所述分词的索引,确定所述分词的向量表示的存储位置;在所述存储位置为第二计算设备的情况下,从所述第二计算设备获取所述分词的向量表示;采用所述分词的向量表示进行模型训练。本公开能够节约了计算设备的存储空间,扩大训练模型的规模。的规模。的规模。

【技术实现步骤摘要】
一种模型训练优化方法、计算设备、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及深度学习


技术介绍

[0002]深度学习领域通常会使用嵌入(Embedding)层来处理信息的向量表示;例如在自然语言处理(NLP,Natural Language Processing)问题上,通常会使用Embedding层来处理词的语义表示(或称为向量表示)。在实现超大规模模型的训练时,选用的词表往往很大,导致占据计算设备的大部分存储空间,导致限制了模型的规模。

技术实现思路

[0003]本公开提供了一种模型训练优化方法、计算设备、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种模型训练优化方法,应用于第一计算设备,包括:
[0005]确定用于模型训练的分词的索引;
[0006]根据该分词的索引,确定该分词的向量表示的存储位置;
[0007]在该存储位置为第二计算设备的情况下,从所述第二计算设备获取所述分词的向量表示;
[0008]采用该分词的向量表示进行模型训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练优化方法,应用于第一计算设备,包括:确定用于模型训练的分词的索引;根据所述分词的索引,确定所述分词的向量表示的存储位置;在所述存储位置为第二计算设备的情况下,从所述第二计算设备获取所述分词的向量表示;采用所述分词的向量表示进行模型训练。2.根据权利要求1所述的方法,其中,所述第一计算设备和至少一个所述第二计算设备为预先设置的用于并行训练所述模型的计算设备,所述第一计算设备和所述至少一个第二计算设备存储不同分词的向量表示,所述第一计算设备和所述至少一个第二计算设备中存储的向量表示构成所述模型训练所需的词表。3.根据权利要求1或2所述的方法,其中,所述第一计算设备和各个所述第二计算设备分别存储K个分词的向量表示,所述K为正整数;所述根据所述分词的索引,确定所述分词的向量表示的存储位置,包括:利用所述分词的索引及所述K,确定所述分词的向量表示的存储位置。4.根据权利要求1

3中任一所述的方法,其中,所述从所述第二计算设备获取所述分词的向量表示,包括:调用第一函数向所述第二计算设备发送所述分词的索引;调用第二函数从所述第二计算设备接收所述分词的向量表示;其中,所述分词的向量表示由所述第二计算设备利用所述分词的索引查询得到。5.根据权利要求1

4中任一所述的方法,还包括:在所述存储位置为所述第一计算设备的情况下,所述第一计算设备利用所述分词的索引查询所述分词的向量表示;采用查询到的分词的向量表示进行模型训练。6.根据权利要求1

5中任一所述的方法,还包括:调用第二函数从所述第二计算设备接收分词的索引;利用所述分词的索引进行查询,得到所述分词的向量表示;调用第一函数将所述分词的向量表示发送至所述第二计算设备。7.根据权利要求1

6中任一所述的方法,还包括:接收反向梯度数据;根据所述反向梯度数据对应的分词的索引,确定所述反向梯度数据对应的计算设备;在所述反向梯度数据对应的计算设备为所述第二计算设备的情况下,将所述反向梯度数据发送至所述第二计算设备。8.根据权利要求1

7中任一所述的方法,其中,所述第一计算设备或所述第二计算设备为图形处理单元GPU。9.一种计算设备,包括:索引确定模块,用于确定用于模型训练的分词的索引;存储位置确定模块,用于根据所述分词的索引,确定所述分词的向量表示的存储位置;获取模块,用于在所述存储位置为第二计算设备的情况下,从所述第二计算设备获取所述分词的向量表示;
前向训练模块,用于采用所述分词的向量表示进行模型训练。10.根据权利要求9所...

【专利技术属性】
技术研发人员:沈亮巩伟宝刘鹏吴志华于佃海
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1