当前位置: 首页 > 专利查询>之江实验室专利>正文

一种模型训练加速方法、装置及存储介质制造方法及图纸

技术编号:42331937 阅读:20 留言:0更新日期:2024-08-14 16:08
本说明书公开了一种模型训练加速方法、装置及存储介质,本方法用于在存算分离模式下使用重要性采样方法进行训练的目标模型的训练样本。通过在存储层级预测模型中设置特征重构模块及长短期记忆网络模块,利用特征重构模块,对训练样本被访问信息的特征参数进行特征重构,使得存储层级预测模型充分学习被访问信息的特征。之后,利用长短期记忆网络克服了梯度消失和梯度爆炸的问题。那么,将重构特征输入长短期记忆网络模块,得到预测结果。根据预测结果及标签,对存储层级预测模型进行训练,提高了存储层级预测模型的预测目标模型所需的训练样本的存储层级的准确率,进而提高了上级缓存命中率,加速目标模型训练。

【技术实现步骤摘要】

本说明书涉及计算机领域,尤其涉及一种模型训练加速方法、装置及存储介质


技术介绍

1、随着深度学习训练规模的不断扩大,训练所用数据集大小也一直在快速增长。为了支持更大规模的训练数据集,通常会采用存算分离模式对模型进行训练。并且,为解决存算分离模式下的数据io延迟问题,还可在计算节点上部署本地存储空间,利用计算节点的本地存储空间来缓存部分热点数据,计算节点的本地存储的存储层级也可称为上级存储,那么,存储节点的存储层级可称为下级存储。也就是说,用于存储训练样本的层级包括上级存储及下级存储。其中,热点数据是指使用频率较高的训练样本。

2、通常来说,在对目标模型训练的过程中可通过重要性采样的方法确定出每个训练样本的重要度,选取重要度较高的训练样本可加速目标模型训练效率。那么,在使用根据重要性采样的方法确定出了重要度的训练样本对目标模型训练时,如何提高预测训练样本的存储层级的准确性,以提高上级缓存命中率,进而加速目标模型训练是一个亟待解决的问题。

3、基于此,本说明书提供一种模型训练加速方法。


技术实现思路本文档来自技高网...

【技术保护点】

1.一种模型训练加速方法,其特征在于,存储层级预测模型包括特征重构模块及长短期记忆网络模块,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述被访问信息还包括所述训练样本的标识、大小、历史访问时刻、历史访问次数、相对重要度;

3.如权利要求1所述的方法,其特征在于,所述特征重构模块包括变分自编码器;

4.如权利要求1所述的方法,其特征在于,所述长短期记忆网络模块包括注意力层。

5.如权利要求1所述的方法,其特征在于,根据所述预测结果及所述标签,对所述存储层级预测模型进行训练,具体包括:

6.如权利要求5所述的方法,其特...

【技术特征摘要】

1.一种模型训练加速方法,其特征在于,存储层级预测模型包括特征重构模块及长短期记忆网络模块,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述被访问信息还包括所述训练样本的标识、大小、历史访问时刻、历史访问次数、相对重要度;

3.如权利要求1所述的方法,其特征在于,所述特征重构模块包括变分自编码器;

4.如权利要求1所述的方法,其特征在于,所述长短期记忆网络模块包括注意力层。

5.如权利要求1所述的方法,其特征在于,根据所述预测结果及所述标签,对所述存储层级预测模型进行训练,具体包...

【专利技术属性】
技术研发人员:刘晓宇曾令仿胡陈枢韩珂刘懿
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1