【技术实现步骤摘要】
本说明书涉及计算机领域,尤其涉及一种模型训练加速方法、装置及存储介质。
技术介绍
1、随着深度学习训练规模的不断扩大,训练所用数据集大小也一直在快速增长。为了支持更大规模的训练数据集,通常会采用存算分离模式对模型进行训练。并且,为解决存算分离模式下的数据io延迟问题,还可在计算节点上部署本地存储空间,利用计算节点的本地存储空间来缓存部分热点数据,计算节点的本地存储的存储层级也可称为上级存储,那么,存储节点的存储层级可称为下级存储。也就是说,用于存储训练样本的层级包括上级存储及下级存储。其中,热点数据是指使用频率较高的训练样本。
2、通常来说,在对目标模型训练的过程中可通过重要性采样的方法确定出每个训练样本的重要度,选取重要度较高的训练样本可加速目标模型训练效率。那么,在使用根据重要性采样的方法确定出了重要度的训练样本对目标模型训练时,如何提高预测训练样本的存储层级的准确性,以提高上级缓存命中率,进而加速目标模型训练是一个亟待解决的问题。
3、基于此,本说明书提供一种模型训练加速方法。
本文档来自技高网...
【技术保护点】
1.一种模型训练加速方法,其特征在于,存储层级预测模型包括特征重构模块及长短期记忆网络模块,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述被访问信息还包括所述训练样本的标识、大小、历史访问时刻、历史访问次数、相对重要度;
3.如权利要求1所述的方法,其特征在于,所述特征重构模块包括变分自编码器;
4.如权利要求1所述的方法,其特征在于,所述长短期记忆网络模块包括注意力层。
5.如权利要求1所述的方法,其特征在于,根据所述预测结果及所述标签,对所述存储层级预测模型进行训练,具体包括:
6.如权利要
...【技术特征摘要】
1.一种模型训练加速方法,其特征在于,存储层级预测模型包括特征重构模块及长短期记忆网络模块,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述被访问信息还包括所述训练样本的标识、大小、历史访问时刻、历史访问次数、相对重要度;
3.如权利要求1所述的方法,其特征在于,所述特征重构模块包括变分自编码器;
4.如权利要求1所述的方法,其特征在于,所述长短期记忆网络模块包括注意力层。
5.如权利要求1所述的方法,其特征在于,根据所述预测结果及所述标签,对所述存储层级预测模型进行训练,具体包...
【专利技术属性】
技术研发人员:刘晓宇,曾令仿,胡陈枢,韩珂,刘懿,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。