【技术实现步骤摘要】
本专利技术属于数据库存储和训练系统性能优化领域,具体涉及一种基于lsm的大推荐模型训练i/o优化方法及系统。
技术介绍
1、当前深度推荐模型被广泛应用于各种互联网服务,比如社交媒体、电子商务和搜索等。并且基于深度学习的推荐模型系统已经成为默认的推荐范式。无论是facebook的数据推荐服务、百度的搜索推荐服务还是youtube、netflix的视频推荐服务都使用基于深度学习的点击率预测算法来高效地向用户提供准确、个性化和可扩展的推荐。从资源消耗角度来看,无论是华为公司提出的deepfm、facebook公司提出的dlrm、谷歌公司提出的wideand deep,基于深度学习的推荐算法消耗了当前工业数据中心基础设施很大一部分容量和计算周期。为了给用户提供更加精确的推荐结果,各深度推荐模型发展趋势是不断提升其模型大小(特别是嵌入层大小),以求可以提升模型的泛化能力。facebook中深度推荐模型规模的增长呈现出指数增长的趋势,每3年增长一个数量级。所以大推荐模型训练中如何将快速增长的嵌入层扩展到外部存储以减少内存压力和降低训练成本成为当下训
...【技术保护点】
1.一种基于LSM的大推荐模型训练I/O优化方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于LSM的大推荐模型训练I/O优化方法,其特征在于,所述为热嵌入向量通过增加指定前缀来分配在日志合并树LSM-Tree中的内部索引键时,所述内部索引键由指定前缀、间隔符号和原始的键key构成,其中指定前缀为具有最高或最低字典序的字符以用于实现将热嵌入向量按字典序排序。
3.根据权利要求2所述的基于LSM的大推荐模型训练I/O优化方法,其特征在于,所述嵌入缓存中缓存的嵌入向量的信息包括键key、值value和引用次数。
4.根据权利
...【技术特征摘要】
1.一种基于lsm的大推荐模型训练i/o优化方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述为热嵌入向量通过增加指定前缀来分配在日志合并树lsm-tree中的内部索引键时,所述内部索引键由指定前缀、间隔符号和原始的键key构成,其中指定前缀为具有最高或最低字典序的字符以用于实现将热嵌入向量按字典序排序。
3.根据权利要求2所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述嵌入缓存中缓存的嵌入向量的信息包括键key、值value和引用次数。
4.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述读取日志合并树lsm-tree中存储的嵌入向量来响应执行的读请求包括:
5.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,还包括日志合并树lsm-tree执行日志合并的合并线程基于过期数据监控表中记录的热嵌入向量对应的查询时间戳以及每个ssd文件包含的过期冷嵌入向量的数量来执行日志合并:选择过期数据数量最多的ssd文件作为合并输入来执行日志合并,在合并的过程中比较ssd文件中热嵌入向量的查询时间戳和过期数据监控表中记录的最新查询时间戳,若ssd文件中热嵌入向量的查询时间戳大于过期数据监控表中记录的最新查询时间戳则说明该热嵌入向量会即将过期或者已经过期,并安全删除即将过期或者已经过期的热嵌入向...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。