当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于LSM的大推荐模型训练I/O优化方法及系统技术方案

技术编号:46626612 阅读:2 留言:0更新日期:2025-10-14 21:23
本发明专利技术公开了一种基于LSM的大推荐模型训练I/O优化方法及系统,本发明专利技术包括获取大推荐模型训练的读写请求,为读请求中的热嵌入向量分配在日志合并树中的内部索引键,为写请求中的热嵌入向量通过增加指定前缀;将读请求按照内部索引键排序以重新确定访问顺序;针对写请求将其嵌入向量写入日志合并树;针对读请求,优先读取嵌入缓存、然后读取日志合并树的方式来响应读请求,并将从日志合并树中读取的嵌入向量放入嵌入缓存中以响应未来模型训练中的查询请求。本发明专利技术旨在通过大推荐模型和存储引擎的协同设计,利用基于SSD的日志合并树提升大推荐模型训练中产生的随机读请求的性能,减轻由于训练过程中随机更新训练数据而引起写放大问题。

【技术实现步骤摘要】

本专利技术属于数据库存储和训练系统性能优化领域,具体涉及一种基于lsm的大推荐模型训练i/o优化方法及系统。


技术介绍

1、当前深度推荐模型被广泛应用于各种互联网服务,比如社交媒体、电子商务和搜索等。并且基于深度学习的推荐模型系统已经成为默认的推荐范式。无论是facebook的数据推荐服务、百度的搜索推荐服务还是youtube、netflix的视频推荐服务都使用基于深度学习的点击率预测算法来高效地向用户提供准确、个性化和可扩展的推荐。从资源消耗角度来看,无论是华为公司提出的deepfm、facebook公司提出的dlrm、谷歌公司提出的wideand deep,基于深度学习的推荐算法消耗了当前工业数据中心基础设施很大一部分容量和计算周期。为了给用户提供更加精确的推荐结果,各深度推荐模型发展趋势是不断提升其模型大小(特别是嵌入层大小),以求可以提升模型的泛化能力。facebook中深度推荐模型规模的增长呈现出指数增长的趋势,每3年增长一个数量级。所以大推荐模型训练中如何将快速增长的嵌入层扩展到外部存储以减少内存压力和降低训练成本成为当下训练大推荐模型最迫切的本文档来自技高网...

【技术保护点】

1.一种基于LSM的大推荐模型训练I/O优化方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于LSM的大推荐模型训练I/O优化方法,其特征在于,所述为热嵌入向量通过增加指定前缀来分配在日志合并树LSM-Tree中的内部索引键时,所述内部索引键由指定前缀、间隔符号和原始的键key构成,其中指定前缀为具有最高或最低字典序的字符以用于实现将热嵌入向量按字典序排序。

3.根据权利要求2所述的基于LSM的大推荐模型训练I/O优化方法,其特征在于,所述嵌入缓存中缓存的嵌入向量的信息包括键key、值value和引用次数。

4.根据权利要求1所述的基于LS...

【技术特征摘要】

1.一种基于lsm的大推荐模型训练i/o优化方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述为热嵌入向量通过增加指定前缀来分配在日志合并树lsm-tree中的内部索引键时,所述内部索引键由指定前缀、间隔符号和原始的键key构成,其中指定前缀为具有最高或最低字典序的字符以用于实现将热嵌入向量按字典序排序。

3.根据权利要求2所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述嵌入缓存中缓存的嵌入向量的信息包括键key、值value和引用次数。

4.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,所述读取日志合并树lsm-tree中存储的嵌入向量来响应执行的读请求包括:

5.根据权利要求1所述的基于lsm的大推荐模型训练i/o优化方法,其特征在于,还包括日志合并树lsm-tree执行日志合并的合并线程基于过期数据监控表中记录的热嵌入向量对应的查询时间戳以及每个ssd文件包含的过期冷嵌入向量的数量来执行日志合并:选择过期数据数量最多的ssd文件作为合并输入来执行日志合并,在合并的过程中比较ssd文件中热嵌入向量的查询时间戳和过期数据监控表中记录的最新查询时间戳,若ssd文件中热嵌入向量的查询时间戳大于过期数据监控表中记录的最新查询时间戳则说明该热嵌入向量会即将过期或者已经过期,并安全删除即将过期或者已经过期的热嵌入向...

【专利技术属性】
技术研发人员:卢宇彤高明陈志广张洪宾
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1