使用强化学习代理管理存储在缓存中的数据制造技术

技术编号：35726744 阅读：42 留言：0更新日期：2022-11-26 18:25

公开了使用强化学习代理来管理存储在缓存中的数据，包括：确定关于缓存的当前状态观测集，其中基于对缓存的历史缓存访问来确定当前状态观测集；将当前状态观测集输入到强化学习代理的行动者网络，以获得由行动者网络输出的动作，其中强化学习代理被配置为管理存储在缓存中的数据；将当前状态观测集和动作输入到强化学习代理的评论家网络，以从评论家网络获得对应于动作的分数；使强化学习代理执行与管理存储在缓存中的数据有关的动作；使用分数来更新行动者网络；以及使用对应于动作的奖励来更新评论家网络。更新评论家网络。更新评论家网络。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用强化学习代理管理存储在缓存中的数据

技术介绍

[0001]分层存储器实现了延迟和存储能力之间的权衡。然而，通过利用程序中的数据局部性和缓存频繁访问的数据项，缓存能够加速计算系统。例如，缓存命中率增加1％可以使得web服务器减少35％的延迟。在缓存大小有限的情况下提高缓存性能需要对未来的数据重用进行良好预测。
[0002]目前，基于固定规则管理缓存中存储的数据。例如，关于何时将数据存储到缓存中以及何时移出已存储在缓存内的数据的固定规则是基于诸如缓存中的数据最近使用的时间(例如LRU)和/或缓存中的数据的使用频率(例如LFU)的衡量指标。然而，这种用于管理存储在缓存中的数据的固定规则对不同的缓存场景和/或由缓存服务的工作负载的潜在变化不够灵活，因此，这种缓存中数据管理的固定规则可能导致不被期望的较高的缓存未命中率。
附图说明
[0003]以下详细说明和附图中公开了本专利技术的各种实施例。
[0004]图1是根据一些实施例的缓存环境中的基于深度确定性策略梯度(Deep Deterministic Policy Gradients，DDPG)本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种系统，包括：一个或多个处理器；和一个或多个存储器，其耦合到所述一个或多个处理器，并被配置为向所述一个或多个处理器提供指令，所述一个或多个处理器被配置为：确定关于缓存的当前状态观测集，其中所述当前状态观测集至少部分地基于对所述缓存的多个历史缓存访问来确定；将所述当前状态观测集输入到强化学习代理的行动者网络中，以获得由所述行动者网络输出的动作，其中所述强化学习代理被配置为管理存储在所述缓存中的数据；将所述当前状态观测集和所述动作输入到所述强化学习代理的评论家网络中，以从所述评论家网络获得对应于所述动作的分数；使所述强化学习代理执行与管理存储在所述缓存中的数据有关的动作；使用对应于所述动作的分数来更新所述行动者网络；和使用对应于所述动作的奖励来更新所述评论家网络。2.根据权利要求1所述的系统，其中，所述当前状态观测集包括与状态定义集合中的相应状态定义对应的值，其中，状态定义包括落在所述缓存的最近缓存访问的滑动窗口内的缓存访问相关联的属性。3.根据权利要求1所述的系统，其中，响应于与所述缓存有关的触发事件的发生来确定所述当前状态观测集。4.根据权利要求1所述的系统，其中，由所述行动者网络输出的所述动作包括输出何时将数据项从所述缓存中移出的指令。5.根据权利要求1所述的系统，其中，由所述行动者网络输出的所述动作包括输出从所述缓存中移出指定数据项的指令。6.根据权利要求1所述的系统，其中，由所述行动者网络输出的所述动作包括输出将新添加的数据项存储到所述缓存中的一位置的指令。7.根据权利要求1所述的系统，其中，所述使用对应于所述动作的分数来更新所述行动者网络包括至少部分地基于所述分数在所述行动者网络中执行反向传播。8.根据权利要求1所述的系统，其中，对应于所述动作的所述奖励包括在与所述缓存执行的动作相关联的缓存命中的情况下的第一奖励值，或者在与所述缓存执行的动作相关联的缓存未命中的情况下的第二奖励值，其中所述第一奖励值不同于所述第二奖励值。9.根据权利要求1所述的系统，其中，所述一个或多个处理器还被配置为：确定关于所述缓存的下一状态观测集；生成包括所述当前状态观测集、所述下一状态观测集、所述动作和所述奖励的样本；和将所述样本存储在被配置为存储多个样本的存储器中。10.根据权利要求9所述的系统，其中，所述一个或多个处理器还被配置为：从所述多个样本中选择样本的子集；和使用所述样本的子集训练强化学习代理。11.根据权利要求1所述的系统，其中，所述强化学习代理包括基于深度确定性策略梯度的强化学习代理。12.一种方法，包括：
确定关...

【专利技术属性】
技术研发人员：李浩然，李鹏程，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人