一种基于多智能体的MPC缓存更新方法及系统技术方案

技术编号:38392047 阅读:6 留言:0更新日期:2023-08-05 17:45
本发明专利技术涉及一种基于多智能体的MPC缓存更新方法及系统,采用全新逻辑设计,综合考虑各智能体缓存序列分别关于其待缓存数据的整体缺失,通过中心化训练方法,针对各智能体分别用于更新其缓存序列的缓存策略模型进行训练,获得各智能体分别所对应已训练完成的缓存策略模型,并应用去中心化执行方法,在数据不泄露的情况下,使用本地数据进行决策,对各智能体的缓存序列进行准确更新,减少应用中缓存序列置换次数,增加缓存命中率,进而降低了各智能体在数据加载阶段的平均用时,提高各智能体整体在实际应用中对数据调用的响应效率,与传统的基于经验的启发式缓存替换策略相比,本发明专利技术设计效率更高,更加适合复杂和多样化的访问序列场景。序列场景。序列场景。

【技术实现步骤摘要】
一种基于多智能体的MPC缓存更新方法及系统


[0001]本专利技术涉及一种基于多智能体的MPC缓存更新方法及系统,属于多方缓存处理


技术介绍

[0002]安全多方计算(Secure Multi

Party Computation,MPC)研究的内容是如何在没有可信第三方的情况下设计函数,让多方可以在不泄露信息的情况下安全地获取输出,在进行计算操作时,根据MPC节点的计算,查询本地数据,根据计算操作计算数据。在整个过程中数据都存储在本地数据库中,因此不存在数据泄露问题,输入数据的隐私性得到了保证。如果多方本身的数据非常大,那么在数据集从本地服务器加载的过程中会占用大量的时间和计算资源,可以采用缓存替换的方法,减少重复数据的传输。
[0003]缓存技术是提高数据执行效率的主要方法,当处理器正在处理一个具有较高延迟的事件时,如果可以并行处理其他事件,那么数据访问的时间将会大大降低。数据访问速度主要依赖于缓存命中的概率,缓存命中率高的数据访问速度会比缓存命中率低的快上几个数量级,因此,在插入新缓存行时选择删除哪条缓存行,这在高效的缓存替换策略中显得尤为重要。缓存会将数据访问频率较高的内容保存到缓存中,利用算法总是访问相同缓存内容的特点,当算法再次访问时就可以快速获取,大量减少重复数据的传输,缩短了程序的执行时间。
[0004]目前,缓存替换策略可分为两种,一种是基于经验的启发式缓存替换策略,另一种是基于机器学习的缓存替换策略;基于经验的启发式缓存替换策略,FIFO (First In First Out)算法每次替换最先进入的数据,而不考虑之前被访问的频率;LRU(The Least Recently Used)算法每次替换最久未被访问的数据,动态地调整数据记录之间的先后顺序,在实际应用使用较广;LFU(Least Frequently Used)算法每次替换访问次数最小的数据,是对数据访问频率单一维度的考虑。这些方法在一定程度上解决了如何进行缓存替换的问题,但是它们在特定的访问模式上表现良好,遇到多样化和复杂的访问序列则表现不佳。
[0005]许多研究人员将机器学习引入缓存策略,以帮助实现高效的缓存替换。L2LRU算法利用深度学习来学习缓存页面的再访问距离,从而减少重访页面时的指令调用,提高缓存效率。LeCaR是基于机器学习的缓存替换算法,通过强化在线学习和遗憾最小化方法应用于LRU和LFU策略,实现了高性能缓存替换。虽然这些方法都可以提升单一缓存的替换效率,但面对安全多方计算这样需要多方参与,基于单一节点的机器学习方法就不适应MPC节点协同缓存的场景了。

技术实现思路

[0006]本专利技术所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法,采用全新设计策略,综合各智能体对缓存数据的需求,提高各智能体缓存序列的应用效率。
[0007]本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种基于多智能体的MPC缓存更新方法,基于各智能体分别所对应已训练完成的缓存策略模型,各智能体分别实时执行如下步骤A至步骤C,实现各智能体分别所对应缓存序列的更新;其中,缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入,以该缓存序列中替换对象为输出;步骤A. 基于智能体当前所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则该智能体关于该待缓存数据的处理结束;否则进入步骤B;步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据,并应用该智能体所对应的缓存策略模型,获得该缓存序列中替换对象,并进入步骤C;步骤C. 若该缓存序列中替换对象为非空,则应用该待缓存数据对该缓存序列中的替换对象进行替换更新,该智能体关于该待缓存数据的处理结束;若该缓存序列中替换对象为空,则不对该缓存序列进行替换更新,该智能体关于该待缓存数据的处理结束。
[0008]作为本专利技术的一种优选技术方案:基于各智能体分别所对应的价值模型,初始化各智能体分别所对应缓存策略模型中的参数组、各智能体分别所对应价值模型中的参数组,以及初始化迭代次数,执行如下步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练;其中,,表示智能体的数量,表示第个智能体所对应缓存策略模型中的参数组;表示第个智能体所对应价值模型中的参数组;步骤i. 首先初始化各智能体分别所对应的奖励为预设值,然后分别针对各智能体,基于智能体当前时刻所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则对该智能体所对应的奖励不做处理,否则对该智能体所对应的奖励进行减1更新,并将该智能体定义为第次迭代参与方;进而更新获得各智能体当前时刻分别所对应的奖励,再进入步骤ii;其中,表示第个智能体所对应的奖励;步骤ii. 判断全部智能体所对应的奖励之和是否大于预设奖励阈值,是则完成各智能体分别所对应缓存策略模型的训练,即获得各智能体分别所对应已训练完成的缓存策略模型;否则进入步骤iii;步骤iii. 分别针对各个第次迭代参与方,以第次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据,获得各第次迭代参与方当前时刻分别所对应的观测数据,然后进入步骤iv;,表示第次迭代参与方的数量,表示第个第次迭代参与方当前时刻所对应的观测数据;步骤iv. 分别针对各个第次迭代参与方,基于第次迭代参与方当前时刻所对应的观测数据,应用该第次迭代参与方对应的缓存策略模型,获得该第次迭代参与方当前时刻所对应缓存序列中替换对象,进而获得各第次迭代参与方当前时刻分别所对应的其缓存序列中替换对象,然后进入步骤v;其中,表示第个第次迭代参与方所对应缓存策略模型中的参数组,表示第个第次迭代参与方当前时
刻所对应其缓存序列中替换对象;步骤v. 获得全部第次迭代参与方当前时刻分别所对应观测数据的集合,以及获得全部第次迭代参与方当前时刻所对应缓存序列中替换对象的集合,然后进入步骤vi;步骤vi. 分别针对各第次迭代参与方,以集合、集合为输入,应用第次迭代参与方对应的价值模型,获得该第次迭代参与方所对应评分,进而获得各第次迭代参与方分别所对应评分,然后进入步骤vii;其中,表示第个第次迭代参与方所对应价值模型中的参数组;步骤vii. 分别针对各个第次迭代参与方,根据第次迭代参与方所对应评分,更新该第次迭代参与方所对应缓存策略模型中的参数组,同时根据该第次迭代参与方所对应奖励,更新该第次迭代参与方所对应价值模型中的参数组;然后针对的值进行加1更新,并等待进入下一时刻时,再返回步骤i;其中,表示第个第次迭代参与方所对应的奖励。
[0009]作为本专利技术的一种优选技术方案:所述步骤vii中,分别针对各个第次迭代参与方,根据第次迭代参与方所对应评分,应用梯度上升方式更新该第次迭代参与方所对应缓存策略模型中的参数组,同时根据该第次迭代参与方所对应奖励,应用时序差分误差方法更新该第次迭代参与方所对应价值模型中的参数组。
[0010]与上述相对应,本专利技术所要解决的技术问题是提供一种基于多智能体的MPC缓存更新方法的系统,针对各智本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多智能体的MPC缓存更新方法,其特征在于:基于各智能体分别所对应已训练完成的缓存策略模型,各智能体分别实时执行如下步骤A至步骤C,实现各智能体分别所对应缓存序列的更新;其中,缓存策略模型以智能体所对应缓存序列、待缓存数据构成的观测数据为输入,以该缓存序列中替换对象为输出;步骤A. 基于智能体当前所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则该智能体关于该待缓存数据的处理结束;否则进入步骤B;步骤B. 以该智能体当前所对应的缓存序列、待缓存数据构成观测数据,并应用该智能体所对应的缓存策略模型,获得该缓存序列中替换对象,并进入步骤C;步骤C. 若该缓存序列中替换对象为非空,则应用该待缓存数据对该缓存序列中的替换对象进行替换更新,该智能体关于该待缓存数据的处理结束;若该缓存序列中替换对象为空,则不对该缓存序列进行替换更新,该智能体关于该待缓存数据的处理结束。2.根据权利要求1所述一种基于多智能体的MPC缓存更新方法,其特征在于:基于各智能体分别所对应的价值模型,初始化各智能体分别所对应缓存策略模型中的参数组 、各智能体分别所对应价值模型中的参数组,以及初始化迭代次数,执行如下步骤i至步骤vii,完成各智能体分别所对应缓存策略模型的训练;其中,,表示智能体的数量,表示第个智能体所对应缓存策略模型中的参数组;表示第个智能体所对应价值模型中的参数组;步骤i. 首先初始化各智能体分别所对应的奖励为预设值,然后分别针对各智能体,基于智能体当前时刻所对应的缓存序列、待缓存数据,判断该缓存序列中是否存在该待缓存数据,是则对该智能体所对应的奖励不做处理,否则对该智能体所对应的奖励进行减1更新,并将该智能体定义为第次迭代参与方;进而更新获得各智能体当前时刻分别所对应的奖励,再进入步骤ii;其中,表示第个智能体所对应的奖励;步骤ii. 判断全部智能体所对应的奖励之和是否大于预设奖励阈值,是则完成各智能体分别所对应缓存策略模型的训练,即获得各智能体分别所对应已训练完成的缓存策略模型;否则进入步骤iii;步骤iii. 分别针对各个第次迭代参与方,以第次迭代参与方当前时刻所对应的缓存序列、待缓存数据构成观测数据,获得各第次迭代参与方当前时刻分别所对应的观测数据,然后进入步骤iv;,表示第次迭代参与方的数量,表示第个第次迭代参与方当前时刻所对应的观测数据;步骤iv. 分别针对各个第次迭代参与方,基于第次迭代参与方...

【专利技术属性】
技术研发人员:李明柱李文敏刘淳于陈飞
申请(专利权)人:信联科技南京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1