【技术实现步骤摘要】
基于Shamir安全多方计算的隐私保护多方强化学习系统及方法
[0001]本专利技术涉及的是一种信息安全领域的技术,具体是一种基于Shamir安全多方计算的隐私保护多方强化学习系统及方法。
技术介绍
[0002]安全多方计算(Secure Multi
‑
Party Computation),是一种保护数据安全隐私的多方计算方法。安全多方计算允许多个持有各自私有数据的参与方,共同执行一个计算逻辑,并获得计算结果,参与过程中,每一方均不会泄漏各自的私有数据。秘密分享(Secret Sharing)是安全多方计算中的一种方案,其思想是将秘密以适当的方式拆分,拆分后的每一个份额由不同的参与方管理,单个参与方无法恢复秘密信息,只有若干个参与方一同协作才能恢复秘密消息。在计算过程中为了保护秘密信息,参与方需要利用随机数进行计算,而该随机数的生成和传输决定了多方计算的安全性和效率。
技术实现思路
[0003]本专利技术针对现有技术存在的上述不足,提出一种基于Shamir安全多方计算的隐私保护多方强化学习系 ...
【技术保护点】
【技术特征摘要】
1.一种基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征在于,包括:基于shamir的安全定点数计算模块、基于定点数计算实现的安全梯度下降模块、基于安全梯度下降实现的服务器mix网络模块、智能体网络模块和智能体
‑
服务器通信模块,其中:安全定点数计算模块以计算输入值的秘密分享为输入,通过同态计算,得到计算输入值经过计算的结果的输出秘密分享;安全梯度下降模块根据神经网络输入的秘密分享进行同态的梯度下降计算,将以秘密分享为形式存在与各服务器处的网络参数进行优化;服务器混合网络模块根据智能体网络模块所提交的局部Q值的秘密分享,输出整体Q值的秘密分享,并计算总体奖励,进行梯度下降算法中前向与后向的安全计算,得到参数优化的结果,并提供给智能体网络以供智能体网络优化;智能体网络模块根据状态信息进行网络前向计算得到局部Q值,即本地Q值并生成秘密分享后输出至服务器混合网络模块进行综合与优化,并基于服务器mix网络模块在优化过程中的输出优化本身持有的智能体网络参数,得到优化后的智能体网络参数;智能体
‑
服务器通信模块根据负责各方通信,模型中各服务器两两相连,每个智能体都与每个服务器相连,因此通信内容包括智能体向服务器提交的秘密分享与服务器之间安全计算时通信的秘密分享。2.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的安全定点数计算模块包括:生成秘密分享单元、秘密分享恢复单元、截断协议单元以及符号判断协议单元,其中:生成秘密分享单元根据真实值,生成shamir秘密分享;秘密分享恢复单元根据足够数量的shamir秘密分享,生成对应真实值;截断协议单元以秘密分享与截断位数为输入,进行安全协议,得到对应真实值截断若干末位结果所对应的秘密分享;符号判断协议单元以秘密分享为输入,进行安全协议,得到对应真实值是否小于零的结果的秘密分享。3.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的安全梯度下降模块包括:前向单元和后向单元,其中:前向单元根据神经网络输入的秘密分享,进行前向的同态计算,得到网络输出的秘密分享;后向单元根据神经网络的目标函数的秘密分享,进行后向的同态计算,对神经网络参数进行更新。4.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的服务器mix网络模块包括:安全ReLu层、安全Abs层和安全LeakyReLu层,其分别以本层输入的秘密分享为输入,计算对应神经元与激活函数,共同组成mix网络后,进行同态的前向与后向计算,从而优化Mix网络参数并返回给智能体网络对应梯度以辅助智能体网络优化参数。5.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的智能体网络模块包括:输入单元、递归神经网络单元、动作选择单元以及环境交互单元,其中:输入单元根据各类采样信息,得到递归网络输入的状态信息;递归神经单元根据输入的状态信息进行前向计算得到局部Q值,以服务器的返回信息为输入后向计算,对网络参数进行优化;动作选择单元根据局部Q值,根据所要求的策略输出与环境交互的动作;环境交互单元根据所选动作与环境进行交互,得到状态信息与奖励信息。6.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的各类采样信息包括:通过传感器获得的自身与附近障碍物的位置、速度信息,经量化处理成为作为网络输入的数据。
7.根据权利要求1所述的基于Shamir安全多方计算的隐私保护多方强化学习系统,其特征是,所述的智能体
‑
服务器通信模块包括:智能体收发单元以及服务器收发单元,其中:智能体收发单元负责将局部Q值、总体状态信息、状态奖励信息内容进行秘密分享并将秘密分享发送给对应服务器,然后在从服务器处接收返回的局部Q值梯度的秘密分享,并恢复出局部Q值梯度的真实值;服务器收发单元根据具体协议在服务器之间收发安全计算过程中的秘密分享中间值,以辅助完成计算。8.一种基于上述系统的Shamir安全多方计算的隐私保护多方强化学习方法,包括:样本收集过程与优化参数过程;所述的样本收集过程包括:步骤1)各智能体分别以当前状态为输入,使用各自的本地网络计算本地Q函数;在无人汽车集群控制场景中,智能体通过各种设备收集自身与视线内障碍物的位置、速度数据作为输入,计算本地智能体网络得到本地Q函数;步骤2)各智能体基于本地Q函数,根据∈
‑
贪婪算法自行选择自己所采...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。