当前位置: 首页 > 专利查询>广州大学专利>正文

基于强化学习的隐私策略优化方法、系统及可读存储介质技术方案

技术编号:27031035 阅读:23 留言:0更新日期:2021-01-12 11:14
本发明专利技术公开了一种基于强化学习的隐私策略优化方法、系统及可读存储介质,所述方法包括:在移动端部署输入样本特征提取器,在云端部署输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;通过测试样本集对初始模型进行测试,将测试信息、当前的超参数和层数存储于为一信息单元;将信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;通过当前超参数优化器网络对初始模型进行优化,并获取最终的超参数优化结果和层数n。本发明专利技术能够在尽量不降低业务准确率的情况下提高隐私保护效果。

【技术实现步骤摘要】
基于强化学习的隐私策略优化方法、系统及可读存储介质
本专利技术涉及隐私保护
,特别是涉及一种基于强化学习的隐私策略优化方法、系统及可读存储介质。
技术介绍
隐私感知是隐私保护过程中的重要先决条件,而图像是目前社交网络中最主要的信息类型之一,对海量的图像数据进行隐私感知变得尤为关键。隐私感知作为隐私保护的重要组成部分非,在实际应用中起着质感重要的作用。现有的隐私保护机制通常采用差分隐私算法实现,此类方法具有普适性,几乎可以使用在任何隐私保护场景中。然而,由于添加噪声机制的方式与服务质量息息相关:如果差分隐私的噪声强度(根据隐私预算调整)过大,则会造成深度学习算法准确率的下降;如果差分隐私的噪声强度过下,又会使得隐私保护效果不达标。因此,必须非常仔细地选择噪声添加位置与噪声强度,这种选择需要经验丰富的专业人员付出大量人力精力,且容易出现参数错误而导致的隐私泄露或者服务结果失效。
技术实现思路
为了解决上述问题,本专利技术的目的是提供一种能够在尽量不降低业务准确率的情况下提高隐私保护效果的基于强化学习的隐私策略优化方法、系统及可读存储介质。一种基于强化学习的隐私策略优化方法,所述方法包括:在移动端部署n层神经元网络作为输入样本特征提取器,并在云端部署已独立完成训练的输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;通过测试样本集对所述初始模型进行测试,将测试信息、当前的超参数和层数存储于为一信息单元,设置并初始化超参数优化器;将所述信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;当隐私信息与业务可用性之间的相关性的权衡效果平衡时,运行所述初始模型,通过当前超参数优化器网络对所述初始模型进行优化,并获取最终的超参数优化结果和层数n。根据本专利技术提供的基于强化学习的隐私策略优化方法,首先在移动端部署n层神经元网络作为输入样本特征提取器,并在云端部署已独立完成训练的输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;然后通过测试样本集对当前输入样本特征提取器、输入样本重构器、目标分类器及隐私分类器进行测试,将测试信息、当前的超参数和层数存储于为一信息单元,设置并初始化超参数优化器;将信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;当隐私信息与业务可用性之间的相关性的权衡效果平衡时,运行所述初始模型,通过当前超参数优化器网络对所述初始模型进行优化,并获取最终的超参数优化结果和层数n。本专利技术能够自动化地选择服务质量和隐私保护权重,避免错误参数导致的隐私泄露或者服务结果失效,满足了实际应用需求。另外,根据本专利技术上述的基于强化学习的隐私策略优化方法,还可以具有如下附加的技术特征:进一步地,在移动端部署n层神经元网络作为输入样本特征提取器的步骤之前,所述方法还包括:当隐私信息与业务可用性之间的相关性为第二相关性时,调整输入样本特征提取器中的损失函数系数,以得到不同隐私保护强度下的业务识别准确率;当隐私信息与业务可用性之间的相关性为第二相关性时,调整输入样本特征提取器中的损失函数系数,以得到不同隐私保护强度下的业务识别准确率;当隐私信息与业务可用性之间的相关性为第三相关性时,根据用户的选择调整业务任务识别准确率与隐私推测准确率。进一步地,所述初始模型的创建方法包括:分别将L(TC)-λARL(AR)及L(TC)-λPCL(PC)作为图像复原训练及隐私推测训练的输入样本特征提取器的损失函数;以输入样本特征提取器输出的样本特征作为输入,再次对所述输入样本特征提取器、输入样本重构器、目标分类器及隐私分类器进行训练,直至得到收敛的输入样本特征提取器的参数。进一步地,所述测试信息包括当前样本平均复原度、隐私推测准确率、目标分类准确率、输入样本特征提取器的输出层参数、运行时长和能耗信息,设置并初始化超参数优化器的方法包括:设置一个随机参数的长短时记忆网络作为超参数优化器并初始化其超参数。进一步地,所述根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新的方法包括:将所述信息单元中输入样本特征提取器的输出层参数、超参数及层数与第T-1次测试所得到的状态信息元组进行合并,组成当前状态信息元组;将所述状态信息元组输入超参数优化器网络,通过贪婪算法进行超参数优化方案的选择与初始模型的训练,并对信息单元与当前状态信息元组更新;对更新后的信息单元中的测试信息做归一化处理,得到所述超参数优化方案的奖励值;将获得的五元组存储至超参数优化器的经验池中,并从经验池中取出若干个五元组,并将元组中的当前状态信息输入超参数优化器网络中进行优化方案价值的更新;根据更新后的优化方案价值,通过均方差损失函数更新所述超参数优化器网络参数。进一步地,所述五元组包括状态信息元组,超参数优化方案、当前状态信元组、奖励值、优化结束标志。本专利技术的另一实施例提出一种基于强化学习的隐私策略优化系统,解决了现有差分隐私算法必须非常仔细地选择噪声添加位置与噪声强度,这种选择需要经验丰富的专业人员付出大量人力精力,且容易出现参数错误而导致的隐私泄露或者服务结果失效的问题。根据本专利技术实施例的基于强化学习的隐私策略优化系统,包括:部署模块,用于在移动端部署n层神经元网络作为输入样本特征提取器,并在云端部署已独立完成训练的输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;测试模块,用于通过测试样本集对所述初始模型进行测试,将测试信息、当前的超参数和层数存储于为一信息单元,设置并初始化超参数优化器;更新模块,用于将所述信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;优化模块,用于当隐私信息与业务可用性之间的相关性的权衡效果平衡时,运行所述初始模型,通过当前超参数优化器网络对所述初始模型进行优化,并获取最终的超参数优化结果和层数n。进一步地,所述部署模块包括:分配单元,用于分别将L(TC)-λARL(AR)及L(TC)-λPCL(PC)作为图像复原训练及隐私推测训练的输入样本特征提取器的损失函数;训练单元,用于以输入样本特征提取器输出的样本特征作为输入,再次对所述输入样本特征提取器、输入样本重构器、目标分类器及隐私分类器进行训练,直至得到收敛的输入样本特征提取器的参数。进一步地,所述测试信息包括当前样本平均复原度、隐私推测准确率、目标分类准确率、输入样本特征提取器的输出层参数、运行时长和能耗信息,所本文档来自技高网...

【技术保护点】
1.一种基于强化学习的隐私策略优化方法,其特征在于,所述方法包括如下步骤:/n在移动端部署n层神经元网络作为输入样本特征提取器,并在云端部署已独立完成训练的输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;/n通过测试样本集对所述初始模型进行测试,将测试信息、当前的超参数和层数存储于为一信息单元,设置并初始化超参数优化器;/n将所述信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;/n当隐私信息与业务可用性之间的相关性的权衡效果平衡时,运行所述初始模型,通过当前超参数优化器网络对所述初始模型进行优化,并获取最终的超参数优化结果和层数n。/n

【技术特征摘要】
1.一种基于强化学习的隐私策略优化方法,其特征在于,所述方法包括如下步骤:
在移动端部署n层神经元网络作为输入样本特征提取器,并在云端部署已独立完成训练的输入样本重构器、目标分类器及隐私分类器,以完成初始模型的初始化;
通过测试样本集对所述初始模型进行测试,将测试信息、当前的超参数和层数存储于为一信息单元,设置并初始化超参数优化器;
将所述信息单元的状态信息输入超参数优化器中进行超参数信息优化方案的选择、执行与优化方案奖励值的计算,并根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新;
当隐私信息与业务可用性之间的相关性的权衡效果平衡时,运行所述初始模型,通过当前超参数优化器网络对所述初始模型进行优化,并获取最终的超参数优化结果和层数n。


2.根据权利要求1所述的基于强化学习的隐私策略优化方法,其特征在于,在对初始模型进行初始化的步骤之前,所述方法还包括:
当隐私信息与业务可用性之间的相关性为第一相关性时,根据用户的选择调整行业务任务识别准确率或隐私推测准确率;
当隐私信息与业务可用性之间的相关性为第二相关性时,调整输入样本特征提取器中的损失函数系数,以得到不同隐私保护强度下的业务识别准确率;
当隐私信息与业务可用性之间的相关性为第三相关性时,根据用户的选择调整业务任务识别准确率与隐私推测准确率。


3.根据权利要求1所述的基于强化学习的隐私策略优化方法,其特征在于,所述初始模型的创建方法包括:
分别将L(TC)-λARL(AR)及L(TC)-λPCL(PC)作为图像复原训练及隐私推测训练的输入样本特征提取器的损失函数;
以输入样本特征提取器输出的样本特征作为输入,再次对所述输入样本特征提取器、输入样本重构器、目标分类器及隐私分类器进行训练,直至得到收敛的输入样本特征提取器的参数。


4.根据权利要求1所述的基于强化学习的隐私策略优化方法,其特征在于,所述测试信息包括当前样本平均复原度、隐私推测准确率、目标分类准确率、输入样本特征提取器的输出层参数、运行时长和能耗信息,设置并初始化超参数优化器的方法包括:设置一个随机参数的长短时记忆网络作为超参数优化器并初始化其超参数。


5.根据权利要求4所述的基于强化学习的隐私策略优化方法,其特征在于,所述根据计算结果进行超参数优化器样本的增加、优化方案价值的更新及超参数优化器网络参数的更新的方法包括:
将所述信息单元中输入样本特征提取器的输出层参数、超参数及层数与第T-1次测试所得到的状态信息元组进行合并,组成当前状态信息元组;<...

【专利技术属性】
技术研发人员:孙哲殷丽华万俊平李超罗熙顾钊铨张伟哲
申请(专利权)人:广州大学鹏城实验室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1