一种协作学习场景下基于符号翻转的隐私保护方法和系统技术方案

技术编号:39653141 阅读:11 留言:0更新日期:2023-12-09 11:21
本发明专利技术公开了一种协作学习场景下基于符号翻转的隐私保护方法,包括:服务端与

【技术实现步骤摘要】
一种协作学习场景下基于符号翻转的隐私保护方法和系统


[0001]本专利技术属于机器学习数据隐私安全领域,更具体地,涉及一种协作学习场景下基于符号翻转的隐私保护方法和系统


技术介绍

[0002]大数据

人工智能等领域的迅猛发展,为传统产业带来新机遇的同时,也对数据隐私安全带来了全新挑战

如何在满足数据隐私

安全和监管要求的前提下,构建一个高效准确的机器学习框架,使得人工智能系统能够协同使用各自的数据,成为当前人工智能发展的重大难题

而协作学习则是为解决这一问题而设计的分布式机器学习框架

该框架中,在不共享本地数据的前提下,多个参与者共同构建全局模型,通过使用各自本地数据产生的梯度来更新这一共有模型

然而,尽管协作学习采用了聚合梯度的方式来替代直接使用数据进行模型训练,但最新的研究指出,即便如此,梯度信息仍可能会泄露本地数据隐私

攻击者可以运用梯度反演攻击,通过分析所收集到的梯度信息来恢复出参与者的隐私数据

[0003]应对这问题,研究人员提出了多种方法以确保梯度的隐私保护

目前,梯度隐私保护主要采用两种方法:第一种是基于扰动的隐私保护技术,其中差分隐私技术是代表之一,它源自数据科学领域,通过添加适当的噪声,差分隐私技术在不可区分博弈的基础上实现隐私保护,限制了攻击者对具体数据样本是否存在于数据库中的识别能力;第二钟是基于加密工具的安全聚合技术,如安全多方计算和同态加密,其确保在客户端与服务器之间传输的梯度信息的机密性,这使得攻击者只能获得加密后的梯度信息,而无法解密获取原始数据

[0004]然而,上述两种梯度隐私保护技术在协作学习中仍然存在不可忽视的缺陷:首先,现有基于扰动的隐私保护技术仅能损坏梯度中包含的输入数据的特征信息,而未影响其包含的标签信息,这使得在面对新兴的生成式梯度反演攻击时,该技术无法提供充分的隐私保护,攻击者仍能根据扰动后的梯度信息准确推断输入数据的标签,随后使用生成器生成与输入数据在语义上相似的数据,从而获取本地数据的敏感信息;其次,基于扰动的隐私保护技术难以准确掌握梯度扰动的幅度,扰动过大会明显降低训练模型的精确性

收敛性和可用性,而扰动过小则无法达到隐私保护的效果;最后,尽管基于加密工具的安全聚合技术确保了梯度信息的机密性,但其所涉及的加密算法会带来昂贵的计算和通信开销,在实际的大规模协作学习场景中并不适用


技术实现思路

[0005]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种协作学习场景下基于符号翻转的隐私保护方法和系统,其目的在于,解决现有基于扰动的隐私保护技术对于最新的生成式梯度反演攻击没有很好的防御效果的技术问题,以及会降低全局模型的精确度

收敛性和可用性的技术问题,以及现有基于加密工具的安全聚合技术虽然能保证梯度信息的机密性,但是其使用到的加密算法会带来昂贵的计算开销和通信开销,导致在实际的大
规模协作学习场景下不适用的技术问题

[0006]为实现上述目的,按照本专利技术的一个方面,提供了一种协作学习场景下基于符号翻转的隐私保护方法,包括以下步骤:
[0007](1)
服务端与
M
个参与训练的客户端协商确定作为全局模型进行训练的神经网络,并确定全局模型的学习率
λ

以及训练过程中使用的损失函数
L

[0008](2)
服务端设置计数器
c
=1,并初始化全局模型,以得到第
c
次迭代时的全局模型
G
c

该全局模型
G
c
包含一个参数矩阵
A
c
和一个偏置矩阵
b
c

[0009](3)
服务端判断
c
是否大于预先确定的训练过程的迭代总次数,如果是则过程结束,否则转入步骤
(4)

[0010](4)
服务端将全局模型
G
c
的参数矩阵
A
c

偏置矩阵
b
c
和计数器
c
发送到客户端;
[0011](5)

i
个客户端判断来自服务端的计数器
c
是否等于1,如果是则初始化第
i
个客户端第
c
次迭代时的误差值然后转入步骤
(6)
,否则设置第
i
个客户端第
c
次迭代时的误差值然后进入步骤
(6)
;其中
i∈[1

M];
[0012](6)

i
个客户端根据来自服务端的第
c
次迭代时的全局模型
G
c
的参数矩阵
A
c
和偏置矩阵
b
c
,获取第
i
个客户端第
c
次迭代时的本地梯度向量
[0013](7)

i
个客户端根据步骤
(6)
获得的第
i
个客户端第
c
次迭代时的本地梯度向量与步骤
(5)
获得的第
i
个客户端第
c
次迭代时的误差值进行误差纠正,以得到第
i
个客户端第
c
次迭代时经误差纠正后的本地梯度向量并设置第
i
个客户端第
c
次迭代时的误差值
[0014](8)

i
个客户端对步骤
(7)
中得到的第
i
个客户端第
c
次迭代时经误差纠正后的本地梯度向量中的部分分量进行符号翻转,以得到第
i
个客户端第
c
次迭代时符号翻转后的本地梯度向量
[0015](9)

i
个客户端用随机值替换步骤
(8)
得到的第
i
个客户端第
c
次迭代时符号翻转后的本地梯度向量中的部分分量,以获取第
i
个客户端第
c
次迭代时随机值替换后的梯度
[0016](10)

i
个客户端根据步骤
(7)
得到的第
i
个客户端第
c
次迭代时的本地梯度向量和步骤
(9)
得到的第
i
个客户端第
c
次迭代本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种协作学习场景下基于符号翻转的隐私保护方法,其特征在于,包括以下步骤:
(1)
服务端与
M
个参与训练的客户端协商确定作为全局模型进行训练的神经网络,并确定全局模型的学习率
λ

以及训练过程中使用的损失函数
L

(2)
服务端设置计数器
c
=1,并初始化全局模型,以得到第
c
次迭代时的全局模型
G
c

该全局模型
G
c
包含一个参数矩阵
A
c
和一个偏置矩阵
b
c

(3)
服务端判断
c
是否大于预先确定的训练过程的迭代总次数,如果是则过程结束,否则转入步骤
(4)

(4)
服务端将全局模型
G
c
的参数矩阵
A
c

偏置矩阵
b
c
和计数器
c
发送到客户端;
(5)

i
个客户端判断来自服务端的计数器
c
是否等于1,如果是则初始化第
i
个客户端第
c
次迭代时的误差值然后转入步骤
(6)
,否则设置第
i
个客户端第
c
次迭代时的误差值然后进入步骤
(6)
;其中
i∈[1

M]

(6)

i
个客户端根据来自服务端的第
c
次迭代时的全局模型
G
c
的参数矩阵
A
c
和偏置矩阵
b
c
,获取第
i
个客户端第
c
次迭代时的本地梯度向量
(7)

i
个客户端根据步骤
(6)
获得的第
i
个客户端第
c
次迭代时的本地梯度向量与步骤
(5)
获得的第
i
个客户端第
c
次迭代时的误差值进行误差纠正,以得到第
i
个客户端第
c
次迭代时经误差纠正后的本地梯度向量并设置第
i
个客户端第
c
次迭代时的误差值
(8)

i
个客户端对步骤
(7)
中得到的第
i
个客户端第
c
次迭代时经误差纠正后的本地梯度向量中的部分分量进行符号翻转,以得到第
i
个客户端第
c
次迭代时符号翻转后的本地梯度向量
(9)

i
个客户端用随机值替换步骤
(8)
得到的第
i
个客户端第
c
次迭代时符号翻转后的本地梯度向量中的部分分量,以获取第
i
个客户端第
c
次迭代时随机值替换后的梯度
(10)

i
个客户端根据步骤
(7)
得到的第
i
个客户端第
c
次迭代时的本地梯度向量和步骤
(9)
得到的第
i
个客户端第
c
次迭代时随机值替换后的本地梯度向量获取第
i
个客户端第
c
次迭代时的本地误差并将步骤
(9)
得到的第
i
个客户端第
c
次迭代时扰动后的本地梯度向量发送到服务端
。(11)
服务端获取所有客户端发送的第
c
次迭代时随机值替换后的本地梯度向量,对获取的所有本地梯度向量取平均值,作为第
c
次迭代时全局模型的梯度向量
Δ
A
c

(12)
服务端根据步骤
(11)
获得的第
c
次迭代时全局模型的梯度向量
Δ
A
c
和步骤
(1)
中确定的全局模型的学习率
λ
更新全局模型,以得到第
c+1
次迭代时的全局模型
A
c+1
,并设置计数器
c

c+1。2.
根据权利要求1所述的协作学习场景下基于符号翻转的隐私保护方法,其特征在于,
M
的取值范围是5到
400
,优选为
200

λ
的取值范围为
0.001

0.5
,优选为
0.1
;损失函数
L
是由训练任务的类型确定
。3.
根据权利要求1或2所述的协作学习场景下基于符号翻转的隐私保护方法,其特征在于,步骤
(2)
包括以下子步骤:
(2

1)
服务端初始化全局模型的参数矩阵
A
c
和偏置矩阵
b
c
,并生成一个随机数矩阵
S
,其大小与第
c
次迭代时的全局模型
G
c
的参数矩阵
A
c
保持一致,且随机数矩阵
S
中每个元素的值都在
‑1到1之间;
(2

2)
服务端用步骤
(2

1)
中生成的随机数矩阵
S
初始化全局模型,即设置全局模型的参数矩阵
A
c

S

(2

3)
服务端设置偏置矩阵
b
c

0。4.
根据权利要求1至3中任意一项所述的协作学习场景下基于符号翻转的隐私保护方法,其特征在于,步骤
(6)
包括以下子步骤:
(6

1)

i
个客户端将第
c
次迭代时本地模型的参数矩阵设置为
A

i

A
c
,将其偏置矩阵设置为
b

i

b
c

(6

2)

i
个客户端将其所有的数据及其标签随机划分为多个组,每一组中都包含
64
个数据及每个数据对应的标签;
(6

3)

i
个客户端从步骤
(6

2)
划分得到的多个组中随机选择一个组
x
,获取该组中所有数据所对应的标签集合
z
,并将该组的所有数据
x
及其标签集合
z
输入到第
c
次迭代时的本地模型以得到本地模型的输出结果
y
;具体而言,本步骤中的运算公式为
(6

4)

i
个客户端根据步骤
(1)
中确定的损失函数
L、
步骤
(6

3)
中获得的本地模型的输出结果
y、
以及步骤
(6

3)
中得到的所有数据对应的标签集合
z
计算损失值
loss

L(y

z)

(6

5)

i
个客户端根据步骤
(6

1)
中获取的本地模型的参数矩阵
A

i

以及步骤
(6

4)
得到的损失值
loss
获取第
c
次迭代时的本地梯度向量具体而言,本步骤中的计算公式为具体而言,本步骤中的计算公式为
5.
根据权利要求4所述的协作学习场景下基于符号翻转的隐私保护方法,其特征在于,步骤
(7)
具体为,首先计算出第
c
次迭代时误差纠正的比例系数
β
,计算公式为其中
t

c―1

P
是预先设定的非负常数,取值范围为
‑1到1,然后采用公式来计算第
i
个客户端第
c
次迭代时经误差纠正后的梯度向量
6.
根据权利要求5所述的协作学习场景下基于符号翻转的隐私保护方法,其特征在于,步骤
(8)
包括以下子步骤:
(8

1)
客户端初始化本地计数器
j1=1,并获取步骤
(7)
中得到的第
i
个客户端第
c
次迭代时经误差纠正后本地梯度向量的维数
d1;
(8

2)

i
个客户端判断
j1是否大于
d1,如果是则转入步骤
(8

6)
,否则转入步骤
(8

3)

(8

3)

i
个客户端获取第
i
个客户端第
c
次迭代时经误差纠正后的本地梯度向量中的第
j1维梯度分...

【专利技术属性】
技术研发人员:胡胜山李明慧王乙臣薛潞潞万伟张业超
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1