【技术实现步骤摘要】
用于使服务抵御个人隐私推理攻击的方法和服务器
[0001]本专利技术总体来说涉及隐私保护,且明确地说,涉及一种用于执行经由神经网络提供的服务的个人隐私保护以便防止服务在个人隐私推理攻击下泄露个人隐私的方法和服务器。
技术介绍
[0002]社交聊天机器人已被广泛地在许多应用场景中用于回答真实问题及至提供情感陪伴。如今随着大型预训练语言模型的不断发展,已作出了一些尝试基于例如GPT
‑
2(生成预训练转换器2)和XLNet等大型生成语言模型构建聊天机器人。由于私人会话会被收集来训练此类基于语言模型(LM)的聊天机器人,而大型语言模型趋向于记忆训练数据,且一些私人数据可通过黑盒训练数据提取攻击从模型中恢复,因此此类基于语言模型的聊天机器人会有泄露私人信息的问题。
[0003]近期的研究提出了差分隐私和非似然训练来解决上述的记忆问题。除了此类记忆问题之外,具有简单目标的机器学习模型的隐式表示亦可披露输入的敏感属性。然而,很少有研究考虑这些LM的过度学习问题。
[0004]因此,如何防止聊天机器人在黑盒 ...
【技术保护点】
【技术特征摘要】
1.一种用于防止聊天机器人在黑盒个人属性推理攻击下泄露个人隐私的计算机实施方法,其特征在于,所述聊天机器人是经由服务器的处理器所执行的神经网络提供的,所述方法包括:由所述处理器根据效用目标训练所述聊天机器人的语言模型(LM);由所述处理器利用个人属性预测器应用一个或多个防御目标,通过使用虚假攻击者模型和具有带注释的数据集的预定义属性,以对所述聊天机器人的目标LM进行微调;以及由所述处理器使用所述聊天机器人的所述目标LM来抵御推理攻击,使得输入并发送到所述聊天机器人的内容的所述个人隐私无法被外部预测器预测,且所述聊天机器人的安全级别得到保证。2.根据权利要求1所述的方法,其特征在于,所述效用目标包括LM损失。3.根据权利要求2所述的方法,其特征在于,所述LM损失为所述LM的目标函数,且所述目标函数由以下公式表示:其中L
f
是指LM模型的损失函数;f是指所述LM模型;θ
f
是指所述LM的参数;w
i
是指句子的第i个字词;Pr(w
i
|c,w0,w1,
…
,w
i
‑1)是指在给定话语U={w0,w1,...,w
|U|
‑1}的情况下,LM f的概率分布;c是指私人会话D中的先前内容。4.根据权利要求1所述的方法,其特征在于,所述防御目标包括以下各者中的一者或组合:库尔贝克
·
莱布勒(Kullback
‑
Leibler;KL)损失;以及MI损失。5.根据权利要求4所述的方法,其特征在于,所述KL损失的目标函数由以下公式表示:其中L
kl
是指所述KL损失的损失函数;是指虚假攻击者的参数;u是指话语;k是指个人属性标记索引;C是指预定义个人属性的总数;且f(u)是指所述聊天机器人的隐藏状态。6.根据权利要求4所述的方法,其特征在于,所述MI损失的目标函数由以下公式表示:其中E
q
是指所述KL损失的损失函数;p
Ψ
(s|f(u))是指用于估计q(s|f(u))的分布函数,所述q(s|f(u))是指通过θ
f
参数化的模型f的概率分布;Ψ是指设法根据f(u)推断s的攻击者模型。7.根据权利要求1所述的方法,其特征在于,所述虚假攻击者包括:投影层,其包括多个全连接层;以及softmax激活函数层。8.根据权利要求7所述的方法,其特征在于,所述虚假攻击者的损失函数由以下公式表示:
其中是所述虚假攻击者的所述损失函数;CE是指个人属性标记s
kj
与个人属性预测器的输出之间的交叉熵。9.一种用于防止聊天机器人在黑盒个人属性推理攻击下泄露个人隐私的服务器,其特征在于,所述聊天机器人是经由所述服务器的处理器所执行的神经网络提供的,所述服务器包括:所述处理器,其配置成执行机器指令以实施计算机实施方法,所述方法包括:由所述处理器根据效用目标训练所述聊天机器人的语言模型(LM...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。