【技术实现步骤摘要】
一种基于松散本地差分隐私模型的键值数据收集方法
[0001]本专利技术属于信息安全技术,涉及种基于松散本地差分隐私模型的键值数据收集方法。
技术介绍
[0002]随着新一轮的科技革命与信息时代的发展,网络数据的产生为企业和政府带来了重大的发展和进步,通过数据的收集及分析为后续的政策及举措提供重要科学基础,实现更好的经济效应。数据对是现实生活中一种常见的数据形式,有着非常广发的应用场景。通过分析数据之间的关系,可以挖掘大数据的信息,进而更好的为管理者提供数据支持,更好的为用户提供服务。例如在购物或观看电影时,分析用户的偏好并收集大量用户对影视的偏好,根据新老用户习惯推荐新产品或高分电影。同时大数据也是双刃剑,随着大数据的发展,安全问题也愈演愈烈,日益威胁着个人权利、公共利益乃至国家利益,用户对个人隐私保护的重视度越来越高,但在收集过程中存在大量隐私信息泄露风险。因此,如何在保护隐私的前提下,对关联数据是一个亟待解决的问题。
[0003]隐私计算是一系列技术的合集,交叉融合了密码学、统计学、人工智能、计算机硬件等众多学科 ...
【技术保护点】
【技术特征摘要】
1.一种基于松散本地差分隐私模型的键值数据收集方法,其特征在于,包括以下步骤:S1、在广义随机响应机制下的服务器设置,包括设置模型的总体隐私预算ε和总体松散程度δ,通过分解,将隐私预算ε分配为键扰动涉及的因隐私预算ε1和键扰动的松散程度δ1,设置值扰动所涉及的隐私预算ε2和值扰动的松散程度δ2,同时将ε、ε1、δ1、ε2和δ2公布给用户,推导出元素中键和值转换的最优概率;S2、每个用户从本地将原始数据<k,v>进行数据集预处理,设置原始数据为S并进行填充,设填充的长度为l;对于整个机制,原始所有键的数量为d,设置协议中总长d
′
=d+l;随后对键值对进行采样,将采样后的数据根据的大小进行离散化;S3、用户根据采样中的数据键值对进行键和值的扰动,并把扰动后的数据发送给服务器;S4、服务器根据用户发送的扰动数据进行统计分析,估算出原始数据的频率分布结果和均值估计大小。2.根据权利要求1所述的基于松散本地差分隐私模型的键值数据收集方法,其特征在于:在步骤(S1)中服务器让隐私分配达到最优,推导出元素中键和值转换的最优概率包括如下过程:S11、基于广义随机响应机制,所述方法假设键和值扰动的隐私预算分别为ε1和ε2,键扰动的松散程度δ1,值扰动的松散程度δ2,根据(ε,δ)
‑
LDP的定义式Pr(M(x)=y)≤e
ε
·
Pr(M(x
′
)=y),即推导出键值对中键转化的情况:1
→
1的概率为a,0
→
1的概率为b,之后分别对键中a,b的扰动概率进行计算:键中a,b的扰动概率进行计算:S12、针对键值对中的值扰动阶段应该满足(ε,δ)
‑
LDP的定义式,即键值对中值1
→
1的概率为而1
→‑
1的概率为1
‑
p;S13、针对键值对整体扰动的概率计算,针对离散后的键值对数据<k,v>经过扰动后为<k
′
,v
′
>,根据k值和Pr(y
′
|S)的边界值,当k∈{d+1,...d
′
}时v
*k
=0,推导出隐私预算是需要进行分界线进行讨论;情况1:当隐私预算隐私预算隐私预算情况2:当时,隐私预算时,隐私预算时,隐私预算S14、通过评估机制效用的方式对隐私预算进行优化处理,使其利用率最大,本步骤使用均方误差进行评估,估计量的均方误差通过方差及其偏差的平方和来计算,即,的均方误差通过方差及其偏差的平方和来计算,即,然后根据函数分析需对取最小值,最后可得到扰动概率与隐私的关系式;其健值中的健转化概率a=(l(e
ε
‑
1)+2+2lδ(d
′‑
1)/(l(e
ε
‑
1)+2d
′
【专利技术属性】
技术研发人员:胡朋,朱友文,王凤祥,张跃,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。