【技术实现步骤摘要】
基于差分隐私的稀疏张量联合补全方法与装置
[0001]本专利技术属于隐私保护
,更具体地,涉及一种基于差分隐私的稀疏张量联合补全方法与装置。
技术介绍
[0002]随着基于互联网的快速发展,数据爆炸式增长。这些数据规模大、维度多、结构复杂,并蕴含着大量的高价值信息,不仅为科学研究领域的发展带来了前所未有的机遇,也对社会的高速发展、人们生活方式的改变产生巨大的影响。但因采集、传输或数据自身问题,大部分数据通常是不完整的,导致对后续的数据处理、分析产生较大的影响。针对高维数据缺失问题,张量补全技术能够在保留数据高维内部结构下,从原始数据中提取出数据特征,获得其低维表示,进而对缺失数据补全。近年来稀疏张量补全技术有了很大的进步,并被广泛应用至推荐系统、医疗诊断、网络分析以及时空数据预测等领域。以推荐领域为例,张量补全技术能够将杂乱无章的个人信息排杂理陈,挖掘消费者和商品间的潜在关联关系,以帮助消费者找到他们感兴趣的商品。然而,为了尽可能提供高质量的服务,张量补全需要收集大量用户数据构建模型,这将引发严重的用户隐私问题。
[0003]隐私保护是张量补全技术中的一大挑战。问题在于如何确保数据补全质量,同时抵御层出不穷的攻击手段,避免用户隐私数据泄露。一方面,如果用户隐私得不到较好的保护,将造成用户对系统的不信任,进而拒绝向服务商提供个人信息或拒绝使用相应服务。另一方面,过于严苛的隐私保护策略会导致数据可用性降低,服务商无法提供高质量的用户服务,可能造成大规模用户流失。因此,如何在保证数据可用性的情况下对张量补全技 ...
【技术保护点】
【技术特征摘要】
1.一种基于差分隐私的稀疏张量联合补全方法,其特征在于,包括以下步骤:(1)对各客户端节点进行编号t,根据数据维度信息并引入并行张量分解方法对各客户端节点数据集进行分组,得到带编号的训练数据集;(2)根据补全任务需求,设计损失函数,采用拉普拉斯机制,建立基于差分隐私的稀疏张量联合补全模型,初始化中心服务器的全局因子矩阵和各客户端节点的本地因子矩阵;(3)使用步骤(1)中的带编号训练数据集,利用弹性平均随机梯度下降方法训练,提取高维数据特征,得到基于差分隐私的稀疏张量联合补全模型;(4)利用上述训练好的张量分解模型对缺失数据进行补全。2.如权利要求1所述的基于差分隐私的稀疏张量联合补全方法,其特征在于,所述步骤(1)具体包括:将训练数据集分割成多个独立块Z
p
,且其中为原始张量数据;x为张量的一个观测项,且对于任意观测项x∈Z
p
,x
′
∈Z
p
′
而言,x
i
≠x
′
i
且x
j
≠x
′
j
;任意独立块Z
p
,Z
p
′
在第一、二维度是不重叠的;将满足上述条件的不重叠独立块定义为组s,每组的独立块数量为T,即客户端i的本地张量数据为分组规则公式如下:j
s,i
=(i+s)mod d其中,独立块的坐标范围为b
i
=(1,I
[i]
),b
j
=(j[J/q],(j+1)[J/q]),b
k
=(1,K);对每组而言,各客户端的独立块不重叠,以避免训练出现更新冲突间题。3.如权利要求1或2所述的基于差分隐私的稀疏张量联合补全方法,其特征在于,所述步骤(2)具体包括:(2.1)已知客户端节点数为T,各客户端本地数据为补全后的数据为其损失函数表示为T个客户端张量分解损失函数之和,表达形式如下:(2.2)对于全局优化问题,所有客户端均共享非用户全局维度因子矩阵;全局最优问题如下:其中,B
[1]
=B
[2]
=
…
=B
[T]
,C
[1]
=C
[2]
=
…
=C
[T]
;(2.3)将全局优化问题分解为T个局部子问题,在本地因子矩阵和全局因子矩阵之间设置二次惩罚,添加目标扰动;局部最优问题如下:
其中,Ω为张量观测项,分别为本地因子矩阵A
[t]
的第i行向量,B
[t]
的第j行向量,C
[t]
的第k行向量;λ
A
,λ
B
,λ
C
为因子矩阵正则项系数,为目标扰动噪声矩阵N的第k行向量的转置;(2.4)根据高斯分布初始化本地因子矩阵和全局因子矩阵,利用范数上界m对因子矩阵中的行向量进行约束。4.如权利要求1或2所...
【专利技术属性】
技术研发人员:陈凯,熊博涛,杨泽灿,邓贤君,刘生昊,何媛媛,鲁宏伟,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。