一种基于本地差分隐私的top-k网络流估计方法技术

技术编号:38102468 阅读:5 留言:0更新日期:2023-07-06 09:21
本发明专利技术公开了一种基于本地差分隐私的top

【技术实现步骤摘要】
一种基于本地差分隐私的top

k网络流估计方法


[0001]本专利技术属于信息安全技术,涉及一种基于本地差分隐私的top

k网络流估计方法。

技术介绍

[0002]随着网络技术及其应用的不断发展,互联网已渗透到人们生活的每一个领域。在生产生活中需要通过网络数字化来传播生活各个方面的信息,从而产生了大量的网络数据流。网络测量是掌握网络基础设施动态的基本策略,可为不同网络管理需求提供必要信息,如负载平衡、计费、入侵检测、性能诊断等。网络测量对于有效网络管理和日常网络运营至关重要。高效和可用的网络测量方法需要统计网络设备和网络流的信息。典型的统计信息包括网络流大小、网络流基数、特定网络流的数据量百分比、top

k网络流等。统计信息描述了网络系统的性能,并为网络运行和安全提供了必要的决策依据。
[0003]现实生活中,数据流通常遵循Zipf或Power

Law等倾斜分布。在网络测量中,占少数的热流会对网络产生更大的影响,其中最频繁的k条网络流被称为top

k网络流。网络测量中估计top

k网络流任务至关重要,许多网络统计问题依赖于top

k网络流的估计结果。基于top

k网络流的统计,网络研究人员可以分析流量特性,并应用于流量工程、异常检测和拥塞控制等网络任务。在网络测量中,统计top

k网络流的常见方法可以分为两种,计数全部策略和计数部分策略。计数全部策略中常使用紧凑、共享的数据结构,如sketch,来降低存储开销。而计数部分策略中通过对替换策略进行限制来降低存储开销。
[0004]由于网络测量数据携带大量敏感信息,因此无法直接发布网络测量数据。研究可靠、安全的网络测量数据隐私保护技术是一个迫切需要解决的问题。隐私保护技术由最初基于匿名、加密的方法逐渐发展到现在的基于扰动的方法。其中基于扰动方法中的差分隐私(Differential Privacy,DP)已经成为隐私数据发布的一个标准,可减少前两种方法带来的局限性。由于现实生活中缺少完全可信的第三方,本地差分隐私(Local Differential Privacy,LDP)应运而生。其中,用户数据通过进行本地扰动,不仅可抵御背景知识攻击,还可防止由于不可信第三方所导致的数据泄露。LDP目前已经被广泛应用,如重击者识别、边缘分布、深度学习等。

技术实现思路

[0005]专利技术目的:本专利技术提供一种基于本地差分隐私的top

k网络流估计方法,将隐私保护技术和统计top

k网络流的网络测量任务相结合,以便于之后更广泛的应用。
[0006]为实现上述专利技术目的,本专利技术所提供的技术方案如下。
[0007]一种基于本地差分隐私的top

k网络流估计方法,包括以下步骤:
[0008]S1、客户端进行预处理操作;
[0009]每个用户R
i
收集一段时间内的网络流数据,使用源IP地址作为识别不同流的流标识。通过随机分配或加入一个分组G
w
(共Υ组),计算分组G
w
中网络流的前缀长度,
重构分组G
w
中网络流的域统计对应的网络流大小n
i
和网络流基数γ
i

[0010]S2、服务器端记录步骤(S1)统计的不同分组用户的网络流信息,进行预处理操作;
[0011]服务器首先估计每个用户R
i
的网络流大小的上界U
i
。然后服务器根据不同分组收集的信息,通过隐私分析和效用分析,在满足L相邻

(ε,δ)本地差分隐私模型前提下,计算每个分组G
w
对应的最优参数:最优箱数最优噪声参数
[0012]S3、客户端使用步骤(S2)得到的所属分组G
w
的最优参数进行本地扰动操作:
[0013]每个分组G
w
中每个用户R
i
首先随机选择两个哈希函数,首先随机选择两个哈希函数,对其一段时间内收集的网络流数据使用sketch进行存储,然后进行以下扰动:
[0014][0015][0016]S4、服务器端聚合所有用户经过步骤(S3)扰动后的结果和使用的哈希函数信息,通过迭代估计top

k网络流。
[0017]进一步的,步骤(S1)包括如下过程:
[0018]设置存在一个服务器端和多个用户端。网络流量可转换为一个拥有M种网络流的集合,F={f1,f2,

,f
M
}。通过设置源IP地址为IPv4地址,得到网络流域为D,其中d=|D|=2
32
,f
i
∈[0,d

1]。由于多个网络流数据包很可能属于同一种网络流,因此将每个用户R
i
的网络流大小记作n
i
,网络流基数记作γ
i
,网络流大小的上界记作U
i
。相应的,每个用户R
i
可将收集的网络流数据转换为一个向量,记作v
i
=(v
i,0
,v
i,1
,

,v
i,d
‑1)∈{0,1,

U
i
}
d
。加入相应的分组后,每个用户R
i
可使用一个计数器统计n
i
。为了降低存储开销,用户使用Hyperloglog Sketch估计γ
i

[0019]进一步的,步骤(S2)包括如下过程:
[0020]服务器通过假设每个用户R
i
收集的网络流服从倾斜度为1的Zipf分布,并设置经过0.16n
i
数量的网络流后,每种可统计到的网络流大小为1,从而计算得到估计的网络流大小的上界为
[0021]由于每个用户R
i
报告一个向量v
i
,所有用户输入的向量集合为V∈{0,1,

,U
max
}
N
·
d
。当两个用户向量集合的输入V和V'存在以下定义:
[0022]定义L相邻

(ε,δ)本地差分隐私为,存在一个随机扰动的机制M:X

R,若对于任意两个相邻输入V,V'∈X,且|V

V'|1≤L,所有机制的输出子集满足以下不等式:
[0023]Pr[M(V)∈S]≤e
ε
Pr[M(V

)∈S]+δ
[0024]其中,ε为隐私预算,δ为机制M以最少1

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于本地差分隐私的top

k网络流估计方法,其特征在于,包括以下步骤:S1、客户端的预处理操作:每个用户R
i
收集一段时间内的网络流数据,将源IP地址作为识别不同流的流标识;然后通过随机分配或加入一个分组G
w
,计算分组G
w
中网络流的前缀长度,中网络流的前缀长度,重构分组G
w
中网络流的域统计对应的网络流大小n
i
和网络流基数γ
i
;S2、服务器端记录步骤(S1)统计的不同分组用户的网络流信息,进行预处理操作:服务器首先估计每个用户R
i
的网络流大小的上界U
i
,然后服务器根据不同分组收集的信息,通过隐私分析和效用分析,在满足L相邻

(ε,δ)本地差分隐私模型前提下,计算每个分组G
w
对应的最优参数,所述的最优参数包括最优箱数和最优噪声参数S3、客户端使用步骤(S2)得到的所属分组G
w
的最优参数进行本地扰动操作:每个分组G
w
中每个用户R
i
首先随机选择两个哈希函数,首先随机选择两个哈希函数,对其一段时间内收集的网络流数据使用sketch进行存储,然后进行以下扰动:对其一段时间内收集的网络流数据使用sketch进行存储,然后进行以下扰动:S4、服务器端聚合所有用户经过步骤(S3)扰动后的结果和使用的哈希函数信息,通过迭代估计top

k网络流。2.根据权利要求1所述的基于本地差分隐私的top

k网络流估计方法,其特征在于,步骤(S1)包括如下过程:设置存在一个服务器端和一个以上的用户端,网络流量转换为一个拥有M种网络流的集合,表示为F={f1,f2,

,f
M
};通过设置源IP地址为IPv4地址,得到网络流域为D,其中d=|D|=2
32
,f
i
∈[0,d

1];由于多个网络流数据包很可能属于同一种网络流,因此将每个用户R
i
的网络流大小记作n
i
,网络流基数记作γ
i
,网络流大小的上界记作U
i
;相应的,每个用户R
i
可将收集的网络流数据转换为一个向量,记作v
i
=(v
i,0
,v
i,1
,

,v
i,d
‑1)∈{0,1,

U
i
}
d
;加入相应的分组后,每个用户R
i
可使用一个计数器统计n
i
;为了降低存储开销,用户使用Hyperloglog Sketch估计γ
i
。3.根据权利要求1所述的基于本地差分隐私的top

k网络流估...

【专利技术属性】
技术研发人员:宋绮梦朱友文张跃
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1