System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于敏感分级的数据收集方法、分析方法及分析系统技术方案_技高网

一种基于敏感分级的数据收集方法、分析方法及分析系统技术方案

技术编号:40031376 阅读:12 留言:0更新日期:2024-01-16 18:17
本发明专利技术涉及信息安全技术领域,公开了一种基于敏感分级的数据收集方法、分析方法及分析系统,该数据收集方法,将真实数据根据敏感程度分级,使客户端在扰动真实数据时依据数据的敏感分级采用不同的扰动策略。本发明专利技术解决了现有技术存在的扰动数据的统计分析准确性等问题。

【技术实现步骤摘要】

本专利技术涉及信息安全,具体是一种基于敏感分级的数据收集方法、分析方法及分析系统


技术介绍

1、本地差分隐私是一种基于严格数学定义的隐私模型,其允许用户在本地扰动真实数据,向不可信的分析人员提交扰动后的数据而非真实数据,分析人员在扰动数据上展开统计分析。具体来讲,满足本地差分隐私的本地扰动算法对用户隐私数据做随机化处理,确保由不同输入数据得到的随机化输出的分布相近,这种相近程度由隐私预算衡量,隐私预算越小,不同数据的随机化输出分布越相似,则不同的输入数据越难以区分,隐私保护程度越高。本地差分隐私模型不要求用户信赖数据收集方,且扰动算法具有较低的计算代价,然而扰动数据的统计分析准确性受到数据集规模和隐私预算的制约。


技术实现思路

1、为克服现有技术的不足,本专利技术提供了一种基于敏感分级的数据收集方法、分析方法及分析系统,解决现有技术存在的扰动数据的统计分析准确性等问题。

2、本专利技术解决上述问题所采用的技术方案是:

3、一种基于敏感分级的数据收集方法,将真实数据根据敏感程度分级,使客户端在扰动真实数据时依据数据的敏感分级采用不同的扰动策略。

4、作为一种优选的技术方案,包括以下步骤:

5、s1,服务端将待收集数据的取值范围划分为高敏感型和低敏感型两类敏感类别,并确定隐私预算的取值,将数据的高低敏感划分方式和隐私预算发送给各客户端;

6、s2,各客户端接收到服务端发送的高低敏感划分方式和隐私预算后,调用敏感分级的扰动算法输出真实数据的扰动结果,再将扰动结果发送给服务端。

7、作为一种优选的技术方案,步骤s2中,若真实数据为高敏感型,则敏感分级的扰动算法的扰动结果的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同;若真实数据为低敏感型,则敏感分级的扰动算法的扰动结果的概率分布满足:扰动结果是除真实数据以外的其他低敏感型数据的概率为0,并且扰动结果是非低敏感型数据的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同。

8、作为一种优选的技术方案,所述满足本地差分隐私的扰动算法,是指:对于连续型数据,为分段机制;对于离散型数据,为通用随机响应。

9、作为一种优选的技术方案,若真实数据是连续型数据,则敏感分级的扰动算法为敏感分级的分段机制,具体来说:

10、若,则使用满足本地差分隐私的扰动算法扰动,随机化输出的概率分布为:

11、;

12、式中,,,,,;

13、若,假定,则随机化输出的概率分布为:

14、;

15、式中,,,;

16、其中,表示真实数据,表示扰动结果,表示真实数据为时、扰动结果的概率分布,表示高低敏感划分方式,表示高敏感型数据取值区间,表示低敏感型数据取值区间,表示隐私预算,表示分段机制和敏感分级的分段机制扰动结果的最大值,表示分段机制和敏感分级的分段机制扰动结果的最小值,表示分段机制的扰动结果中包含真实数据的一个区间,分段机制将真实数据以更高的概率扰动为此区间内的数据,为区间的左端点,为区间的右端点,表示分段机制扰动结果为区间中任一数据的概率,表示敏感分级的分段机制将低敏感型数据扰动为原真实数据的概率,表示分段机制扰动结果为区间以外的任一数据的概率,同时也是敏感分级的分段机制将低敏感型数据扰动为以外的任一数据的概率,表示低敏感型数据取值区间的左端点,表示低敏感型数据取值区间的右端点。

17、作为一种优选的技术方案,若真实数据是离散数据,则敏感分级的扰动算法为敏感分级的通用随机响应,具体来说:

18、若,则使用满足本地差分隐私的扰动算法扰动,随机化输出的概率分布为:

19、;

20、式中,,;

21、若,则随机化输出的概率分布为:

22、;

23、式中,,;

24、其中,表示真实数据,表示扰动结果,表示真实数据为时、扰动结果的概率分布,表示高低敏感划分方式,表示高敏感数据取值集合,表示低敏感数据取值集合,表示隐私预算,表示真实数据经通用随机响应扰动得到原真实数据的概率,表示真实数据经通用随机响应扰动得到非真实数据的概率,同时也是敏感分级的通用随机响应将低敏感型数据扰动为以外的任一数据的概率,表示敏感分级的通用随机响应将低敏感型数据扰动为原真实数据的概率。

25、一种基于敏感分级的数据分析方法,包括所述的一种基于敏感分级的数据收集方法,还包括以下步骤:

26、s3,服务端接收到各客户端的扰动结果后,对扰动结果应用期望最大化估计算法,完成分析任务。

27、作为一种优选的技术方案,步骤s3包括以下步骤:

28、s31,根据高低敏感划分方式、隐私预算以及敏感分级的扰动算法,计算转移概率矩阵;

29、s32,期望最大化估计算法根据客户端扰动结果得到其频率分布,并结合转移概率矩阵,迭代更新真实数据的概率分布估计值,得到:

30、;

31、其中,表示真实数据各可能取值的索引,表示扰动结果中各可能取值的索引,表示真实数据各可能取值的索引,表示概率矩阵中第行、第列的矩阵元素,指由第种真实数据扰动输出第种扰动结果的概率,表示更新轮数,表示第轮更新中的第个分量,指在第轮中第种真实数据的概率估计值,表示第轮更新中的第个分量,指在第轮中第种真实数据的概率估计值,表示第轮更新中的第个分量,指在第轮中第种真实数据的概率估计值,表示的第个分量,指扰动结果中第种取值的频率;

32、s33,em算法最终收敛到真实数据概率分布的估计值;根据,完成分析任务。

33、作为一种优选的技术方案,步骤s31中,对于连续型数据而言,是离散化输入、输出区间后,由第个真实数据子区间扰动输出为第个扰动结果子区间的概率积分;对于离散型数据而言,是由第个真实数据取值扰动输出第个扰动结果取值的概率;

34、步骤s33中,对于连续型数据而言,完成分析任务指完成均值估计任务,均值估计的结果为的期望;对于离散型数据而言,完成分析任务指完成频率分布估计任务,频率分布估计的结果为:真实数据的频率;其中, v表示真实数据取值,为 v在真实数据的取值空间的索引值。

35、一种基于敏感分级的数据分析系统,用于实现所述的一种基于敏感分级的数据分析方法,包括一个服务端、一个或多个客户端,服务端与各客户端分别通信连接;

36、客户端包括:

37、数据存储模块,用于存放用户的真实数据;

38、敏感分级扰动模块,用于存放敏感分级的扰动算法,以及对真实数据应用敏感分级的扰动算法得到扰动结果;

39、客户端通信模块,用于将扰动结果传输给服务端;

40、服务端包括:

41、预设置模块,用于预设置客户端扰动算法的参数,扰动算法的参数包本文档来自技高网...

【技术保护点】

1.一种基于敏感分级的数据收集方法,其特征在于,将真实数据根据敏感程度分级,使客户端在扰动真实数据时依据数据的敏感分级采用不同的扰动策略。

2.根据权利要求1所述的一种基于敏感分级的数据收集方法,其特征在于,包括以下步骤:

3.根据权利要求2所述的一种基于敏感分级的数据收集方法,其特征在于,步骤S2中,若真实数据为高敏感型,则敏感分级的扰动算法的扰动结果的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同;若真实数据为低敏感型,则敏感分级的扰动算法的扰动结果的概率分布满足:扰动结果是除真实数据以外的其他低敏感型数据的概率为0,并且扰动结果是非低敏感型数据的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同。

4.根据权利要求3所述的一种基于敏感分级的数据收集方法,其特征在于,所述满足本地差分隐私的扰动算法,是指:对于连续型数据,为分段机制;对于离散型数据,为通用随机响应。

5.根据权利要求2所述的一种基于敏感分级的数据收集方法,其特征在于,若真实数据是连续型数据,则敏感分级的扰动算法为敏感分级的分段机制,具体来说

6.根据权利要求3所述的一种基于敏感分级的数据收集方法,其特征在于,若真实数据是离散数据,则敏感分级的扰动算法为敏感分级的通用随机响应,具体来说:

7.一种基于敏感分级的数据分析方法,其特征在于,包括权利要求2至6任一项所述的一种基于敏感分级的数据收集方法,还包括以下步骤:

8.根据权利要求7所述的一种基于敏感分级的数据分析方法,其特征在于,步骤S3包括以下步骤:

9.根据权利要求8所述的一种基于敏感分级的数据分析方法,其特征在于,步骤S31中,对于连续型数据而言,是离散化输入、输出区间后,由第个真实数据子区间扰动输出为第个扰动结果子区间的概率积分;对于离散型数据而言,是由第个真实数据取值扰动输出第个扰动结果取值的概率;

10.一种基于敏感分级的数据分析系统,其特征在于,用于实现权利要求7至9任一项所述的一种基于敏感分级的数据分析方法,包括一个服务端、一个或多个客户端,服务端与各客户端分别通信连接;

...

【技术特征摘要】

1.一种基于敏感分级的数据收集方法,其特征在于,将真实数据根据敏感程度分级,使客户端在扰动真实数据时依据数据的敏感分级采用不同的扰动策略。

2.根据权利要求1所述的一种基于敏感分级的数据收集方法,其特征在于,包括以下步骤:

3.根据权利要求2所述的一种基于敏感分级的数据收集方法,其特征在于,步骤s2中,若真实数据为高敏感型,则敏感分级的扰动算法的扰动结果的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同;若真实数据为低敏感型,则敏感分级的扰动算法的扰动结果的概率分布满足:扰动结果是除真实数据以外的其他低敏感型数据的概率为0,并且扰动结果是非低敏感型数据的概率分布与满足本地差分隐私的扰动算法的扰动结果的概率分布相同。

4.根据权利要求3所述的一种基于敏感分级的数据收集方法,其特征在于,所述满足本地差分隐私的扰动算法,是指:对于连续型数据,为分段机制;对于离散型数据,为通用随机响应。

5.根据权利要求2所述的一种基于敏感分级的数据收集方法,其特征在于,若真实数据是连...

【专利技术属性】
技术研发人员:周礼亮陈亚青张陆游李涛熊蓉玲冉华明叶宇桐张敏
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1