System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理,尤其涉及一种数据保护的方法及相关设备。
技术介绍
1、为了提高终端用户的使用体验,搜集用户数据进行智能分析是必要的,例如,服务器(也称为云端或者云端服务器)收集终端设备发送的多条用户数据,用以分析改善用户体验,然而,在上述数据收集过程中,隐私数据是始终存在的争议点。比如在收集用户关注的话题或者用户终端安装的应用时,可能会触及用户的隐私信息,例如地理位置、文字习惯等。
2、为了防止用户隐私泄露,可以利用差分隐私(differential privacy,dp)技术对需要统计的用户行为数据进行保护。在现有技术中,一种是终端设备将用户数据拆分成等长的组合,对每个组合进行加扰,上报加扰后的组合上报给服务器进行分析,另一种是终端设备对组合整体以及组合的其中一个片段进行加扰并上报给服务器,然后服务器结合片段以及整体的相关信息对上报数据进行分析。
3、但是,对于用户数据中所包含的字符数量过多的组合类型数据,在该组合类型数据所形成的候选组合数据的数量过多(例如候选组合数据的数量大于107)、并且该组合类型数据的数据量较少(例如数据量小于104)的情况下,通过以上两种现有技术对用户数据进行处理并上报给服务器进行分析,可能会导致用户隐私泄露的风险增加的同时,还会影响服务器对上报的数据识别的准确率。因此,如何提供一种数据保护的方法,能够在保证用户数据安全的基础上,提升服务器识别数据的准确率,成为亟待解决的问题。
技术实现思路
1、本申请实施例公开了一种数据保护
2、为了实现上述技术目的,本申请实施例提供了如下技术方案:
3、第一方面,本申请提供了一种数据保护的方法,应用于终端设备,所述方法可包括:从m个组合数据中确定满足预设条件的目标组合数据,其中,每个组合数据包括多个字符,每个字符对应一个候选集,所述候选集包括字符类型相同的多个候选字符,所述多个候选字符中至少包括所述候选集对应的字符,m为大于或者等于1的整数;基于所述目标组合数据所包含的n个字符所对应的n个候选集,确定所述目标组合数据对应的候选组合数据的数量,其中,所述候选组合数据是由所述n个候选集中各个候选集中的候选字符排列组合得到的,n为大于1的整数;基于所述候选组合数据的数量,对所述目标组合数据进行拆分,以生成多个子数据;对所述多个子数据分别进行加噪处理,以生成第一加噪数据,并将所述第一加噪数据发送给服务器。
4、在服务器收集和分析终端用户数据时,为了防止用户隐私泄露,通常使用差分隐私技术对需要统计的用户行为数据进行保护。但是,通过现有的差分隐私技术对用户数据进行处理并上报给服务器进行分析,均可能存在数据重复或相交的情况使得差分隐私的隐私预算增大,从而导致用户隐私泄露的风险增大,同时,对于字符数量过多的组合数据,在该组合数据所形成的候选组合数据的数量过多(例如候选组合数据的数量大于107)、并且该组合数据的数据量较少(例如数据量小于104)的情况下,服务器对该组合数据的算法识别效果有限,从而影响服务器识别数据的准确率。针对该技术问题,本申请实施例可以在组合数据的候选集数量较大、但原始数据量较低,且需要对该组合数据进行差分隐私保护处理的情况下,对该组合数据进行拆分以及标识,使拆分后的子数据满足差分隐私的并行组合原理的同时,对应的候选组合数据的数量呈指数级下降,从而在不提升隐私预算、保证用户数据安全的基础上,提升服务器识别数据的准确率。具体地,本申请实施例首先从大量的组合数据中简单筛选出候选集数量较大的组合数据,也即是从m个组合数据中确定出符合预设条件的目标组合数据;然后,由于筛选出的组合数据(也即是目标组合数据)中可能存在对应的候选组合数据的数量过多(例如候选组合数据的数量大于107)的组合数据,而直接对候选组合数据的数量过多的组合数据进行差分隐私处理并上报给服务器进行分析,会导致服务器从大量的候选组合数据中准确识别出对应的组合数据的难度增大,从而影响服务器识别组合数据的准确率,因此,对于符合预设条件的目标组合数据中的每个目标组合数据,均需确定该目标组合数据对应的候选组合数据的数量,来确定是否需要对该目标组合数据进行拆分以减小候选组合数据的数量,也即是基于目标组合数据中所包含的各个字符所对应的候选集,计算出该目标组合数据对应的候选组合数据的数量。进一步地,基于所计算的候选组合数据的数量,对目标组合数据进行拆分,例如将对应的候选组合数据的数量过大的目标组合数据进行拆分,使得拆分后生成的多个子数据对应的候选组合数据的数量大幅度减小;进一步对每个子数据进行加噪处理,加噪处理中可以包括例如确定拆分后的子数据对应的编码数据并对编码数据进行标识,然后确定编码数据对应的哈希数据并随机添加噪声等处理步骤,以保证拆分后的子数据对应的编码数据中不存在数据重复或相交的情况,从而保证拆分后的子数据对应的编码数据满足差分隐私的并行组合原理;最后将加噪处理后生成的第一加噪数据发送给服务器进行分析,进一步保证数据传输过程中用户数据安全性和隐私保护水平。通过本申请实施例可以有针对性地对候选组合数据的数量过大的组合数据进行拆分,使得拆分后的子数据对应的候选组合数据的数量呈指数级下降,从而降低后续服务器通过算法识别出对应子数据的难度,从而提升服务器识别数据的准确率;同时,通过包括例如对拆分后的子数据进行编码、标识以及添加随机噪声等处理步骤的加噪处理,使得拆分后的子数据对应的编码数据中不存在数据重复或相交的情况,以保证拆分后的子数据符合差分隐私的并行组合原理,从而实现在不提升隐私预算、保证用户数据安全的基础上,提升服务器识别数据的准确率。
5、在一种可能的实现方式中,所述方法还包括:获取p个原始数据,所述原始数据包括一个或多个所述字符,p为大于或者等于1的整数;将所述p个原始数据中所包含的字符个数大于或等于第一预设值的原始数据,确定为所述组合数据;将所述p个原始数据中所包含的字符个数小于第一预设值的原始数据,确定为非组合数据。本申请实施例,通过判断原始数据中所包含的字符个数是否大于或等于第一预设值(例如2),来确定该原始数据是否为组合数据,以便于后续针对组合数据和非组合数据分别进行不同的处理,以提升数据保护方法对不同类型数据处理的精确性和效率。
6、在一种可能的实现方式中,所述从m个组合数据中确定满足预设条件的目标组合数据,可包括:从所述m个组合数据中,确定满足第一条件的q个组合数据,所述第一条件包括组合数据中的字符所满足的条件;将所述q个组合数据中满足第二条件的组合数据,确定为满足所述预设条件的目标组合数据,所述第二条件包括组合数据中的字符对应的候选集所满足的条件。本申请实施例首先通过组合数据中的字符所满足的条件(也即是第一条件),从m个组合数据中筛选出满足第一条件的q个组合数据,然后通过组合数据中的字符对应的候选集所满足的条件(也即是第二条件),从q个组合数据中筛选出满足预设条件的目标组合数据,使得终端设备可以准确、高效地从大量组合本文档来自技高网...
【技术保护点】
1.一种数据保护的方法,其特征在于,应用于终端设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述从M个组合数据中确定满足预设条件的目标组合数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述从所述M个组合数据中,确定满足第一条件的Q个组合数据,包括:
5.根据权利要求3所述的方法,其特征在于,所述将所述Q个组合数据中满足第二条件的组合数据,确定为满足所述预设条件的目标组合数据,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述候选组合数据的数量,将所述目标组合数据进行拆分,以生成多个子数据,包括:
8.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述多个子数据分别进行加噪处理,以生成第一加噪数据,包括:
9.根据权利要求8所述的方法,其特征在于,所述对所述多个子数据分别进行映射,以确定各个子数据分别对
10.一种数据保护的方法,其特征在于,应用于服务器,所述方法包括:
11.根据权利要求10所述的方法,其特征在于,所述确定所述多个加噪数据对应的多个未加噪数据,包括:
12.一种数据保护的装置,其特征在于,应用于终端设备,所述装置包括:
13.一种数据保护的装置,其特征在于,应用于服务器,所述装置包括:
14.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,其中,所述存储器用于存储程序和各种数据,所述处理器用于调用所述存储器存储的程序代码使得所述终端设备执行如权利要求1-9中任意一项所述的方法。
15.一种服务器,其特征在于,所述服务器包括处理器和存储器,其中,所述存储器用于存储程序和各种数据,所述处理器用于调用所述存储器存储的程序代码使得所述服务器执行如权利要求10或11所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述权利要求1-9中任意一项所述的方法,或者实现上述权利要求10或11所述的方法。
17.一种计算机程序,其特征在于,所述计算机程序包括指令,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1-9中任意一项所述的方法,或者实现上述权利要求10或11所述的方法。
...【技术特征摘要】
1.一种数据保护的方法,其特征在于,应用于终端设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述从m个组合数据中确定满足预设条件的目标组合数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述从所述m个组合数据中,确定满足第一条件的q个组合数据,包括:
5.根据权利要求3所述的方法,其特征在于,所述将所述q个组合数据中满足第二条件的组合数据,确定为满足所述预设条件的目标组合数据,包括:
6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述候选组合数据的数量,将所述目标组合数据进行拆分,以生成多个子数据,包括:
8.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述多个子数据分别进行加噪处理,以生成第一加噪数据,包括:
9.根据权利要求8所述的方法,其特征在于,所述对所述多个子数据分别进行映射,以确定各个子数据分别对应的哈希数据,包括:
10.一种数据保护的方法,其特征在于,应用于服务器,所述方法包括:
<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。