一种隐私数据分级保护方法技术

技术编号:21630713 阅读:83 留言:0更新日期:2019-07-17 11:39
本发明专利技术提出了一种隐私数据的分级保护方法。针对现有的模型大多对所有的隐私数据一视同仁,没有考虑到隐私敏感程度的问题,本发明专利技术在隐私保护过程中将隐私程度看作是一种度量,通过计算隐私数据的敏感级别,并将敏感程度高的数据的出现频率限制在一个较低的值,实现为敏感程度高的隐私数据提供更高程度的保护。此外,本发明专利技术从用户的角度入手,在实现隐私的分级保护之后,直接计算用户从中能够获得的收益,将隐私的分级保护结果与用户的服务质量与隐私损失联系起来,让用户能从系统中得到满意服务的同时实现用户数据隐私性的保证。

A Hierarchical Protection Method for Privacy Data

【技术实现步骤摘要】
一种隐私数据分级保护方法
本专利技术属于信息安全
,具体涉及一种隐私数据分级保护方法。
技术介绍
目前,关于数据隐私保护的研究主要包括隐私保护功能模块的研究、数据匿名化发布、差分隐私保护方法、加密算法的应用等方面。隐私保护大体上可以分为语法隐私保护(Thegrammarprotection)和语义隐私保护(Thesemanticprotection)两类。匿名化技术是语法隐私保护技术中的一种。匿名化技术已经在众多领域得到了很好的应用。k-匿名是数据挖掘算法的一种,由于攻击者通常是通过对半标识属性组攻击来识别用户身份等隐私信息,因此k-匿名化技术的基本要求是在所有的数据中任一组数据都至少与一部分数据不可区分,根据这个不可区分的特性,公开的数据中就保证了每个等价类至少有k组记录相同,从而减小攻击者获取用户隐私的概率。在k-匿名化技术中有两个专有名词分别叫做泛化和抑制,泛化指的是用更一般的指代替原来数据中的值,抑制则表示将某种属性的值部分或全部删除。将泛化和抑制两种操作结合使用可以增加所公布数据的价值,但同时也会导致数据的可用性降低。因此关于泛化和抑制的最优化使用研究仍在继续。l-多样性方法是在k-匿名技术上衍生出来的隐私保护的方法。它要求数据的每个等价类都包含l个敏感属性,当敏感属性值只有两个时,攻击者有50%的概率猜出真正的敏感属性,可见l的值越大,遭受攻击时就越安全。当l为1时,此时的l-多样性方法就等价于k-匿名化方法。该方法保证了数据属性的多样性,但是由于忽略了敏感属性的全局分布特特性,在遭受攻击时很容易被发现敏感属性导致也会泄露更多的信息。为了克服上述l-多样性问题,Li等人提出了一种新的t-保密算法。该算法就上述两种方法中的缺点做出改进,要求所有敏感属性的分布与全局分布保持一致,减少相似度攻击的概率。上述语法隐私保护技术主要是为了防止外部到来的攻击设定隐私保护阈值,面对不同的攻击则需要灵活变化采用不同的方法。而实际应用中外部攻击信息较难获取,匿名化技术不能够得到强有力的支持。差分隐私则不同于匿名化技术,作为语义隐私保护技术的一种,它具有很强的数学理论作为支撑。差分隐私算法采用隐私参数ε来对隐私保护程度进行量化,ε的取值越小则保护性越高。实际上差分隐私保护技术是通过在数据中增添一个随机分布的噪声实现的,加入的噪声大小与数据的敏感程度Δ有关,与数据的多少并无关系。其中敏感程度Δ指的是在所有数据中添加或删除某一条数据是对查询结果造成的最大影响。一些常用的添加噪声的机制包括拉普拉斯机制、指数机制等。差分隐私算法从数学角度提供了语义上的隐私保护,但其要求在一定程度上又显得过于严格。比如ε的取值很小能够提高保护性能,但是从另一个角度来看又降低了数据的有效性,因此更宽松的查分隐私保护算法(ε,δ)-差分隐私被提出。在(ε,δ)-差分隐私中参数δ用来给定一个更宽松的政策,以数据集的大小作为变量。δ可以增大查询结果与真实结果间差值的大小造成更高的风险,也可以降低噪声的大小使得数据的有效性增加。这些模型在一定的条件下十分适用而且简单方便,也能够提供很好的隐私保护性能,但是他们对所有的隐私数据一视同仁,没有考虑到隐私敏感程度的问题。例如,在电子医疗的场景中,疾病的敏感程度泄露也会给患者带来很大的影响,敏感程度的泄露往往也是难以容忍的。比如在某次发布的医疗数据表格中都是一些像艾滋病、心脏病、癌症这类敏感程度高的疾病数据,此时尽管攻击者不能获知患者病症的具体敏感程度,但能够100%确定其患上了这类敏感程度高的疾病。再如某次发布的疾病数据中有80%以上的数据都是这种敏感程度高的数据,那么攻击者也能够以很大的概率得知患者患上了严重的疾病。因此亟需一种能够考虑不同敏感程度进行隐私数据保护的方法,来降低敏感程度高的如医疗信息等泄露的风险。
技术实现思路
专利技术目的:本专利技术主要解决的技术问题是在注重隐私保护的同时,对不同敏感程度的隐私进行不同级别的保护。技术方案:为了实现以上目的,本专利技术提出的一种基于数据敏感程度的隐私数据的分级保护方法,包括以下步骤:S10、将隐私数据的众多属性中用户所在意的敏感属性分离出来,将这些敏感属性集合称为特征,其中第i条隐私数据的第j个特征用dij表示;S20、根据特征与敏感程度的对应关系,选出所有满足单调性的特征;S30、以集合L={L1,L2,...,LK}表示数据的敏感程度级别,确定dij在相应特征级别上的分量大小θij,k,再对一项数据的j个特征的分级测量值进行求和计算,得到该数据属于相应特征级别的分量大小θik,并取求得的最大的θik中的最小的k值,作为该数据的敏感级别的具体值;S40、针对不同敏感级别的特征,为相应数据设置不同的出现频率,实现分级保护。优选地,所述步骤S30中根据每个特征的性质将特征划分级别,包括:根据特征的性质以及应用,设置特征属于某个级别的判决门限;然后根据判决门限和分类标准确定特征的级别。优选地,所述步骤S30中确定dij在相应特征级别上的分量大小,按照下式来计算:其中,cj1表示分类标准矩阵中与下标对应的元素。优选地,所述步骤S40中,对于第i个级别的敏感属性集合Si和总属性集合D,使其满足:通过将敏感级别取值高于某阈值的数据的出现频率限制在一个指定值,实现分级保护。优选地,所述方法还包括,在步骤S30得到特征敏感级别测量值之后,根据不同特征对于敏感级别的不同影响程度,添加加权因子再进行求和计算,得到加权后的数据分级测量值。优选地,所述方法还包括,在步骤S40后计算用户收益,用户最终收益等于用户得到的服务收益和隐私受到攻击时的损失的差值。有益效果:本专利技术提出了一种隐私数据的分级保护方法。针对现有的模型大多对所有的隐私数据一视同仁,没有考虑到隐私敏感程度的问题,本专利技术在隐私保护过程中将疾病的严重程度看作是一种度量,通过计算隐私数据的敏感级别,并将敏感程度高的数据的出现频率限制在一个较低的值;旨在为敏感程度高的隐私数据提供更高程度的保护。其次,本专利技术从用户的角度入手,在实现隐私的分级保护之后,直接计算用户从中能够获得的收益,将隐私的分级保护结果与用户的服务质量和隐私损失联系起来,让用户能从系统中得到满意服务的同时实现用户数据隐私性的保证。附图说明图1为根据本专利技术实施例的分级保护模型图;图2为根据本专利技术实施例的分级保护方法流程图。具体实施方式下面结合附图对本专利技术的技术方案作进一步说明。在以下实施例中仅以医疗数据作为示例进行技术方案的描述,本领域普通技术人员可以理解的是,对所描述的技术方案进行适当的转换或修改可以适用于其他的隐私敏感数据。医疗看护系统面临着如何在不过度侵犯患者隐私的前提下提供很好的看护服务的问题,同时还需要兼顾患者隐私保护,防止患者的隐私数据向外界泄露。上述问题对患者的生活质量提出了具体的要求,一方面患者作为用户,从看护系统中得到服务,提升自己健康相关的生活质量(HRQoL,Health-RelatedQualityofLife),另一方面患者和看护系统作为合作的整体,防止患者的隐私数据泄露造成隐私损失。问题关键在于患者隐私数据的保护与利用。本专利技术实施例中将疾病的严重程度看作是一种度量,疾病的严重程度越高,信息的敏感程度也就越高,直观的来说,心脏病本文档来自技高网
...

【技术保护点】
1.一种隐私数据分级保护方法,其特征在于,所述方法包括以下步骤:S10、将隐私数据的众多属性中用户所在意的敏感属性分离出来,将这些敏感属性集合称为特征,其中第i条隐私数据的第j个特征用dij表示;S20、根据特征与敏感程度的对应关系,选出所有满足单调性的特征;S30、以集合L={L1,L2,...,LK}表示数据的敏感程度级别,确定dij在相应特征级别上的分量大小θij,k,再对一项数据的j个特征的分级测量值进行求和计算,得到该数据属于相应特征级别的分量大小θik,并取求得的最大的θik中的最小的k值,作为该数据的敏感级别的具体值;S40、针对不同敏感级别的特征,为相应数据设置不同的出现频率,实现分级保护。

【技术特征摘要】
1.一种隐私数据分级保护方法,其特征在于,所述方法包括以下步骤:S10、将隐私数据的众多属性中用户所在意的敏感属性分离出来,将这些敏感属性集合称为特征,其中第i条隐私数据的第j个特征用dij表示;S20、根据特征与敏感程度的对应关系,选出所有满足单调性的特征;S30、以集合L={L1,L2,...,LK}表示数据的敏感程度级别,确定dij在相应特征级别上的分量大小θij,k,再对一项数据的j个特征的分级测量值进行求和计算,得到该数据属于相应特征级别的分量大小θik,并取求得的最大的θik中的最小的k值,作为该数据的敏感级别的具体值;S40、针对不同敏感级别的特征,为相应数据设置不同的出现频率,实现分级保护。2.根据权利要求1所述的隐私数据分级保护方法,其特征在于,所述步骤S30中根据每个特征的性质将特征划分级别,包括:根据特征的性质以及应用,设置特征属于某个级别的判决门限;然后根据判决门限和分类标准确定特征的级别...

【专利技术属性】
技术研发人员:郭永安达庆佶王安之刘晓庆朱洪波杨龙祥
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1