数据发布环境下面向结构化数据的隐私衡量算法制造技术

技术编号:30022049 阅读:40 留言:0更新日期:2021-09-11 06:44
本发明专利技术属于信息安全技术领域,提供了一种数据发布环境下面向结构化数据的隐私衡量算法。首先,数据源收集用户信息并生成用户信息摘要,根据摘要信息筛选外部数据集并计算属性相似度以区分私有属性和非私有属性。然后,计算私有属性的外部内部平均信息量和分布信息量,依托需求和时间损失对私有属性定价识别敏感属性,并应用最大熵原理提取准标识符,识别数据中的风险要素。最后,根据隐私模型对数据隐私进行衡量,并给出隐私导向的匿名技术,可以证明在该导向下的隐私和可用性达到了最佳均衡。均衡。均衡。

【技术实现步骤摘要】
数据发布环境下面向结构化数据的隐私衡量算法


[0001]本专利技术涉及一种数据发布环境下面向结构化数据的隐私衡量算法,属于信息安全


技术介绍

[0002]大数据相关技术的飞速发展促进了各行各业对数据的重视,各式各样的机构组织能够通过大数据技术利用大量数据对其主营的业务优化升级以便在市场获得更强的竞争优势。与此同时,为了防止对大数据技术掌握更深的少数互联网巨头利用自身在大数据技术上的优势进行垄断,影响市场稳定性;数据共享的呼声不断高涨。而与数据共享伴随而来的隐私问题却成了影响数据共享的另类瓶颈,若不能妥善的解决隐私问题,大规模的数据共享就难以实现,巨头利用优势进行垄断便会成为必然。发布数据作为数据共享的主要手段,其中的隐私保护问题得到了国内外的广泛关注,产生了各式各样的隐私保护算法与模型。
[0003]在发布环境中的隐私保护技术主要研究原数据到匿名数据的转换,并确保匿名数据满足某种分布时,其能够有效防止数据隐私的泄露,随后将匿名数据发布,这类技术也被称为匿名技术。然而,不论是何种匿名技术,在对原数据进行变换时,总是以一部分数据的真实性为代价,来换取数据整体上的隐私增强。而损失过多的数据真实性固然使得隐私得到了保证,却与数据共享的目的背道而驰,倘若被共享的数据不再具有原数据中的价值,数据共享便失去了意义。
[0004]因此,匿名技术的研究始终围绕着隐私性与可用性这一矛盾进行,以期许能发现某一匿名技术能够实现隐私性与可用性的最佳均衡。然而,现有的匿名技术缺乏了隐私导向,即其在对原数据进行匿名操作之前并没有根据数据的特点对数据进行保护,而是采取了全局统一的操作,这使得某些原本已经具有一定程度隐私的数据丢失了这部分的隐私,同时也丢失了这部分数据的可用性,不仅造成了计算开销的浪费,也使得距离数据安全高效共享的目标始终差了一步。
[0005]以隐私导向为主的匿名技术必将成为未来研究发布数据匿名技术的重点。分析数据的隐私导向主要研究如下问题,对于需要匿名的数据,如何分析其隐私水平,使得对其进行的匿名操作尽可能少而又尽可能有效。在数据发布的背景来看,数据可能已经具有一定隐私上的特点,提取数据自身隐私特点,对接现有发布数据匿名技术,实现数据安全共享到数据安全高效共享的平滑过渡将成为未来大数据研究工作中的重点并引发世界关注。

技术实现思路

[0006]为了有效发掘结构化数据中的隐私特点,为匿名技术提供精准的隐私导向,本专利技术提出了一种面向结构化数据的隐私衡量算法。在该方案中,隐私衡量的主体为具有待发布数据的数据源,首先数据源向外界收集已发布数据集,运用属性集合配对,对配对的条目数量进行分类,分离出数据源的私有属性;然后,对私有属性应用信息熵定价并分类定位数
据中的敏感属性,对非私有属性应用最大熵原理提取数据中的准标识;最后定义隐私模型,从准标识符出发,衡量数据隐私,并给出达到指定隐私水平的最优权衡。
[0007]本专利技术的技术方案:
[0008]一种数据发布环境下面向结构化数据的隐私衡量算法,步骤如下:
[0009](1)首先数据源生成本地数据所涉及用户的摘要,并获取具有相似摘要已发布数据集,并与这些数据集进行属性集合配对,然后对配对数目进行分类,以便分离数据源私有属性;
[0010]数据集的时空属性摘要生成与集合配对、分离私有属性的具体过程如下:
[0011](1.1)当数据源对某一特定用户群体收集其相关信息时,数据源需生成统一格式的用户摘要,摘要中的信息仅描述该数据集是哪一地区用户收集的,又因其具有时效性,称为时空摘要。首先定义数据集的组成如下:
[0012]D
S
={I1,I2,...,I
i
...,I
n
}
[0013]D
s
为数据源S所收集的待发布数据库,I
i
为数据库中收集的有关用户i的记录,n为D
s
中的记录数目,每条记录的组成如下:
[0014]I
i
={Attr
i1
,Attr
i2
,...,Attr
ij
...,Attr
im
}
[0015]其中,Attr
ij
为用户i的第j个属性的取值,而m=|I
i
|为用户i的属性个数,对于结构化数据集来说,任意记录的属性个数总是相同的,即m=|I1|=|I2|=

=|I
i
|=

=|I
n
|,类似的,把Attr
j
定义为数据集中的第j个属性,有n=|Attr1|=|Attr2|=

=|Attr
j
|=

=|Attr
m
|。其中,相同索引的属性类型一致,即存在一个语义取值集合S
j
,任意元素x,y∈S
j
,x与y在语义上属于相同类别,若有Attr
ij
∈D
s
,必然有Attr
ij
∈S
j

[0016]对于数据集D
s
,其时空摘要定义如下:
[0017][0018]Abstract(I
i
)为用户i所在的行政区,Abstract(D
s
)则为一个行政区的集合,该集合覆盖了数据集D
s
中所有用户的行政区。
[0019](1.2)生成完数据集的摘要后,数据源向外搜索已发布数据集。如果已发布数据集的摘要与数据源的摘要具有超过阈值的重叠,则会被用来与待发布数据集进行集合匹配,计算摘要重叠和集合匹配的过程如下:
[0020]对于一系列已经发布的数据集D1,D2,......,D
l
,以及这些数据集的摘要Abstarct(D1),Abstract(D2,)......,Abstract(D
l
),计算如下值:
[0021][0022]相较于计算整个数据集的相似度,仅计算摘要相似度能够帮助快速筛除与待发布数据集记录完全不同的数据集,从而大大减少开销。α
i
为待发布数据集D
s
的摘要和已发布数据集D
i
的摘要相似度,其内在含义即为行政区重复的比例,当该比例α
i
小于预设的阈值时,这类数据集被用作背景知识发动隐私攻击造成实质性的隐私泄露的可能性较小,会被筛去。在筛除这部分数据之后,将剩余的已发布数据集进行合并,并依托该数据集分离待发布
数据集的私有属性和非私有属性。首先定义合并后的数据集如下:
[0023][0024]δ为预设的阈值,通过将所有未被筛除的数据集进行垂直上的合并,构成了合并数据集D
Union
,为了使D
Union
符合数据集的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据发布环境下面向结构化数据的隐私衡量算法,其特征在于,步骤如下:(1)首先数据源生成本地数据所涉及用户的摘要,并获取具有相似摘要已发布数据集,并与这些数据集进行属性集合配对,然后对配对数目进行分类,以便分离数据源私有属性;数据集的时空属性摘要生成与集合配对、分离私有属性的具体过程如下:(1.1)当数据源对某一特定用户群体收集其相关信息时,数据源需生成统一格式的用户摘要,摘要中的信息仅描述该数据集是哪一地区用户收集的,又因其具有时效性,称为时空摘要;首先定义数据集的组成如下:D
S
={I1,I2,...,I
i
...,I
n
}D
s
为数据源S所收集的待发布数据库,I
i
为数据库中收集的有关用户i的记录,n为D
s
中的记录数目,每条记录的组成如下:I
i
={Attr
i1
,Attr
i2
,...,Attr
ij
...,Attr
im
}其中,Attr
ij
为用户i的第j个属性的取值,而m=|I
i
|为用户i的属性个数,对于结构化数据集来说,任意记录的属性个数总是相同的,即m=|I1|=|I2|=

=|I
i
|=

=|I
n
|,类似的,把Attr
j
定义为数据集中的第j个属性,有n=|Attr1|=|Attr2|=

=|Attr
j
|=

=|Attr
m
|;其中,相同索引的属性类型一致,即存在一个语义取值集合S
j
,任意元素x,y∈S
j
,x与y在语义上属于相同类别,若有Attr
ij
∈D
s
,必然有Attr
ij
∈S
j
;对于数据集D
s
,其时空摘要定义如下:Abstract(I
i
)为用户i所在的行政区,Abstract(D
s
)则为一个行政区的集合,该集合覆盖了数据集D
s
中所有用户的行政区;(1.2)生成完数据集的摘要后,数据源向外搜索已发布数据集;如果已发布数据集的摘要与数据源的摘要具有超过阈值的重叠,则被用来与待发布数据集进行集合匹配,计算摘要重叠和集合匹配的过程如下:对于一系列已经发布的数据集D1,D2,......,D
l
,以及这些数据集的摘要Abstarct(D1),Abstract(D2,)......,Abstract(D
l
),计算如下值:α
i
为待发布数据集D
s
的摘要和已发布数据集D
i
的摘要相似度,其内在含义即为行政区重复的比例,当该比例α
i
小于预设的阈值时,这类数据集被用作背景知识发动隐私攻击造成实质性的隐私泄露的可能性较小,会被筛去;在筛除这部分数据之后,将剩余的已发布数据集进行合并,并依托该数据集分离待发布数据集的私有属性和非私有属性;首先定义合并后的数据集如下:δ为预设的阈值,通过将所有未被筛除的数据集进行垂直上的合并,构成了合并数据集
D
Union
,为了使D
Union
符合数据集的定义,首先让不同记录的属性名称进行比较,将相同类型的数据调整为同一属性,并重排索引,在此过程中可能会出现某些记录拥有的属性而别的记录没有,仅需将未拥有该属性的记录添加相关属性,但对属性取值填为空即可,从而保证D
Union
已经符合一个结构化数据集的定义;对于数据集D
Union
和待发布数据集D
s
,计算每一属性Attr
j
相似度如下:随后,通过对计算出来的β
j
进行分类,根据分类结果将D
s
中的属性分为私有属性和非私有属性,分类的方法采用最小二乘法;由于是对一维数据进行分类,首先设拟合的点为p,定义误差平方和如下:通过求解该误差函数的最小值,即获得对相似度β
j
的最小点拟合,以该点作为阈值,取其中大于阈值的相关数据为非私有属性,而小于阈值的相关数据为私有属性;求解最小值的方法为对误差函数求对点p的驻点,由于该函数是开口向上的二次函数,驻点即为最小值点,求解得:从而将D
s
中的属性分为两类如下:对于待发布数据集中取值和已发布数据集大部分重复的属性,认为其中已经有大量的知识被获取,足够用于作为发动隐私攻击的背景知识,在这里体现的即为满足β
j
≥b的属性,而对于满足β
j
<b的属性,其取值和已发布数据集中取值重叠较少,认为其他发布的数据集缺少这部分的相关知识,归类为私有属性,重点保护;(2)对私有属性应用信息熵进行定价,将私有属性分为敏感属性和非敏感属性,对剩余的非敏感属性和非私有属性应用最大熵原理提取其中的关键准标识符;具体过程如下:(2.1)对私有属性的定价主要从三个方面来考虑:对于内部数据的定价、对于外部数据的定价以及分布定价;为方便应用信息熵并帮助表达,首先对私有属性的内部概率进行定义:其中,|Attr
ij
|表示数据集D
s
中取值为Attr
ij
的个数,实际中的概率对于人们来说难以获知,因此将D
s
中Attr
ij
的频率作为概率的近似估计,当D
s
中数据越多时,根据大数定律,该结果趋近于真实概率;通过引入该内部概率,计算某一私有属性的信息熵如下:
若外界数据分布与该数据集分布一致,利用该熵值直接对私有属性定价,以表示从该数据集获取一条数据的平均信息量;在考虑的场景中,外界数据与本地数据集的分布不一致,因此还需要对私有属性考虑外部数据场景,以明确外部定价;首先定义数据外部分布的概率:其中,N表示待发布数据集和已发布数据的总记录数,计算其平均信息量如下:最后...

【专利技术属性】
技术研发人员:陈振宇姚琳吴国伟闫鸿淼
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1