【技术实现步骤摘要】
一种面向分布式的隐私保护记录链接方法
[0001]本专利技术属于隐私保护
,具体是一种面向分布式的隐私保护记录链接方法
。
技术介绍
[0002]隐私保护记录链接
(PPRL:Privacy Preserving Record Linkage)
旨在将来自不同数据源的与个人相关的记录链接起来,同时保护隐私
。
记录链接或实体解析旨在链接引用相同现实世界实体的记录,如人或产品
。
通常缺乏全局标识符,因此只能通过比较可用的准标识符
(
如姓名
、
地址或出生日期
)
来实现联系
。
然而,在许多情况下,只有在敏感信息得到充分保护以确保病人或顾客等个人隐私的情况下,数据所有者才愿意或允许为这种数据集成提供其数据
。
[0003]PPRL
是一种很有前景的方法,它允许集成和使用来自不同站点的与人有关的数据,而不会泄露人的身份
。
为此目的,与人有关的记录的联系基于准标 ...
【技术保护点】
【技术特征摘要】
1.
一种隐私保护记录链接方法,其特征在于所述方法包括:搭建分布式框架;所述分布式框架采用
Apache Spark Standalone
架构结合计算节点以多线程的方式,包括主服务器
Cluster Manager、
工作节点
Worker Node
;主服务器
Cluster Manager
获取待匹配的多个流数据,并将上述流数据按照负载均衡原则分配给各工作节点
Worker Node
;工作节点
Worker Node
接收待匹配的多个流数据,基于统计信息利用多维布隆过滤器
MBF
将流数据字段值标记化和哈希化;基于枢轴的改进度量距离函数过滤方法,工作节点
Worker Node
将多维布隆过滤器处理后的流数据进行匹配;主服务器根据各工作节点的占用情况分配计算任务,进行高效并行的隐私保护记录链接;链接完成后,可信链接单元将匹配成功的所有流数据信息返还给数据持有双方,数据持有方即可获得与自身持有的流数据中匹配成功的部分流数据
。2.
根据权利要求1所述方法,其特征在于所述工作节点
Worker Node
接收待匹配的多个流数据,基于统计信息利用多维布隆过滤器
MBF
将流数据字段值标记化和哈希化,具体是:首先创建多个长度为
m
的位向量,将流数据以
m
为单位进行划分,并分别填充进普通布隆过滤器中,形成预备多维布隆过滤器
PMBF
;自定义抽取字段的权重以及抽取顺序,从预备多维布隆过滤器
PMBF
的
m
位中抽取
n
位,形成复杂预备多维布隆过滤器
CPMBF
,
n
<
m
;按照自定义的参数生成随机化排序
N
,对复杂预备多维布隆过滤器
CPMBF
内元素按照随机化排序
N
进行排序,形成多维布隆过滤器
MBF
,得到流数据的标记化和哈希化的字段值
。3.
根据权利要求1所述方法,其特征在于所述基于枢轴的改进度量距离函数过滤方法,工作节点
Worker Node
将多维布隆过滤器处理后的流数据进行匹配,具体是:
1)
使用
MapPartition
确定每个分区上的本地枢轴
Local Pivots
;
2)
确定全局枢轴
Global Pivots
;
3)
索引数据持有双方流数据分配给离全局枢轴
Global Pivots
最近的本地枢轴,然后获取每个流数据与本地枢轴间的汉明距离;
4)
通过
GroupReduce
运算符对每个本地枢轴的流数据进行分组,进一步确定每个本地枢轴的查询半径;通过在查询半径
rad(q
b
)
内使用近似匹配,并结合不等式
(2)
排除掉不相似的对象:其中,
d(p
a
,q
b
)
为本地枢轴
p
a
到单个流数据
q
b
的汉明距离,
d(p
a
,i
c
)
为本地枢轴
p
a
到单个流数据
i
c
的汉明距离,流数据
q
b
、i
c
分别为数据持有双方的流数据,
rad(q
b
)
为单个流数据
q
b
的查询半径;
5)
数据持有双方将多维布隆过滤器处理后的流数据移交给可信链接单元进行链接计算:依次遍历数据持有双方的流数据,寻找数据持有双方的匹配流数据
。4.
根据权利要求3所述方法,其特征在于所述确定全局枢轴
Global Pivots
具体是使用
GroupReduce
运算符对复合布隆过滤器处理后的流数据进行分区,其中每个分区配置有一
个本地枢轴
Local Pivots
;从各分区的本地枢轴
Local Pivots
中选择全局枢轴,并将上述全局枢轴
Global Pivots
被保存在分布式高速缓存中,可在每个分区上访问
。5.
根据权利要求3所述方法,其特征在于所述汉明距离计算公式如下所示:其中
d(p
a
,q
b
)
为本地枢轴
p
a
与流数据
q
b...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。