电子病历发布隐私保护方法技术

技术编号:29674316 阅读:28 留言:0更新日期:2021-08-13 21:56
本发明专利技术公开了一种电子病历发布隐私保护方法,包括如下步骤:S1、初始化电子病历原始二维数据表T及与该表对应的数据元标识;S2、计算每两条记录之间的距离,形成另一个二维数据表D;S3、将第一条记录与剩余记录之间的距离按从小到大排序,得到数组array;S4、第一条记录array[0]与剩余记录距离最远的并且未聚类的记录array[n‑1]设为t

【技术实现步骤摘要】
电子病历发布隐私保护方法
本专利技术涉及一种电子病历发布隐私保护方法。
技术介绍
随着信息和网络技术发展,医疗数据多以电子化的形式在多个机构之间分布,出于临床诊断、科研及教学的需要,其中以电子病历为核心的医疗信息的分享、复制和传播越来越频繁,医疗数据中包含的个人隐私信息的泄露问题也变得日益重要而不容忽视。医疗卫生机构通常将电子病历以数据表的形式进行对外发布,数据表中使用标识属性ID、准标识属性QI、敏感属性SA、其他属性Other构成一条记录刻画每一个个体。例如,在电子病历中,身份证号是标识属性,性别、年龄划分为准标识属性,疾病则是敏感属性。基于聚类的匿名化技术的基本思想是:首先将原始数据表根据一定的距离度量公式划分为若干个簇,其中簇内的记录相关,簇之间的记录不相关;然后将每个簇内记录的准标识属性泛化为相同的属性值,生成等价类,从而实现数据表的匿名化。常见的隐私保护模型有K-匿名模型和L-多样性模型。下面对泛化、等价组、K-匿名模型、L-多样性模型等基本概念给出定义。附图1是一张简化的电子病历原始数据表,假设该表发布时已删除身份证号、病历号、健康档案号,属性列“姓名”作为个体标识属性,“性别”、“年龄”、“邮编”作为准标识属性,“疾病名称”、“疾病编码”作为敏感属性,其中“疾病编码”来源于ICD国际疾病编码规则。定义1泛化数据表中存在数值属性与非数值属性,对于数值属性Ad,给定一个属性值d,如果存在某个区间[d1,d2],使得d∈[d1,d2],那么称[d1,d2]是d的一个泛化。泛化也称为概化,是对原数据更抽象、概括的表示,从而可以隐藏个体的具体信息。例如图2中[25-60]是对t1中59的一个泛化。泛化包括全域泛化和局部泛化两种方法。全域泛化分别对每一个准标识属性列进行泛化,信息损失较大。而局部泛化按等价组队每一条记录的准标识属性分别进行泛化,信息损失相对于全域泛化较小。对于非数值属性Ag,给定一个属性值g,如果属性值Vg,如果属性值Vg在分类分级树中是g的父辈,那么称Vg是g的一个泛化。例如图2中的邮政编码2562**是对256217的一个泛化。定义2等价组经过聚类算法和泛化后,产生数据表T*(QI*,SA,Other),数据表T*也可以表示为E={e1,e2,L,em},集合E满足并且ei|ej=φ(1≤i≠j≤m),其中ei为聚类分组,组内所有记录的准标识属性取值完全相同,同时任意两个组互不相交,不包含相同的记录。例如图2中的记录集合{t7,t3}就是一个等价组。定义3K-匿名模型发布的数据表中每个等价组中至少有K条记录,它们在准标识属性上的取值完全相同,保证发布数据表中的任意记录与其他K-1条记录不可区分,从而使标识属性与敏感属性精准关联的概率不超过1/K,能够抵御链接攻击。采用K-匿名模型对原始表进行匿名化处理,例如图2满足2-匿名,即使攻击者通过其他来源的信息锁定记录t1和t4,但无法100%确定钱民得了什么病。K-匿名模型切断了个体与记录之间的关联关系,在一定程度上有效防止了数据发布中的链接攻击,但是并没有阻止个体与敏感属性值之间的关联,K-匿名模型面临着同质攻击和背景知识攻击的隐私泄露风险。定义4L-多样性模型发布的数据表中每个等价组中至少有L个不同的敏感属性值,从而使某一隐私信息被推断出的概率可以低于1/L,避免背景知识攻击和同质攻击。例如图2中第一个等价组的敏感属性疾病都为细菌性肺炎,攻击者在知道陈彬和郝倩的准标识属性时便可以准确地确定两人所患疾病为细菌性肺炎。L-多样性模型的提出即可克服这一缺陷,每个等价组中含有L个不同的敏感属性值。如图3所示的匿名发布数据表,每个等价组中的疾病名称都是不同的,攻击者不能以100%的概率正确推导出个体的隐私信息,但是在第四个等价组疾病名称都含有“胆囊”字样,那么攻击者如果在其他来源数据得知目标个体属于这个等价组,他也可以确认目标个体罹患与“胆囊”相关的疾病。现存方案的第一个缺点是对“疾病”这个敏感属性无法量化度量,从而无法抵御近似性攻击,根本原因是“疾病”属性之间的语义距离没有量化定义,最终导致无法在电子病历的实际发布中保护用户数据的安全性,用户的隐私信息处于“裸奔”状态。第二个缺点是电子病历发布中的隐私保护方法大多停留在理论研究为主的阶段,还没有真正可运行地医疗信息隐私保护信息系统。
技术实现思路
为了解决上述问题,本专利技术提供一种可同时避免链接攻击、背景知识攻击、同质攻击以及近似性攻击的电子病历发布隐私保护方法。一种电子病历发布隐私保护方法,包括如下步骤:S1、初始化电子病历原始二维数据表T及与该表对应的数据元标识;S2、计算每两条记录之间的距离,形成另一个二维数据表D,两条记录之间的距离是将准标识属性和敏感属性这两个不同性质的属性统一映射到实数域中,然后计算准标识属性和敏感属性取值的距离之和;S3、将第一条记录与剩余记录之间的距离按从小到大排序,得到数组array;S4、第一条记录array[0]与剩余记录距离最远的并且未聚类的记录array[n-1]设为tmax,依据表D,查找与记录tmax距离最近、次近的记录,排除第一条记录、已聚类的记录以及其本身,直到满足k条,则k条记录就是一个簇;S5、重复执行步骤S4,直至数组array中还未聚类的记录剩余k-1条,则聚类完成,所有记录都被分配到合适的簇中;S6、对所有簇进行逐条泛化后发布。进一步的,步骤S2中将准标识属性和敏感属性这两个不同性质的属性统一映射到实数域的方法如下,数值型属性数据之间的距离:设准标识属性V为数值型属性并且在实数域上是连续的,对于任意两个数值vi,vj∈R,则vi与vj之间的距离定义为:其中,|v|是待泛化的准标识属性V在原始表中的取值范围,该距离结果越小,说明两个属性值越相似;分类分级属性数据间的距离:设属性Th为分类分级属性,H是其语义的取值范围,任意两个属性取值vi,vj∈H,则vi与vj之间的距离定义为:其中Tree是分类分级域上的一个分类树,H(Tree)表示分类分级型属性Th的语义分类树的高度,H(vi→vj)表示以取值vi、vj的最低公共祖先节点为根节点的子树高度;疾病属于分类分级属性,根据ICD国际疾病编码规则,设疾病编码格式为αβ.γ,其中α∈{A,B,C,L,X,Y,Z},β∈{00,01,02,L,99},γ∈{000,001,002,L,999};设两条记录中第一条记录疾病属性的编码为α1β1.γ1,第二条记录中疾病属性的编码为α2β2.γ2,则两条记录中疾病属性值之间的距离为:同时,性别、民族等均属于分类分级属性,性别不同时语义距离为1,性别相同时语义距离为0,民族不同时语义距离为1,民族相同时语义距离为0。本专利技术的有益效果:本专利技术使用隐私保护中的匿名化技术,基于聚类本文档来自技高网
...

【技术保护点】
1.一种电子病历发布隐私保护方法,其特征在于包括如下步骤:/nS1、初始化电子病历原始二维数据表T及与该表对应的数据元标识;/nS2、计算每两条记录之间的距离,形成另一个二维数据表D,两条记录之间的距离是将准标识属性和敏感属性这两个不同性质的属性统一映射到实数域中,然后计算准标识属性和敏感属性取值的距离之和;/nS3、将第一条记录与剩余记录之间的距离按从小到大排序,得到数组array;/nS4、第一条记录array[0]与剩余记录距离最远的并且未聚类的记录array[n-1]设为t

【技术特征摘要】
1.一种电子病历发布隐私保护方法,其特征在于包括如下步骤:
S1、初始化电子病历原始二维数据表T及与该表对应的数据元标识;
S2、计算每两条记录之间的距离,形成另一个二维数据表D,两条记录之间的距离是将准标识属性和敏感属性这两个不同性质的属性统一映射到实数域中,然后计算准标识属性和敏感属性取值的距离之和;
S3、将第一条记录与剩余记录之间的距离按从小到大排序,得到数组array;
S4、第一条记录array[0]与剩余记录距离最远的并且未聚类的记录array[n-1]设为tmax,依据表D,查找与记录tmax距离最近、次近的记录,排除第一条记录、已聚类的记录以及其本身,直到满足k条,则k条记录就是一个簇;
S5、重复执行步骤S4,直至数组array中还未聚类的记录剩余k-1条,则聚类完成,所有记录都被分配到合适的簇中;
S6、对所有簇进行逐条泛化后发布。


2.如权利要求1所述的电子病历发布隐私保护方法,其特征在于,
步骤S2中将准标识属性和敏感属性这两个不同性质的属性统一映射到实数域的方法如下,
数值型属性数据之间的距离:设准标识属性V为数值型属性并且在实数域上是连...

【专利技术属性】
技术研发人员:李法珍王永起金健焦正坤张振雷
申请(专利权)人:同智伟业软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1