个人信息去标识化方法及装置制造方法及图纸

技术编号:20759297 阅读:31 留言:0更新日期:2019-04-03 13:06
本发明专利技术公开一种个人信息的去标识化方法及装置。个人信息去标识化方法包括:从数据库获取包括记录的原始表格的步骤,该记录记入了表示个人信息的原始数据;针对包含于原始表格的各个记录记入的原始数据实施泛化,生成泛化数据的步骤;设定由原始数据和泛化数据组成的泛化层模型的步骤;基于泛化层模型,生成包括多个候选节点的原始晶格的步骤;以及设定包括至少一个候选节点的最终晶格的步骤,该至少一个候选节点是在包含于原始晶格的多个候选节点中符合预先设定的标准的候选节点。因此,本发明专利技术可以更有效地进行个人信息的去标识化。

【技术实现步骤摘要】
【国外来华专利技术】个人信息去标识化方法及装置
本专利技术涉及一种数据处理技术,具体涉及一种基于遗传算法,对于包括个人信息在内的表格有效实施去标识化的技术。
技术介绍
随着信息通信技术(例如,大数据相关技术)的发展,收集个人信息的技术、分析收集到的个人信息的技术等也得到了发展。个人信息包括居民身份证号码、住址、邮政编码、姓名、生年月日、性别、疾病、年薪等。如此,随着大数据技术的发展,个人信息可以应用于多种区域。例如,企业基于个人信息,针对特定消费者开展本公司商品、服务等的广告业务,由此,消费者从企业轻易地获取与本人需要的商品、服务相关的信息。但是,盲目使用个人信息,可能会侵犯作为信息主体的个人的基本权利。要想解决这种弊端,可以考虑个人信息去标识化技术。去标识化技术是指删除或替代(即,针对表示个人信息的数据实施泛化)部分或全部个人信息,从而达到即使与其他数据结合也无法辨认特定个人的目的。针对个人信息实施去标识化时,根据泛化水平(level),个人信息泛化范围也会有所不同。针对所有泛化水平分别实施个人信息去标识化时,会为了生成去标识化的个人信息消耗较多的时间。并且,各个泛化水平在个人信息的可用性、再辨认危险性等方面也会有所不同。例如,针对个人信息中相对多的部分实施泛化时,分析去标识化的个人信息时,错误出现相对多,由此会削弱去标识化个人信息的可用性。反之,针对个人信息中相对少的部分实施泛化时,可能会相对容易地推测到或再辨认到去标识化的个人信息,由此会提高去标识化个人信息的再辨认危险性。并且,为了针对个人信息实施去标识化,首先应该从数据库获取包括个人信息的表格。从数据库获取的表格包括各种各样的较多信息,在生成包含需要信息的表格的时候,会消耗较多的时间。
技术实现思路
技术问题为了解决上述问题,本专利技术的目的是提供一种对于个人信息有效地实施去标识化的方法及装置。为了解决上述问题,本专利技术的另一目的是提供一种对于包含个人信息的表格的记录设定属性的方法及装置。解决问题的方案为了达到上述目的,本专利技术一实施例中个人信息去标识化装置实施的个人信息去标识化方法包括:从数据库获取包括记录的原始表格的步骤,该记录记入了表示个人信息的原始数据;基于泛化水平,针对包含于所述原始表格的各个记录记入的原始数据实施泛化,生成泛化数据的步骤;设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤;基于所述泛化层模型表示的层次结构,生成包括多个候选节点的原始晶格的步骤,该多个候选节点表示用于指出各类个人信息的泛化水平的表格;以及设定包括至少一个候选节点的最终晶格的步骤,该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。其中,所述个人信息去标识化方法还可包括:针对包含于所述原始表格的各个记录分别设定属性的步骤。其中,所述属性可以划分为ID、QI、SA和IA;可以将记入有原始数据的记录设定为ID,该原始数据表示明确地辨认特定个人的个人信息;可以将记入有原始数据的记录设定为QI,该原始数据表示默认辨认特定个人的个人信息;可以将记入有原始数据的记录设定为SA,该原始数据表示敏感度高于预先设定的标准的个人信息;可以将记入有原始数据的记录设定为IA,该原始数据表示敏感度低于SA的个人信息。其中,所述个人信息去标识化方法还可包括:针对包含于所述原始表格的记录中,所述属性设定为ID的记录,进行遮蔽处理的步骤。其中,所述个人信息去标识化方法还可包括:依据原始数据表示的个人信息的种类设定所述泛化水平的步骤,该原始数据记入在包含于所述原始表格的记录中,所述属性设定为QI的记录。其中,可以针对记入在包含于所述表格的记录中,所述属性设定为QI的记录的原始数据,依据泛化水平进行泛化。其中,设定所述最终晶格的步骤可以包括:在包含于所述原始晶格的多个候选节点中选择至少一个候选节点的步骤;基于所述至少一个候选节点表示的泛化水平,对于所述原始表格实施去标识化,从而生成去标识化表格的步骤;将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点的步骤;以及设定包括所述最终节点的所述最终晶格的步骤,所述最终节点与符合所述预先设定的标准的候选节点相对应。其中,所述去标识化表格可以以K-匿名性为基础生成,或者以所述K-匿名性和L-多元性为基础生成,或者以所述K-匿名性和T-接近性为基础生成。其中,所述预先设定的抑制标准可以表示构成所述去标识化表格的相同群组中,不符合所述预先设定的K-匿名性的相同群组的比率。其中,所述个人信息去标识化方法还可包括:计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性的步骤。为了达到上述目的,本专利技术另一实施例的个人信息去标识化装置包括处理器以及用于保存通过所述处理器实施的至少一个指令的存储器;所述至少一个指令从数据库获取包括记入有表示个人信息的原始数据的记录的原始表格,基于泛化水平,对于分别记入在包含于所述原始表格的各个记录的原始数据实施泛化,从而生成泛化数据,设定由所述原始数据和所述泛化数据组成的泛化层模型,基于所述泛化层模型表示的层次结构,生成包括多个候选节点的原始晶格,而该多个候选节点表示用于指出各类个人信息泛化水平的表格,并设定包括至少一个候选节点的最终晶格,而该至少一个候选节点是包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。其中,所述至少一个指令还可以分别设定包含于所述原始表格的各记录的属性。其中,所述属性可以划分为ID、QI、SA和IA;可以将记入有原始数据的记录设定为ID,该原始数据表示明确地辨认特定个人的个人信息;可以将记入有原始数据的记录设定为QI,该原始数据表示默认辨认特定个人的个人信息;可以将记入有原始数据的记录设定为SA,该原始数据表示敏感度高于预先设定的标准的个人信息;可以将记入有原始数据的记录设定为IA,该原始数据表示敏感度低于SA的个人信息。其中,所述至少一个指令还可以针对包含于所述原始表格的记录中,所述属性设定为ID的记录进行遮蔽处理。其中,所述至少一个指令还可以依据原始数据表示的个人信息的种类设定所述泛化水平,该原始数据记入在包含于所述原始表格的记录中,所述属性设定为QI的记录。其中,可以针对记入在包含于所述表格的记录中,所述属性设定为QI的记录的原始数据,依据泛化水平实施泛化。其中,所述至少一个指令在设定所述最终晶格时,可以在包含于所述原始晶格的多个候选节点中选择至少一个候选节点,基于所述至少一个候选节点表示的泛化水平,对于所述原始表格实施去标识化,从而生成去标识化表格,将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点,并且设定包括所述最终节点的所述最终晶格,而所述最终节点与符合所述预先设定的标准的候选节点相对应。其中,所述去标识化表格可以以K-匿名性为基础生成,或者以所述K-匿名性和L-多元性为基础生成,或者以所述K-匿名性和T-接近性为基础生成。其中,所述预先设定的抑制标准可以表示构成所述去标识化表格的相同群组中,不符合所述预先设定的K-匿名性的相同群组的比率。其中,所述至少一个指令还可计算与包含于所述最终晶格的至少一个最终节点对应的去标识化表格的再辨认危险性和有用性。为了达到上述目的,本专利技术又另一实施例的个人本文档来自技高网
...

【技术保护点】
1.一种个人信息去标识化方法,其特征在于,个人信息去标识化装置实施的个人信息去标识化方法中,包括:从数据库获取包括记录的原始表格的步骤,该记录记入了表示个人信息的原始数据;基于泛化水平,针对包含于所述原始表格的各个记录记入的原始数据()实施泛化,生成泛化数据的步骤;设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤;基于所述泛化层模型表示的层次结构,生成包括多个候选节点的原始晶格的步骤,该多个候选节点表示用于指出各类个人信息的泛化水平的表格;以及设定包括至少一个候选节点的最终晶格的步骤,该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。

【技术特征摘要】
【国外来华专利技术】2016.06.30 KR 10-2016-0082839;2016.06.30 KR 10-2011.一种个人信息去标识化方法,其特征在于,个人信息去标识化装置实施的个人信息去标识化方法中,包括:从数据库获取包括记录的原始表格的步骤,该记录记入了表示个人信息的原始数据;基于泛化水平,针对包含于所述原始表格的各个记录记入的原始数据()实施泛化,生成泛化数据的步骤;设定由所述原始数据和所述泛化数据组成的泛化层模型的步骤;基于所述泛化层模型表示的层次结构,生成包括多个候选节点的原始晶格的步骤,该多个候选节点表示用于指出各类个人信息的泛化水平的表格;以及设定包括至少一个候选节点的最终晶格的步骤,该至少一个候选节点是在包含于所述原始晶格的所述多个候选节点中符合预先设定的标准的候选节点。2.根据权利要求1所述的个人信息去标识化方法,其特征在于,所述个人信息去标识化方法还包括:针对包含于所述原始表格的各个记录分别设定属性的步骤。3.根据权利要求2所述的个人信息去标识化方法,其特征在于,所述属性划分为ID、QI、SA和IA;将记入有原始数据的记录设定为ID,该原始数据表示明确地辨认特定个人的个人信息;将记入有原始数据的记录设定为QI,该原始数据表示默认辨认特定个人的个人信息;将记入有原始数据的记录设定为SA,该原始数据表示敏感度高于预先设定的标准的个人信息;将记入有原始数据的记录设定为IA,该原始数据表示敏感度低于SA的个人信息。4.根据权利要求3所述的个人信息去标识化方法,其特征在于,所述个人信息去标识化方法还包括:针对包含于所述原始表格的记录中,所述属性设定为ID的记录,进行遮蔽处理的步骤。5.根据权利要求3所述的个人信息去标识化方法,其特征在于,所述个人信息去标识化方法还包括:依据原始数据表示的个人信息的种类设定所述泛化水平的步骤,该原始数据记入在包含于所述原始表格的记录中,所述属性设定为QI的记录。6.根据权利要求3所述的个人信息去标识化方法,其特征在于,针对记入在包含于所述表格的记录中,所述属性设定为QI的记录的原始数据,依据泛化水平进行泛化。7.根据权利要求1所述的个人信息去标识化方法,其特征在于,设定所述最终晶格的步骤包括:在包含于所述原始晶格的多个候选节点中选择至少一个候选节点的步骤;基于所述至少一个候选节点表示的泛化水平,对于所述原始表格实施去标识化,从而生成去标识化表格的步骤;将与符合预先设定的抑制标准的去标识化表格对应的候选节点设定为最终节点的步骤;以及设定包括所述最终节点的所述最终晶格的步骤,所述最终节点与符合所述预先设定的标准的候选节点相对应。8.根据权利要求7所述的个人信息去标识化方法,其特征在于,所述去标识化表格以K-匿名性为基础生成,或者以所述K-匿名性和L-多元性为基础生成,或者以所述K-匿名性和T-接近性为基础生成。9.根据权利要求8所述的个人信息去标识化方法,其特征在于,所述预先设定的抑制标准表示构成所述去标识化表格的相同群组中,不符合预先设定的所述K-匿名性的相同群组的比率。10.根据权利要求1所述的个人信息去标识化方法,其特征...

【专利技术属性】
技术研发人员:崔大祐劝祐奭黄明式金尚煜金基兑
申请(专利权)人:飞索科技有限公司
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1