System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向数据开放的高性能个人信息脱敏方法与系统技术方案_技高网
当前位置: 首页 > 专利查询>南湖实验室专利>正文

面向数据开放的高性能个人信息脱敏方法与系统技术方案

技术编号:40667746 阅读:5 留言:0更新日期:2024-03-18 19:02
本发明专利技术涉及信息安全技术领域,尤其涉及一种面向数据开放的高性能个人信息脱敏方法与系统。该方法包括通过待脱敏数据获取,确认需要识别的个人信息类型及其识别规则,并确认对应的个人信息类型在进行脱敏处理时的脱敏策略,个人信息识别与定位和对识别到的承载个人信息的字符进行自适应脱敏处理,并根据字符定位在副本数据表中完成替换。通过本发明专利技术的脱敏方法和系统实现的面向数据开放的个人信息脱敏处理,可兼顾个人信息保护和数据开放场景下数据的真实性和可用性。

【技术实现步骤摘要】

本专利技术属于信息安全,具体涉及一种面向数据开放的高性能个人信息脱敏方法与系统


技术介绍

1、以公共数据的开放为例来刻画数据开放场景,公共数据是国家相关机构在依法履职或提供公共服务过程中收集、产生的数据,个人信息是其重要组成部分。在公共数据开放的场景下,适用的数据脱敏方法需要满足数据开放后的数据可用要求的同时又需要保障数据的安全,其中脱敏算法作用的基础是个人信息的识别和脱敏规则的设定。公共数据存在数据容量大、涉及方面广、数据结构杂的特点,其中的个人信息分布多样且有隐蔽性,现有技术提供的个人信息脱敏方法不能较好满足实际情况下对公共数据的合规开放及有效利用的需求。

2、现有技术存在的问题如下:(1)个人信息识别方式的不足。(2)基于字段层级的脱敏规则容易导致敏感信息披露:以遮盖填充的脱敏策略为例,如图1所示,在一个手机号字段中出现一个异常值,此时对手机号字段的脱敏规则设定为从左侧第三个字符开始脱敏四个字符,在基于作用于整个字段的脱敏规则的脱敏处理下,异常值中姓名“张五”被披露。因此目前的基于字段层级的脱敏规则也无法满足数据脱敏管理的有效性原则,容易导致敏感信息披露。(3)对公共数据在设定脱敏处理的策略上脱敏对象随意和脱敏方式随意:脱敏对象随意问题表现为脱敏处理的目标不明和对于需要脱敏的对象标准和要求不明甚至出现完全脱敏与完全不脱敏的两极分化;脱敏方式随意问题表现为选取的脱敏方式会导致数据集大量可用的非敏感信息丢失。如图2所示,该残疾人信息表对于个人信息字段使用无意义字符串填充,会导致数据信息无法使用使数据失去分析使用的价值。


技术实现思路

1、本专利技术的专利技术目的是提供一种面向数据开放的高性能个人信息脱敏方法与系统,在字符层级下进行个人信息识别与定位,并能对承载敏感信息的字符自适应选择脱敏策略进行脱敏处理,实现数据开放场景下对于数据表的字符层级的精准个人信息脱敏。

2、为实现上述专利技术目的,本专利技术的技术方案如下:

3、一种面向数据开放的高性能个人信息脱敏方法,包括如下步骤:

4、s1待脱敏数据获取:接入数据源,从数据源中获取待脱敏的原始数据表;

5、s2策略设定:包含设定个人信息类型及识别规则和设定个人信息脱敏规则两个部分,每个部分的设定均含有底线策略和策略自定义两个层级,

6、所述设定个人信息类型及识别规则包括设定需要识别的个人信息类型及其对应的识别规则,后续的处理步骤将基于设定的识别规则所识别到的个人信息,

7、所述设定个人信息脱敏规则包括设定对识别到的各类个人信息进行不同脱敏处理时所需要保留的信息粒度和脱敏形式;

8、s3个人信息识别与定位:按照已确认策略中设定的各类个人信息类型及识别规则,对待脱敏的原始数据表进行字符层级的检测识别和定位;

9、s4对识别到的承载个人信息的字符进行自适应脱敏处理:对记录的具体识别到的承载个人信息的字符,按照已确认策略中设定的个人信息脱敏规则自适应地进行字符层级的脱敏处理。

10、本专利技术面向数据开放的高性能个人信息脱敏方法与系统通过围绕基于字符层级的个人信息识别与定位的模式,在一定程度上解决了原先基于字段层级的个人信息识别方法和脱敏规则因数据结构规范和异常值导致的无法准确识别并高效脱敏数据中隐藏的个人信息的问题,有效避免了数据开放后导致的个人信息披露的问题。

11、在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤s2中,

12、所述个人信息类型及识别规则设定部分的底线策略层级包括基于数据开放的场景特点和个人信息保护要求罗列直接标识性个人信息,针对直接标识性个人信息类型编写特定的识别规则,设计具有个人信息保护底线思维的基础个人信息类型及识别规则,实现对承载个人信息的字符进行识别,

13、所述个人信息脱敏规则设定部分的底线策略层级包括对于已设定的基础个人信息类型,针对性设计具有个人信息保护底线思维的基础的个人信息脱敏规则,对各个人信息类型在保留其数据结构特征和数据统计特征的同时移除信息的敏感性。

14、所述个人信息类型及识别规则设定部分的底线策略层级具体如下:基于数据开放的场景特点和相关法律法规的个人信息保护要求,罗列如个人姓名、身份证号码、手机号码等典型的直接标识性个人信息;通过结合正则表达式、命名实体识别等技术,针对这些典型的直接标识性个人信息类型编写特定的识别规则,设计基础的个人信息类型及识别规则,实现对承载个人信息的字符进行识别。

15、如对于个人姓名的识别需要采用基于深度学习的命名实体识别方法,对包括结构化的个人姓名和对描述类的长文本中出现的个人姓名进行识别,识别出承载个人姓名信息的字符;又如对于身份证号码等具有统一编码特征的信息的识别需要采用正则表达式进行提取并使用身份证识别规则进行校验,识别出承载身份证号码信息的字符。

16、所述个人信息脱敏规则设定部分的底线策略层级具体如下:对应设定基础的个人信息类型,基于数据开放的场景特点和相关法律法规的个人信息保护要求以及规避个人数据关联风险的需求,针对性设计基础的个人信息脱敏规则,要求可在对各个人信息类型在保留其数据结构特征和数据统计特征的同时,进行适当的处理以移除信息的敏感性。以个人姓名和手机号码为例,基础的个人信息脱敏规则可保留个人姓名中常见姓氏、可保留手机号码的前三位和后四位。

17、本专利技术围绕数据开放的场景特点和法律法规要求,设定底线策略,确保常见的典型直接标识性个人信息不在数据开放过程中被披露,规避个人数据关联风险。

18、在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤s2中,

19、所述个人信息类型及识别规则设定部分的策略自定义层级在底线策略的基础上,通过增删、编辑或导入相关信息类型的识别规则,自定义扩大、缩小以及调整需要进行识别及后续脱敏处理的个人信息类型,

20、所述个人信息脱敏规则设定部分的策略自定义层级在底线策略的基础上,选定需要进行脱敏处理的个人信息类型,设定所需要保留的信息粒度和脱敏形式。

21、所述个人信息脱敏规则设定部分的策略自定义层级具体如下:

22、在个人信息脱敏规则设定部分的底线策略的基础上,根据实际应用的需要,选定需要进行脱敏处理的个人信息类型,可选将个人信息划分至更细粒度的信息。由于各类个人信息而言,其往往由更细粒度的信息构成。

23、所述包括掩藏或替换等不同形式,实际应用中根据需求进行不同脱敏形式的选择。

24、本专利技术提供的策略设定方法可对于构成个人信息的更细粒度的信息字符进行高自由度的选择并执行脱敏处理;此外,选定需要进行脱敏处理的个人信息类型,还可选处理承载个人信息的字符时执行遮掩或替换的具体形式,可以采用内容标签、特殊字符等方式进行遮掩或替换,也可以设定进行遮掩或替换的部分的其实位置、终止位置或长度。

25、基于对承载个人信息的字符进行脱敏的模式,采用可自定义式的脱敏策略,允本文档来自技高网...

【技术保护点】

1.一种面向数据开放的高性能个人信息脱敏方法,其特征在于:包括如下步骤:

2.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S2中,

3.如权利要求2所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S2中,

4.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S3中包括,

5.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S4中包括,

6.一种面向数据开放的高性能个人信息脱敏系统,其特征在于:包括获取待脱敏数据表的数据获取模块、策略设定模块、个人信息识别与定位模块、自适应脱敏模块和输出模块,

7.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于: 所述识别策略设定子模块包括内置默认的基础识别策略和自定义的识别策略,

8.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述脱敏策略设定子模块包括内置默认的基础脱敏策略和自定义脱敏策略,

9.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述个人信息识别与定位模块,包括数据表预处理、个人信息识别和定位记录,

10.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述数据获取模块,对数据源进行获取,通过客户端接入并同步数据源导入数据表,在导入的数据表中选定待脱敏的数据表作为原始数据执行后续脱敏处理;

...

【技术特征摘要】

1.一种面向数据开放的高性能个人信息脱敏方法,其特征在于:包括如下步骤:

2.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤s2中,

3.如权利要求2所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤s2中,

4.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤s3中包括,

5.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤s4中包括,

6.一种面向数据开放的高性能个人信息脱敏系统,其特征在于:包括获取待脱敏数据表的数据获取模块、策略设定模块、个人信息识别与定位模块、自适应脱敏模块和输出模块,

7...

【专利技术属性】
技术研发人员:廖佳纯陈海粟董伟姚思诚焦文品
申请(专利权)人:南湖实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1