System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种半结构化数据中个人标识信息识别方法与系统技术方案_技高网
当前位置: 首页 > 专利查询>南湖实验室专利>正文

一种半结构化数据中个人标识信息识别方法与系统技术方案

技术编号:40952495 阅读:2 留言:0更新日期:2024-04-18 20:28
本发明专利技术涉及信息安全技术领域,尤其涉及一种半结构化数据中个人标识信息识别方法与系统。该方法包括数据表读取和识别结果汇总保存,还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别。本发明专利技术能够高效的对其中包含的个人标记信息进行识别,帮助相关从业人员了解数据表中的个人信息情况。

【技术实现步骤摘要】

本专利技术属于信息安全,具体涉及一种半结构化数据中个人标识信息识别方法与系统


技术介绍

1、个人标识信息是指在可以在一定环境下对以对个体进行标识的个人信息,例如手机号、姓名、身份证号、性别等,对此,个人标识信息识别系统可以在海量的数据中识别到个人信息,避免个人信息泄露,守护个人数据安全。

2、现有的个人标识信息识别系统往往会在数据表中按字段分别抽取样本或者只是根据字段名进行匹配,对匹配的字段内容进行信息标记。此类系统依赖于待处理的数据有着较好的结构化程度,但在许多平台中,虽然数据存储于数据库的二维表中,但其结构化程度并不高,例如在公共数据开放平台中,数据主体差异大,数据表的结构化程度也天差地别,许多字段中字段名并没有约束字段内容。

3、现有技术如公开号为cn112835903a的中国专利技术专利申请公开了一种敏感数据识别的方法及设备,该专利技术根据数据库信息选择待识别的数据库表;对所述待识别的数据库表进行敏感数据识别,得到初始敏感数据类型;根据预先设置的误匹配的数据类型对所述初始敏感数据类型进行重新识别,得到目标敏感数据识别结果。从而避免了识别出非预期的敏感信息类型,提高敏感信息识别的准确度。又如公开号为cn110209892a的中国专利技术专利申请公开了一种敏感信息识别方法、装置、电子设备及存储介质,该方法从数据库的数据库表中获取待识别字段;若所述待识别字段中至少一信息包括汉字字符串,且若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配;若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;确定所述目标字符串与所述字符串的相似度;若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。

4、现有的个人信息标识技术缺陷如下:(1)基础识别算法待改进;(2)面对字段名不可信的情况,现有字段级的识别框架无法完善的识别到上述情况中少量的个人信息,也会导致个人信息泄露。


技术实现思路

1、本专利技术的专利技术目的是提供一种半结构化数据中个人标识信息识别方法与系统,能够高效的对其中包含的个人标记信息进行识别,帮助相关从业人员了解数据表中的个人信息情况。

2、为实现上述专利技术目的,本专利技术的技术方案如下:

3、一种半结构化数据中个人标识信息识别方法,包括数据表读取和识别结果汇总保存,还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别,具体流程如下,

4、将待识别的数据表进行数据预处理,对拆分完成后的字段逐个进行识别,

5、识别时,首先分析字段描述信息,判定是否符合预设模板识别的要求,若符合,则进行预设模板识别,若不符合,则采用最小覆盖识别模块进行识别。

6、半结构化信息中个人标识信息的存在形式多样,其中有些按信息种类独立保存在相应的字段中,这些字段的字段名描述准确,字段中内容单一(简称常规字段),例如在“姓名”字段中保存的单个个人姓名,亦或是在“联系方式”字段中保存的单个手机号,但也有部分个人信息以自由文本的形式保存在某些特殊的字段中(简称自由文本字段),例如在“事件详情”字段中实际内容为“2020年5月1日李某(电话123xxxxxxxx)与王某(电话456xxxxxxxx)发生争执...”其中不仅有多个人的姓名、还有手机号信息。对于这种自由文本字段的记录中包含几类个人信息的情况,现有的个人标识信息识别系统的基础识别算法并未对此作出适应。同时半结构化数据种类繁多,可能出现的数据类型是未知的,其中许多信息的数字特征极其相似,一个字段中的个人信息不仅与字段内容有关,也与字段描述有关,例如同样是代码“1”,当字段描述为“性别”时,该内容代表“男性”,当字段描述为“学历”时代表“本科”,然而当前的识别系统中的基础识别算法并没有能够妥善处理这类情况。此外,虽然有些个人标识信息识别系统也采用了深度学习的方法进行人名、地址识别,但由于半结构化信息缺乏上下文,这导致会将深度学习模型不能较好的发挥应有的识别准确率。

7、本专利技术在识别时首先会对待识别数据表按字段切分,在识别时以记录行为单位,能够应对混合的字段内容,有着更好的个人信息识别能力;采用靶向识别流程,对个人标识信息的探测、识别更加精确,该方法采用更加严密的识别框架,采用更细的识别粒度,对每个字段中的每条数据进行检测,即使个人标识信息混杂在非个人信息中,也能被系统识别到,确保个人标识信息不遗漏。另一方面,通过预设模板识别与最小覆盖识别,又能最大程度上减少系统运行的资源消耗,提高效率。

8、在上述的一种半结构化数据中个人标识信息识别方法中,所述预设模板识别通过预设模板的方式识别常规字段,所述最小覆盖识别处理预设模板无法处理的非常规字段。

9、在上述的一种半结构化数据中个人标识信息识别方法中,所述预设模板识别和最小覆盖识别还包括人名类、地址类信息识别,具体如下,

10、将字段名作为额外的信息补充添加到字段记录行的内容中进行预处理,再将信息输入深度学习模型进行个人信息识别。

11、由于在常规字段的表格型数据缺少上下文信息导致的深度学习模型识别率差的问题,本专利技术将字段名做为额外的信息补充添加到字段记录行的内容中,再将信息输入深度学习模型进行个人信息识别。

12、在上述的一种半结构化数据中个人标识信息识别方法中,所述最小覆盖识别还包括统一编码信息识别,具体如下,

13、对于有编码规则的个人信息,对用于匹配的正则表达式加入零宽断言机制,该零宽断言机制如下:

14、在正则表达式首部加入“(?<![\da-za-z]|(?:\d\.))”这个字符元组表示一旦匹配到的字符串前面匹配到了英文字母、数字、数字加小数点时,丢弃当前匹配到的字符串;

15、在正则表达式尾部加入“(?![\da-za-z\-])”,这个字符元组表示一旦匹配到的字符串后面匹配到了英文字母或数字点时,丢弃当前匹配到的字符串。

16、对于手机号、身份证号、银行卡号这些有编码规则的个人信息,对用于匹配的正则表达式进行改进,加入“零宽断言”机制,使得识别算法既能在常规字段中识别到这三类信息,也能在自由文本字段识别到个人信息。

17、在上述的一种半结构化数据中个人标识信息识别方法中,所述最小覆盖识别还包括类别型信息识别,具体如下,

18、对于特定个人信息类别预先设置识别数据库,将个人信息类别与字段名检索表达式、参照标准和内容正则表达式相对应,

19、识别时首先对字段名按预设的字段名检索表达式进行检索,对于匹配成功的字段,采用内容正则表达式进行匹配,对该字段中匹配到的内容,进行相应的个人信息标记。

20、本文档来自技高网...

【技术保护点】

1.一种半结构化数据中个人标识信息识别方法,包括数据表读取和识别结果汇总保存,其特征在于:还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别,具体流程如下,

2.如权利要求1所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述预设模板识别通过预设模板的方式识别常规字段,所述最小覆盖识别处理预设模板无法处理的非常规字段。

3.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述预设模板识别和最小覆盖识别包括人名类、地址类信息识别,具体如下,

4.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别还包括统一编码信息识别,具体如下,

5.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别还包括类别型信息识别,具体如下,

6.如权利要求1所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述预设模板识别包括将预设类别和关键词与结构化指标相对应的预设模板,该预设模板识别依次包括模板匹配和模板识别;

7.如权利要求1所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别包括如下步骤,具体如下,

8.如权利要求7所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别还包括纠错告警机制,即识别完成后,若检测到统一编码信息,采用纠错告警进行分析预警,具体如下,

9.一种半结构化数据中个人标识信息识别系统,其特征在于:包括数据表读取模块、靶向识别模块和识别结果汇总保存模块,还包括数据预处理模块,所述靶向识别模块依次包括预设模板识别模块和最小覆盖识别模块,该靶向识别模块通过权利要求1-8中任意一项所述的一种半结构化数据中个人标识信息识别方法进行个人信息识别。

10.如权利要求9所述的一种半结构化数据中个人标识信息识别系统,其特征在于:还包括统计模块,该统计模块对识别结果汇总保存模块保存的信息进行可视化展示,在统计过程中遍历识别结果并对识别结果进行去重,根据去重后的识别结果进行可视化展示。

...

【技术特征摘要】

1.一种半结构化数据中个人标识信息识别方法,包括数据表读取和识别结果汇总保存,其特征在于:还包括数据预处理和靶向识别,所述数据预处理即将待识别的数据表按字段拆分为包含字段名、字段数据类型的字段描述信息和字段实际记录信息的单个字段,所述靶向识别包括预设模板识别和最小覆盖识别,具体流程如下,

2.如权利要求1所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述预设模板识别通过预设模板的方式识别常规字段,所述最小覆盖识别处理预设模板无法处理的非常规字段。

3.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述预设模板识别和最小覆盖识别包括人名类、地址类信息识别,具体如下,

4.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别还包括统一编码信息识别,具体如下,

5.如权利要求2所述的一种半结构化数据中个人标识信息识别方法,其特征在于:所述最小覆盖识别还包括类别型信息识别,具体如下,

6.如权利要求1所述的一种半结构化数据中个人标识信息识别方法,其特征在于:...

【专利技术属性】
技术研发人员:廖佳纯姚思诚陈海粟
申请(专利权)人:南湖实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1