一种网络个人信息识别提取及保护方法技术

技术编号:38219780 阅读:6 留言:0更新日期:2023-07-25 17:51
本发明专利技术涉及一种网络个人信息识别提取及保护方法一种网络个人信息识别提取及保护方法,属于信息处理技术领域。方法包括:构建个人信息检索规则,并将待检索的数据转化为文本;根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息;输出识别的个人信息。本方法能够自动解析、识别应用系统数据流中夹杂的个人信息,实现应用系统个人信息去标识化处理,为个人隐私保护创造有利条件。件。件。

【技术实现步骤摘要】
一种网络个人信息识别提取及保护方法


[0001]本专利技术属于信息处理
,尤其涉及一种网络个人信息识别提取及保护方法。

技术介绍

[0002]随着“数字经济”的快速发展,信息技术与经济社会持续深度融合,网络已成为生产生活的新空间、经济发展的新引擎、交流合作的新纽带。中国互联网络信息中心(CNNIC)发布的《中国互联网络发展状况统计报告》显示,截至2021年12月,我国网民规模达10.32亿,互联网普及率达73.0%。然而,据监管部门的通报显示,移动互联网应用程序违法违规收集、使用个人信息的现象依然广泛存在。
[0003]当前,我国个人信息保护力度不断加大,已经形成一套相对完善的个人信息保护法律体系。2021年11月1日,《中华人民共和国个人信息保护法》的正式实施,为个人信息处理活动提供了明确的法律依据,为个人维护其自身信息权益提供了充分保障。2020年,国家标准化管理委员会发布和实施《信息安全技术个人信息安全规范》(GB/T 35273

2020),明确了个人信息的定义、范围和属性,为个人信息的识别和提取,提供了准则和依据。通过精准的个人信息识别技术,可以有效地对业务数据中个人信息进行去标识化处理,从而有效地保护公民个人信息。
[0004]当前技术是通过人工预先对数据库中的数据进行字段进行标识、或对业务系统中数据字段以及对应的变量名称进行标识,以此来识别哪些属于个人信息。
[0005]数据库表结构的设计、应用系统Api接口数据交互(JSON\XML等格式)通常都由应用程序设计相应的字段名、变量名来标识数据的属性。例如:ID:代表身份证号,Mobile:代表手机号、ADDRESS:代表家庭地址。
[0006]当前采用人工预先对个人信息数据定义进行标记的方式,虽然能够准确标记个人信息,但对于批量数据中或混杂在数据中的个人信息,无法有效地进行识别。
[0007]业务系统数据经过协议解析,将输出大量的文本信息,这些文本信息中,可能会掺杂着部分个人信息甚至个人敏感信息(参见GB/T35273

2020信息安全技术个人信息安全规范),如:手机号、身份证号、家住址等。在数据库系统里(以结构化为例),可以通过表结构定义,来标记数据的属性:如:姓名、电话、身份证号、家庭地址等。但是在网络应用中,许多个人信息并非独立地或者以特定的变量值进行传输,而是广泛地混杂于应用系统之中,如:网络社区、论坛、网络博客或电子邮件文本里等,都有可能大量存在敏感个人信息。这些信息的组织,并不像结构化数据库那样有着固定的规律性,而是以极不规则的形态存在于网络数据之中。如何从大量的网络(应用)文本数据中准确地筛选、识别出个人信息和敏感信息,将是数据安全和个人信息安全研究的重要内容。

技术实现思路

[0008]本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种网络个人信息识别
提取及保护方法及系统,能够自动解析、识别应用系统数据流中夹杂的个人信息,实现应用系统个人信息去标识化处理,为个人隐私保护创造有利条件。
[0009]根据本专利技术的一个方面,本专利技术提供了一种网络个人信息识别提取及保护方法,所述方法包括以下步骤:
[0010]S1:构建个人信息检索规则,并将待检索的数据转化为文本;
[0011]S2:根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息;
[0012]S3:输出识别的个人信息。
[0013]优选地,所述构建个人信息检索规则包括:
[0014]定义识别规则和分析函数,所述识别规则与个人信息的类型相匹配,所述分析函数用于对输入的文本进行分析。
[0015]优选地,所述根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息包括:
[0016]根据所述识别规则对所述文本进行处理,将处理后的文本加载入所述分析函数,输出识别出的个人信息字符清单。
[0017]优选地,所述输出识别的个人信息,包括:
[0018]对所述个人信息字符清单进行信息校验,判断所述个人信息字符清单是否为个人信息,若是,则输出所述个人信息。
[0019]优选地,所述个人信息包括电话号码、身份证号码、家庭住址。
[0020]根据本专利技术的另一个方面,本专利技术还提供了一种个人信息自动识别系统,所述系统包括:
[0021]处理模块,用于构建个人信息检索规则,并将待检索的数据转化为文本;
[0022]识别模块,用于根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息;
[0023]输出模块,用于输出识别的个人信息。
[0024]优选地,所述处理模块构建个人信息检索规则包括:
[0025]定义识别规则和分析函数,所述识别规则与个人信息的类型相匹配,所述分析函数用于对输入的文本进行分析。
[0026]优选地,所述识别模块根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息包括:
[0027]根据所述识别规则对所述文本进行处理,将处理后的文本加载入所述分析函数,输出识别出的个人信息字符清单。
[0028]优选地,所述输出模块输出识别的个人信息,包括:
[0029]对所述个人信息字符清单进行信息校验,判断所述个人信息字符清单是否为个人信息,若是,则输出所述个人信息。
[0030]优选地,所述个人信息包括电话号码、身份证号码、家庭住址。
[0031]有益效果:本专利技术通过构建识别规则,编写相应的数据计算过程,可用于解析、自动识别应用系统数据流中夹杂的个人信息,为应用系统个人信息去标识化处理和个人隐私保护创造有利条件。
[0032]通过参照以下附图及对本专利技术的具体实施方式的详细描述,本专利技术的特征及优点将会变得清楚。
附图说明
[0033]图1是个人信息自动识别方法流程图;
[0034]图2是个人信息自动识别系统示意图。
具体实施方式
[0035]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]实施例1
[0037]图1是个人信息自动识别方法流程图。如图1所示,本实施例提供了一种网络个人信息识别提取及保护方法,所述方法包括以下步骤:
[0038]S1:构建个人信息检索规则,并将待检索的数据转化为文本。
[0039]优选地,所述个人信息包括电话号码、身份证号码、家庭住址。
[0040]优选地,所述构建个人信息检索规则包括:
[0041]定义识别规则和分析函数,所述识别规则与个人信息的类型相匹配,所述分析函数用于对输入的文本进行分析。
[0042]S2:根据所述个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络个人信息识别提取及保护方法,其特征在于,所述方法包括以下步骤:S1:构建个人信息检索规则,并将待检索的数据转化为文本;S2:根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息;S3:输出识别的个人信息。2.根据权利要求1所述的方法,其特征在于,所述构建个人信息检索规则包括:定义识别规则和分析函数,所述识别规则与个人信息的类型相匹配,所述分析函数用于对输入的文本进行分析。3.根据权利要求2所述的方法,其特征在于,所述根据所述个人信息检索规则对所述文本进行检索,识别所述文本中包含的个人信息包括:根据所述识别规则对所述文本进行处理,将处理后的文本加载入所述分析函数,输出识别出的个人信息字符清单。4.根据权利要求3所述的方法,其特征在于,所述输出识别的个人信息,包括:对所述个人信息字符清单进行信息校验,判断所述个人信息字符清单是否为个人信息,若是,则输出所述个人信息。5.根据权利要求4所述的方法,其特征在于,所述个人信息包括电话号码、身份证号码、家庭住址。6.一种个人信息自动识...

【专利技术属性】
技术研发人员:贾建刚费汉明张伟辉孟涛张轩程月龙
申请(专利权)人:中国铁道科学研究院集团有限公司国铁吉讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1