敏感信息识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22055439 阅读:48 留言:0更新日期:2019-09-07 15:19
本发明专利技术涉及人工智能技术领域,本发明专利技术提供一种敏感信息识别方法,所述方法包括:从数据库的数据库表中获取待识别字段;若所述待识别字段中至少一信息包括汉字字符串,且若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配;若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;确定所述目标字符串与所述字符串的相似度;若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。本发明专利技术还提供一种装置、电子设备及存储介质,可自动识别敏感字段。

Sensitive Information Recognition Method, Device, Electronic Equipment and Storage Media

【技术实现步骤摘要】
敏感信息识别方法、装置、电子设备及存储介质
本专利技术涉及数据处理
,具体涉及一种敏感信息识别方法、装置、电子设备及存储介质。
技术介绍
随着大数据应用的广泛,越来越多的企业采用线上处理敏感的文件。在享受线上处理敏感的文件给人们带来方便快捷的同时,个人信息也受到了严峻的考验,例如个人信息被侦听、截获及非法拷贝,而由此导致的个人被骚扰、个人财产的安全性受到了关注。因此个人信息中的敏感信息的识别就显得尤为重要,在识别敏感信息后可通过脱敏或加密等方式对敏感信息进行保护。目前敏感信息的识别都只能针对某一类型的敏感信息进行识别,例如对电话号码的识别等,而对于包含多个信息的字段,例如某一类型的敏感信息及非敏感信息或者复合类型的敏感信息,则无法识别。
技术实现思路
鉴于此,有必要提供一种敏感信息识别方法、装置、电子设备及存储介质,可自动识别敏感字段。本申请的第一方面提供一种敏感信息识别方法,所述方法包括:从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足本文档来自技高网...

【技术保护点】
1.一种敏感信息识别方法,其特征在于,所述方法包括:从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;确定所述目标字符串与所述字...

【技术特征摘要】
1.一种敏感信息识别方法,其特征在于,所述方法包括:从数据库的数据库表中获取待识别字段,所述待识别字段包括至少一信息,所述信息包括数字字符串、符号字符串、及/或汉字字符串;若所述待识别字段中至少一信息包括汉字字符串,确定所述汉字字符串是否包括满足第一预设规律的字符串;若所述汉字字符串包括满足第一预设规律的字符串,确定所述字符串是否与预设的语料库中的至少一字符串模板匹配,所述预设的语料库中包括地址字符串模板及姓名字符串模板;若所述字符串与预设的语料库中的任意一字符串模板不匹配,确定所述字符串对应的哈希值;确定预设的语料库中哈希值与所述字符串对应的哈希值匹配的目标字符串;确定所述目标字符串与所述字符串的相似度;若所述目标字符串与所述字符串的相似度超过预设值,确定所述待识别字段包括敏感字段。2.如权利要求1所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串与所述字符串的相似度包括:确定所述目标字符串与所述字符串的音形码相似度。3.如权利要求2所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串与所述字符串的音形码相似度包括:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度;确定所述目标字符串中所有的汉字的音形码相似度的平均值为所述目标字符串与所述字符串的相似度。4.如权利要求3所述的敏感信息识别方法,其特征在于,所述确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度包括:确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音码相似度;确定所述目标字符串中每个汉字与所述字符串中对应的汉字的形码相似度;根据所述音码相似度及所述形码相似度确定所述目标字符串中每个汉字与所述字符串中对应的汉字的音形码相似度。5.如权利要求1所述的敏感信息识别方法,其特征在于:所述数据库表包括至少一列,每列包括相同类型的至少一行待识别字段;所述从数据库的数据库表中获取待识别字段包括:从数据库的数据库表的某列中获取至少一待识别字段;所述确定所述待识别字段包括敏感字段包括:若所述待识别字段中包括地址及/或姓名字段的数量与所述待识别字段的数量的比值大于预设的数量时,确定所述待识别字段为敏感字段。6.如权利要求1所述的敏感信息识别方法,其特征在于,所述确定所述字符串对应的哈希值包括:根据预设的汉字-音形码关系表确定所述字符串的每一位字符的音形码的第一位和第五位;确定所述字符串的哈希值为所述字符串中各字符的音形码的第一位和第五位形成的组合字符的依序组合;所述方法还包括:获取中国各地的地址字符串;获取中国各姓名字符串;确定所述地址字符串及所述姓名字符串中所出现的目标汉字;确定容易与所述目...

【专利技术属性】
技术研发人员:程庚张帆杨亮吉
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1