一种数据脱敏的处理方法及装置制造方法及图纸

技术编号:19389052 阅读:51 留言:0更新日期:2018-11-10 02:05
本申请提供了一种数据脱敏的处理方法及装置,确定目标数据的类型;根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。通过对目标数据进行分词得到具有一定结构的数据,对存在主要敏感信息的部分进行脱敏处理,对敏感信息的全部或大部分进行掩码,提高了数据脱敏的有效性,保障数据资产安全,最大程度保护客户信息的安全,避免非正常查询、导出等方式造成的客户信息泄露。

Method and device for processing data desensitization

This application provides a data desensitization processing method and device to determine the type of target data; calls the corresponding subword Library in the base word library of segmentation according to the type of target data, and uses the word segmentation method corresponding to the type of target data to segment words; and according to the type and the item of the target data. The length of the labeled data, the desensitization method of the target data, and the desensitization method of the target data are used to desensitize the sensitive data obtained from the segmentation of the target data. Through word segmentation of target data, we can get structured data, desensitize the part with main sensitive information, and mask all or most of sensitive information, which improves the effectiveness of data desensitization, guarantees the security of data assets, protects the security of customer information to the greatest extent and avoids abnormalities. Customer information leakage caused by query and export.

【技术实现步骤摘要】
一种数据脱敏的处理方法及装置
本专利技术涉及数据处理
,更具体的,涉及一种数据脱敏的处理方法及装置。
技术介绍
为落实国家《网络安全法》关于保护客户敏感信息的工作要求,保障电力营销客户数据资产安全,保障电力营销客户合法权益,需要对电力营销客户敏感信息进行数据脱敏,目的是在满足正常业务需要的同时,最大程度保护电力客户信息的安全,避免非正常查询、导出等方式造成的电力客户信息泄露。目前电力营销数据脱敏主要规则主要采用掩码脱敏方法,保留部分信息,保证信息的长度不变,主要规则如下:(1)联系人地址格式:格式不固定,为不定长的字符串。脱敏规则:按长度分阶梯保留,长度5个字及以下的,保留第1个字和最后2个字;长度6-9个字的,保留最后5个字;长度为10个字及以上的,隐去最后5个字之前的4个字;隐藏字用*代替。(2)企业类户名格式:企业类户名与营业执照一致,为公司名称,由若干个汉字组成。脱敏规则:按长度分阶梯保留:长度4个字及以下的,首尾各保留1个字;长度5-6个字的,首尾各保留2个字;长度7个字及以上奇数,隐去中间3个字;长度8个字及以上偶数,隐去中间4个字;隐藏字用*代替。现有电力营销数据本文档来自技高网...

【技术保护点】
1.一种数据脱敏的处理方法,其特征在于,包括:确定目标数据的类型;根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。

【技术特征摘要】
1.一种数据脱敏的处理方法,其特征在于,包括:确定目标数据的类型;根据所述目标数据的类型调用分词基准词库中的相应子词库,并采用与所述目标数据的类型相对应的分词方法进行分词;根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:构建分词基准词库,所述分词基准词库中包括多个子词库,每个子词库分别包括一种类型的敏感词。3.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:调用通用地址子词库、地名子词库、小区名称子词库和行政区划分集合子词库,采用最大正向匹配中文分词对所述目标数据进行分词。4.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型调用分词基准词库中的相应子词库,采用与所述目标数据的类型相对应的分词方法进行分词,包括:调用区域集合子词库、行业集合子词库和公司组织集合子词库,采用双向最大匹配中文分词方法进行分词。5.根据权利要求1所述的方法,其特征在于,在所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法之前,所述方法还包括:计算所述目标数据的分词结果的正确率;判断所述目标数据的分词结果的正确率是否大于第一预设值;若是,执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法;若否,基于隐马尔柯夫模型对所述目标数据进行分词,并执行所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法。6.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为用电地址时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:判断所述目标数据的长度是否大于第二预设值;当所述目标数据的长度大于所述第二预设值时,确定所述目标数据的脱敏方法为第一用电地址数据脱敏方法;采用所述第一用户地址数据脱敏方法,从所述目标数据的分词结果中提取门牌号数据的最后5位数据和省市区县数据,得到剩余部分数据;保留所述门牌号数据的后5位数据和所述省市区县数据,对所述目标数据的剩余部分数据进行掩码,得到所述目标数据脱敏后的数据;当所述目标数据的长度不大于所述第二预设值时,确定所述目标数据的脱敏方法为第二用电地址数据脱敏方法;采用所述第二用户地址数据脱敏方法,根据所述目标数据的长度按第一分阶梯保留规则提取所述目标数据的保留部分,并对所述目标数据的剩余部分进行掩码,得到所述目标数据脱敏后的数据。7.根据权利要求1所述的方法,其特征在于,当所述目标数据的类型为企业类户名时,所述根据所述目标数据的类型和所述目标数据的长度,确定所述目标数据的脱敏方法,并采用所述目标数据的脱敏方法对所述目标数据分词后得到的敏感数据进行脱敏处理,包括:判断所述目标数据的长度是否大于第三预设值;当所述目标数据的长度大于所述第三预设值时,确定所述目标数据的脱敏方法为第一企业类户名数据脱敏方法;采用所述第一企业类户名数据脱敏方法,从所述目标数据的分词结果中提取字号数据的第一个字和行业数据的最后一个字,得到所述字号数据的剩余数据和所述行业数据的剩余数据;对所述字号数据的剩余数据和所述行业数据的剩余数据进行掩码,保留所述目标数据的其他数据,得到所述目标数据脱敏后的数据;当所述目标数据的长度不大于所述第三预设值时,确定所述目标数据的脱敏方法为第二企业类户名数据脱敏方法;采用所述第二企业类户名数据脱敏方法,根据所述目标数据的长度按第...

【专利技术属性】
技术研发人员:林鸿欧阳红袁葆江再玉赵加奎熊根鑫王宇坤于喻宋振世王奕郑倩
申请(专利权)人:北京中电普华信息技术有限公司国网信息通信产业集团有限公司国家电网有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1