一种数据脱敏系统技术方案

技术编号：39838621 阅读：6 留言：0更新日期：2023-12-29 16:24

本发明专利技术属于数据处理领域，公开了一种数据脱敏系统，包括获取模块和分词模块；获取模块用于获取待进行脱敏处理的文本，待进行脱敏处理的文本包括数值文本和非数值文本；分词模块包括字典分词单元和统计分词单元；字典分词单元用于采用改进的基于字典的分词算法对非数值文本进行分词处理，将获得的词语保存到第一分词集合，并基于第一分词集合获得未完成分词的文本；统计分词单元用于采用基于统计的分词算法对未完成分词的文本中进行分词处理，将获得的词语保存到第二分词集合

全部详细技术资料下载

【技术实现步骤摘要】
一种数据脱敏系统

[0001]本专利技术涉及数据处理领域，尤其涉及一种数据脱敏系统
。

技术介绍

[0002]数据脱敏是指通过脱敏规则对敏感信息进行变形，以实现对敏感和私有数据的可靠保护
。
这允许在开发
、
测试和其他非生产和外包环境中安全使用脱敏的真实数据集
。
在涉及客户安全数据或某些商业敏感数据的情况下，应在不违反系统规则的情况下对真实数据进行转换并提供测试使用
。
[0003]数据脱敏一般包括敏感数据识别和对识别出的敏感数据进行脱敏处理这两个步骤
。
在对待进行敏感数据识别的文本进行敏感数据识别的过程中，现有技术一般都是采用关键字识别和正则表达式识别的方式来识别出敏感数据
。
而关键字识别时一般需要先进行分词处理，现有技术中，一般都是采用单一的分词处理算法来对待进行识别的文本进行分词处理
。
如果直接采用基于字典的分词算法，那么很可能会因为待进行敏感数据识别的文本中存在字典中没有设置过的词语而导致未能进行分词，使得分词之后依然存在较多的未能进行分词的文本，即分词的成功率比较低
。
这里的成功率通过已进行分词的文字的数量和整个待进行敏感数据识别的文本中的文字的总数之间的比值计算得到
。
而如果直接采用基于统计的分词算法，则会导致分词时间过长，因为基于统计的分词算法的时间复杂度远高于基于字典的分词算法
。

技术实现思路

[0004]本专利...

【技术保护点】

【技术特征摘要】
1.
一种数据脱敏系统，其特征在于，包括获取模块和分词模块；获取模块用于获取待进行脱敏处理的文本，待进行脱敏处理的文本包括数值文本和非数值文本；分词模块包括字典分词单元和统计分词单元；字典分词单元用于采用改进的基于字典的分词算法对非数值文本进行分词处理，将获得的词语保存到第一分词集合，并基于第一分词集合获得未完成分词的文本；统计分词单元用于采用基于统计的分词算法对未完成分词的文本中进行分词处理，将获得的词语保存到第二分词集合
。2.
根据权利要求1所述的一种数据脱敏系统，其特征在于，还包括脱敏规则保存模块，脱敏规则保存模块用于保存预设的多种类型的词语的脱敏处理规则
。3.
根据权利要求2所述的一种数据脱敏系统，其特征在于，词语的类型包括地址类词语
、
账号类词语
、
联系方式类词语和名称类词语
。4.
根据权利要求3所述的一种数据脱敏系统，其特征在于，地址类的词语或名称类的词语的脱敏处理规则为：采用随机生成的汉字对地址类的词语或名称类的词语进行替换；账号类词语或联系方式类词语的脱敏处理规则为：采用随机数对账号类词语或联系方式类词语所对应的数字串进行替换
。5.
根据权利要求4所述的一种数据脱敏系统，其特征在于，数字串的获取方式为：将处于账号类词语的正上方
、
正下方
、
左侧
、
右侧的数值文本作为数字串
。6.
根据权利要求5所述的一种数据脱敏系统，其特征在于，还包括脱敏模块，脱敏模块用于基于脱敏处理规则
、
第一分词集合
、
第二分词集合对待进行脱敏处理的文本进行脱敏处理，获得脱敏处理后的文本
。7.
根据权利要求1所述的一种数据脱敏系统，其特征在于，采用改进的基于字典的分词算法对非数值文本进行分词处理，将获得的词语保存到第一分词集合，并基于第一分词集合获得未完成分词的文本，包括：
S1
，获取用于进行词语匹配的词典；
S2
，计算非数值文本的自适应句子长度；

【专利技术属性】
技术研发人员：卢国栋，李静，宋丙华，罗倩倩，王峰，
申请(专利权)人：山东网安安全技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人