一种数据脱敏系统技术方案

技术编号:39838621 阅读:6 留言:0更新日期:2023-12-29 16:24
本发明专利技术属于数据处理领域,公开了一种数据脱敏系统,包括获取模块和分词模块;获取模块用于获取待进行脱敏处理的文本,待进行脱敏处理的文本包括数值文本和非数值文本;分词模块包括字典分词单元和统计分词单元;字典分词单元用于采用改进的基于字典的分词算法对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本;统计分词单元用于采用基于统计的分词算法对未完成分词的文本中进行分词处理,将获得的词语保存到第二分词集合

【技术实现步骤摘要】
一种数据脱敏系统


[0001]本专利技术涉及数据处理领域,尤其涉及一种数据脱敏系统


技术介绍

[0002]数据脱敏是指通过脱敏规则对敏感信息进行变形,以实现对敏感和私有数据的可靠保护

这允许在开发

测试和其他非生产和外包环境中安全使用脱敏的真实数据集

在涉及客户安全数据或某些商业敏感数据的情况下,应在不违反系统规则的情况下对真实数据进行转换并提供测试使用

[0003]数据脱敏一般包括敏感数据识别和对识别出的敏感数据进行脱敏处理这两个步骤

在对待进行敏感数据识别的文本进行敏感数据识别的过程中,现有技术一般都是采用关键字识别和正则表达式识别的方式来识别出敏感数据

而关键字识别时一般需要先进行分词处理,现有技术中,一般都是采用单一的分词处理算法来对待进行识别的文本进行分词处理

如果直接采用基于字典的分词算法,那么很可能会因为待进行敏感数据识别的文本中存在字典中没有设置过的词语而导致未能进行分词,使得分词之后依然存在较多的未能进行分词的文本,即分词的成功率比较低

这里的成功率通过已进行分词的文字的数量和整个待进行敏感数据识别的文本中的文字的总数之间的比值计算得到

而如果直接采用基于统计的分词算法,则会导致分词时间过长,因为基于统计的分词算法的时间复杂度远高于基于字典的分词算法


技术实现思路

[0004]本专利技术的目的在于公开一种数据脱敏系统,解决如何在数据脱敏过程中,对文本进行分词时兼顾分词的效率和分词的成功率,在保证成功率的前提下,降低分词所需要的时间的问题

[0005]为了达到上述目的,本专利技术提供如下技术方案:一种数据脱敏系统,包括获取模块和分词模块;获取模块用于获取待进行脱敏处理的文本,待进行脱敏处理的文本包括数值文本和非数值文本;分词模块包括字典分词单元和统计分词单元;字典分词单元用于采用改进的基于字典的分词算法对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本;统计分词单元用于采用基于统计的分词算法对未完成分词的文本中进行分词处理,将获得的词语保存到第二分词集合

[0006]优选地,还包括脱敏规则保存模块,脱敏规则保存模块用于保存预设的多种类型的词语的脱敏处理规则

[0007]优选地,词语的类型包括地址类词语

账号类词语

联系方式类词语和名称类词语

[0008]优选地,地址类的词语或名称类的词语的脱敏处理规则为:采用随机生成的汉字对地址类的词语或名称类的词语进行替换;账号类词语或联系方式类词语的脱敏处理规则为:采用随机数对账号类词语或联系方式类词语所对应的数字串进行替换

[0009]优选地,数字串的获取方式为:将处于账号类词语的正上方

正下方

左侧

右侧的数值文本作为数字串

[0010]优选地,还包括脱敏模块,脱敏模块用于基于脱敏处理规则

第一分词集合

第二分词集合对待进行脱敏处理的文本进行脱敏处理,获得脱敏处理后的文本

[0011]优选地,采用改进的基于字典的分词算法对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本,包括:
S1
,获取用于进行词语匹配的词典;
S2
,计算非数值文本的自适应句子长度;
S3
,基于自适应句子长度对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本

[0012]优选地,计算非数值文本的自适应句子长度,包括:
S21
,获取非数值文本的行数;
S22
,计算随机数的最大值:;表示需要生成的随机数的数量;
S23
,生成个取值范围在的随机数,将得到的随机数保存到集合;
S24
,基于中的随机数,从非数值文本中选出行文本保存到集合;
S25
,使用隐马尔科夫模型的分词算法对中的每行文本进行分词处理,将获得的词语保存到集合;
S26
,获取中的各种长度的词语的数量,将数量最大的长度作为非数值文本的自适应句子长度

[0013]优选地,基于自适应句子长度对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本,包括:
S31
,获取非数值文本中的前个文字,组成待进行分词的句子;;表示字典中的词语的最大长度;;
mod
表示取余运算;
S32
,使用正向最大匹配算法或逆向最大匹配算法对待进行分词的句子进行分词处理,将待进行分词的句子中存在的且属于字典中的词语保存到第一分词集合;
S33
,将待进行分词的句子中不属于字典中的词语表示为;
S34
,将之前的个文字以及之后的个文字作为未完成分词的文本中的文字,表示中包含的文字的数量;
S35
,将第一分词集合中的词语和未完成分词的文本中的文字从非数值文本中删除;
S36
,判断非数值文本中是否依然存在文字,若是,则进入
S31
,若否,则输出第一分词集合

[0014]优选地,还包括数据库模块,数据库模块用于存储待进行脱敏处理的文本

[0015]与现有技术中采用单一的分词处理算法相比,本专利技术综合采用了两种不同的分词处理算法来对待进行脱敏处理的文本进行分词处理,先采用经过改进的基于字典的分词算法对待进行脱敏处理的文本进行分词处理,得到第一分词集合和未完成分词的文本,然后再使用基于统计的分词算法对未完成分词的文本进行分词处理,得到第二分词集合

由于基于字典的分词算法的时间复杂度比较小,因此,基于字典的分词算法能够先获得大部分分词结果,能够保证分词的效率,而对于字典中不存在的词语,本专利技术通过时间复杂度较高但是不需要通过字典进行分词的算法来进行分词处理,从而保证了分词的成功率

附图说明
[0016]从下文给出的详细描述和附图中将更充分地理解本公开,附图仅以说明的方式给出,因此不限制本公开,并且其中:图1为本专利技术一种数据脱敏系统的一种示意图;图2为本专利技术改进的基于字典的分词算法对非数值文本进行分词处理的一种示意图

具体实施方式
[0017]为了能够更清楚地理解本专利技术的上述目的

特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述

需要说明的是,在不冲突的情况下,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据脱敏系统,其特征在于,包括获取模块和分词模块;获取模块用于获取待进行脱敏处理的文本,待进行脱敏处理的文本包括数值文本和非数值文本;分词模块包括字典分词单元和统计分词单元;字典分词单元用于采用改进的基于字典的分词算法对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本;统计分词单元用于采用基于统计的分词算法对未完成分词的文本中进行分词处理,将获得的词语保存到第二分词集合
。2.
根据权利要求1所述的一种数据脱敏系统,其特征在于,还包括脱敏规则保存模块,脱敏规则保存模块用于保存预设的多种类型的词语的脱敏处理规则
。3.
根据权利要求2所述的一种数据脱敏系统,其特征在于,词语的类型包括地址类词语

账号类词语

联系方式类词语和名称类词语
。4.
根据权利要求3所述的一种数据脱敏系统,其特征在于,地址类的词语或名称类的词语的脱敏处理规则为:采用随机生成的汉字对地址类的词语或名称类的词语进行替换;账号类词语或联系方式类词语的脱敏处理规则为:采用随机数对账号类词语或联系方式类词语所对应的数字串进行替换
。5.
根据权利要求4所述的一种数据脱敏系统,其特征在于,数字串的获取方式为:将处于账号类词语的正上方

正下方

左侧

右侧的数值文本作为数字串
。6.
根据权利要求5所述的一种数据脱敏系统,其特征在于,还包括脱敏模块,脱敏模块用于基于脱敏处理规则

第一分词集合

第二分词集合对待进行脱敏处理的文本进行脱敏处理,获得脱敏处理后的文本
。7.
根据权利要求1所述的一种数据脱敏系统,其特征在于,采用改进的基于字典的分词算法对非数值文本进行分词处理,将获得的词语保存到第一分词集合,并基于第一分词集合获得未完成分词的文本,包括:
S1
,获取用于进行词语匹配的词典;
S2
,计算非数值文本的自适应句子长度;

【专利技术属性】
技术研发人员:卢国栋李静宋丙华罗倩倩王峰
申请(专利权)人:山东网安安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1