敏感数据识别的方法及装置、电子设备、存储介质制造方法及图纸

技术编号:32276134 阅读:397 留言:0更新日期:2022-02-12 19:41
本申请提供一种敏感数据识别的方法及装置、电子设备、存储介质,该方法包括:获取待处理文本;将待处理文本输入特征提取网络,获得特征提取网络输出的待处理文本中每个单元的空间特征;将待处理文本中每个单元的空间特征输入标签预测模型,获得标签预测模型输出的每个单元的标签信息;根据待处理文本中每个单元的标签信息,确定待处理文本的敏感词汇。该方案通过特征提取网络和标签预测模型获取文本的标签信息,有效识别敏感词汇。有效识别敏感词汇。有效识别敏感词汇。

【技术实现步骤摘要】
敏感数据识别的方法及装置、电子设备、存储介质


[0001]本申请涉及计算机
,特别涉及一种敏感数据识别的方法及装置、电子设备、计算机可读存储介质。

技术介绍

[0002]随着二十一世纪计算机技术的快速发展及大数据时代的到来,信息量的激增也带来了许多不可避免的问题,例如文本数据中存在着许多不合法的词句,包括辱骂语句或者涉政语句。如何识别出这些辱骂词句或者涉及政治的语句是当前亟待解决的问题。
[0003]传统的大数据安全对于文本中敏感数据的识别主要是依赖规则、相关算法以及关键字等,例如根据国家共享数据技术安全要求,文本中的敏感数据包括IP地址、MAC地址、IPv6地址、手机号、银行卡、地址以及姓名等,对像IP地址一类有规则的数据使用正则表达式进行检测,而对银行卡号或者身份证一类可以使用算法检测出相关敏感数据。
[0004]但是像地址和姓名这样具有歧义性的词句采用传统的算法进行检测则效果不佳,比如姓名检测,通常是将所有的姓写在Json文件中,然后匹配第一个字或者前两个字包含在姓的文件中,如果包含在内,就说明该词是姓名。而这样的检测结果是不准确的,主要包括以下两个缺点:1.中国民族之多,姓分布广泛,尤其是少数民族的姓更是多变,所以Json文件中不可能包含所有的姓;2.这样检测到的姓名未消除歧义性。

技术实现思路

[0005]本申请实施例提供了敏感数据识别的方法,用以解决传统算法无法准确识别敏感数据的问题。
[0006]本申请实施例提供了一种敏感数据识别的方法,包括:
[0007]获取待处理文本;
[0008]将所述处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征;
[0009]将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息;
[0010]根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇。
[0011]在一实施例中,在所述根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇之后,所述方法还包括:
[0012]利用指定字符对所述待处理文本中的敏感词汇进行替换,获得脱敏数据。
[0013]在一实施例中,所述将待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征,包括:
[0014]对所述待处理文本进行分词操作,获得多个单元;
[0015]将所述待处理文本的每个单元输入特征提取网络,获得所述特征提取网络输出的每个单元对应的空间特征。
[0016]在一实施例中,所述特征提取网络是通过对Inception

v4网络进行改进,去除所述Inception

v4网络的softmax层,并加上全卷积层得到的。
[0017]在一实施例中,所述将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息,包括:
[0018]将每个单元的空间特征输入已训练完成的Bi

GRU模型,获得所述Bi

GRU模型输出的每个单元的预测标签;
[0019]将所述Bi

GRU模型输出的每个单元的预测标签作为已训练完成的CRF模型的输入,获得所述CRF模型输出的每个单元的标签信息。
[0020]在一实施例中,在所述获取待处理文本之前,所述方法还包括:
[0021]获取训练文本集合;
[0022]采用分词工具对所述训练文本集合中的每个训练文本进行分词处理;
[0023]获取对每个训练文本中敏感词汇的标注信息以及其他词汇的标注信息;
[0024]根据每个训练文本中敏感词汇的标注信息以及其他词汇的标注信息,训练得到所述特征提取网络和标签预测模型。
[0025]在一实施例中,所述根据每个训练文本中敏感词汇的标注信息以及其他词汇的标注信息,训练得到所述特征提取网络和标签预测模型,包括:
[0026]将每个训练文本作为改进后的Inception

v4网络的输入,将改进的Inception

v4网络的输出作为Bi

GRU模型的输入,将Bi

GRU模型的输出作为CRF模型的输入,调整Inception

v4网络、Bi

GRU模型以及CRF模型的参数,使CRF模型的输出与所述训练文本中每个词汇的标注信息之间的误差小于阈值,得到由改进后的Inception

v4网络训练得到的特征提取网络,由Bi

GRU模型和CRF模型训练得到的标签预测模型。
[0027]本申请实施例还提供了一种敏感数据识别的装置,包括:
[0028]文本获取模块,用于获取待处理文本;
[0029]特征提取模块,用于将所述待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征;
[0030]标签信息模块,用于将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息;
[0031]敏感词汇模块,用于根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇。
[0032]本申请实施例还提供了一种电子设备,所述电子设备包括:
[0033]处理器;
[0034]用于存储处理器可执行指令的存储器;
[0035]其中,所述处理器被配置为执行上述任意一种敏感数据识别的方法。
[0036]本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行上述任意一种敏感数据识别的方法。
[0037]本申请上述实施例提供的技术方案,通过特征提取网络提取待处理文本每个单元的空间特征,再将空间特征输入标签预测模型获得待处理文本每个单元的标签信息,根据标签信息确定处理文本的敏感词汇,从而实现敏感数据的准确识别。
附图说明
[0038]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
[0039]图1为本申请一实施例提供的电子设备的结构示意图;
[0040]图2为本申请一实施例提供的一种敏感数据识别的方法的流程示意图;
[0041]图3为本申请一实施例提供的改进的Inception

v4网络的结构示意图;
[0042]图4为本申请一实施例提供的改进的Bi

GRU模型的结构示意图;
[0043]图5为本申请一实施例提供的GRU单元的结构示意图;
[0044]图6为本申请一实施例提供的训练特征提取网络和标签预测模型的流程示意图;
[0045]图7为本申请一实施例提供的一种敏感数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感数据识别的方法,其特征在于,包括:获取待处理文本;将所述待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征;将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息;根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇。2.根据权利要求1所述的方法,其特征在于,在所述根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇之后,所述方法还包括:利用指定字符对所述待处理文本中的敏感词汇进行替换,获得脱敏数据。3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征,包括:对所述待处理文本进行分词操作,得到多个单元;将所述待处理文本的每个单元输入特征提取网络,获得所述特征提取网络输出的每个单元对应的空间特征。4.根据权利要求3所述的方法,其特征在于,所述特征提取网络是通过对Inception

v4网络进行改进,去除所述Inception

v4网络的softmax层,并加上全卷积层得到的。5.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息,包括:将每个单元的空间特征输入已训练完成的Bi

GRU模型,获得所述Bi

GRU模型输出的每个单元的预测标签;将所述Bi

GRU模型输出的每个单元的预测标签作为已训练完成的CRF模型的输入,获得所述CRF模型输出的每个单元的标签信息。6.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本之前,所述方法还包括:获取训练文本集合;采用分词工具对所述训练文本集合中的每个训练文本进行分词处理;获取对每个训练文本中敏感词汇的标注信息以及其他词汇的标...

【专利技术属性】
技术研发人员:张黎石桂红余海波陈广辉刘维炜
申请(专利权)人:闪捷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1