【技术实现步骤摘要】
敏感数据识别的方法及装置、电子设备、存储介质
[0001]本申请涉及计算机
,特别涉及一种敏感数据识别的方法及装置、电子设备、计算机可读存储介质。
技术介绍
[0002]随着二十一世纪计算机技术的快速发展及大数据时代的到来,信息量的激增也带来了许多不可避免的问题,例如文本数据中存在着许多不合法的词句,包括辱骂语句或者涉政语句。如何识别出这些辱骂词句或者涉及政治的语句是当前亟待解决的问题。
[0003]传统的大数据安全对于文本中敏感数据的识别主要是依赖规则、相关算法以及关键字等,例如根据国家共享数据技术安全要求,文本中的敏感数据包括IP地址、MAC地址、IPv6地址、手机号、银行卡、地址以及姓名等,对像IP地址一类有规则的数据使用正则表达式进行检测,而对银行卡号或者身份证一类可以使用算法检测出相关敏感数据。
[0004]但是像地址和姓名这样具有歧义性的词句采用传统的算法进行检测则效果不佳,比如姓名检测,通常是将所有的姓写在Json文件中,然后匹配第一个字或者前两个字包含在姓的文件中,如果包含在内,就说明该 ...
【技术保护点】
【技术特征摘要】
1.一种敏感数据识别的方法,其特征在于,包括:获取待处理文本;将所述待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征;将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息;根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇。2.根据权利要求1所述的方法,其特征在于,在所述根据所述待处理文本中每个单元的标签信息,确定所述待处理文本的敏感词汇之后,所述方法还包括:利用指定字符对所述待处理文本中的敏感词汇进行替换,获得脱敏数据。3.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入特征提取网络,获得所述特征提取网络输出的待处理文本中每个单元的空间特征,包括:对所述待处理文本进行分词操作,得到多个单元;将所述待处理文本的每个单元输入特征提取网络,获得所述特征提取网络输出的每个单元对应的空间特征。4.根据权利要求3所述的方法,其特征在于,所述特征提取网络是通过对Inception
‑
v4网络进行改进,去除所述Inception
‑
v4网络的softmax层,并加上全卷积层得到的。5.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本中每个单元的空间特征输入标签预测模型,获得所述标签预测模型输出的每个单元的标签信息,包括:将每个单元的空间特征输入已训练完成的Bi
‑
GRU模型,获得所述Bi
‑
GRU模型输出的每个单元的预测标签;将所述Bi
‑
GRU模型输出的每个单元的预测标签作为已训练完成的CRF模型的输入,获得所述CRF模型输出的每个单元的标签信息。6.根据权利要求1所述的方法,其特征在于,在所述获取待处理文本之前,所述方法还包括:获取训练文本集合;采用分词工具对所述训练文本集合中的每个训练文本进行分词处理;获取对每个训练文本中敏感词汇的标注信息以及其他词汇的标...
【专利技术属性】
技术研发人员:张黎,石桂红,余海波,陈广辉,刘维炜,
申请(专利权)人:闪捷信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。