基于ELECTRA-wwm+GAN的非结构化敏感数据识别方法及装置制造方法及图纸

技术编号:37575897 阅读:7 留言:0更新日期:2023-05-15 07:52
本公开的实施例提供了一种基于ELECTRA

【技术实现步骤摘要】
基于ELECTRA

wwm+GAN的非结构化敏感数据识别方法及装置


[0001]本公开涉及信息安全领域,尤其涉及基于ELECTRA

wwm+GAN的非结构化敏感数据识别


技术介绍

[0002]随着信息技术的飞速发展,信息安全问题逐渐备受关注,而且多起信息安全事故给个人和社会带来了非常严重的影响,尤其是敏感数据的泄露,甚至能直接影响国家安全。
[0003]目前,敏感数据防泄漏的关键技术包括:敏感数据识别、敏感数据标记、敏感数据阻断、销毁和策略管理等。其中敏感数据识别是敏感数据防泄漏方案的前提,也会其中最重要的环节,只有精准的识别出敏感数据才能防止这些敏感数据泄露。
[0004]对于敏感数据的识别,主要是基于文本的识别。目前基于文本的识别算法主要有三种:一种是基于关键词匹配的方法、基于机器学习的方法以及基于深度学习的方法。
[0005]早期的敏感数据识别技术通常采用关键词匹配的方法,首先需要数据分析师根据其主观意识筛选出敏感数据的关键词,作为词表和识别的依据,然后根据多模匹配算法将待测文本与词表进行比对,并根据事先设定的阈值来判断待测文本是否含有敏感数据,若大于阈值,则还有敏感数据,否则,没有敏感数据。多模匹配算法以AC(Aho

Corasick)算法为代表,该算法通过有限状态机将字符比较转化为状态转移,从而完成对字符串的匹配。但该方法识别精度低,在数据字典不完整或建立有误的情况下,容易造成敏感数据查找失败。
[0006]基于机器学习的分类算法,将对文本中敏感信息的检测过程转化为文本的二分类问题。随着机器学习理论和技术的进步,一些基于统计学模型的文本分类方法被应用在敏感信息检测领域,如基于SVM的敏感信息识别方法;基于K

近邻算法对敏感信息进行检测。这一类方法摆脱了人工制定关键词词表的局限,通过对已知敏感文本训练集学习获取分类规则,基本克服了基于关键词匹配的传统检测方法的弊端,相较之下大幅提高了敏感信息检测的效率和准确性。但是,这一类方法的关键在于文本表示和特征提取两个步骤,需要花费大量人力对训练数据进行标注。
[0007]基于深度学习的算法,是随着深度学习理论的进步逐步发展的一类识别方法。例如,一种基于循环神经网络模型的敏感信息识别方法,使用NLTK(Natural Language Toolkit)工具包将文本文档拆分成句子,然后利NLP解析器将句子解析成句子树的形式,最终使用RNN在语法树上训练检测模型,从而达到依靠文本文档的语义和语法结构信息来检测是否内含敏感信息的目的。又如基于敏感短语的RNN(Sensitive Phrase RNN)模型。由于该模型基于语义通过对实时上下文的编码生成短语向量,故而能够捕捉基于自然语义的敏感信息复杂性。但是,现有技术方案是基于BERT模型进行敏感数据识别,但是BERT模型的预训练任务是MLM,即随机选择输入句子中15%的单词,然后其中的80%的单词用[mask]替换,10%保持不变,10%随机替换。然后BERT会对这15%的单词进行预测,还原回真实的单词。但是MLM预训练任务存在一些缺点:(1)每一次训练只预测了15%的单词,比较浪费计算力。(2)[mask]只在训练的时候出现,在真实预测的时候是没有的,这导致训练和推断过程
的不一致。另外,现有技术方案将BERT模型的输出的句向量投入MLP中进行模型训练,并没有充分利用语料的序列信息和上下文信息。

技术实现思路

[0008]本公开提供了一种基于于ELECTRA

wwm+GAN的非结构化敏感数据识别方法、设备以及存储介质。
[0009]根据本公开的第一方面,提供了一种基于ELECTRA

wwm+GAN的非结构化敏感数据识别方法。该方法包括:获取敏感语句数据,对所述敏感语句数据进行预处理;根据预处理后的敏感语句数据及其标注,对基于ELECTRA

wwm+GAN的生成式对抗网络模型进行训练;利用训练得到的生成式对抗网络模型的生成器对待识别文本进行敏感数据识别。
[0010]进一步地,所述预处理包括:数据清洗、数据标注、语义扩展、分词处理。
[0011]进一步地,所述基于ELECTRA

wwm+GAN的生成式对抗网络模型包括生成器、判别器;所述生成器由输入层、嵌入层、Bi

GRU层、Multi

attention层、全连接层构成。
[0012]进一步地,所述嵌入层采用ELECTRA

wwm模型,由两部分组成,分别是Generator以及Discriminator,所述Generator以及Discriminator为transformer的encoder结构。
[0013]进一步地,所述Bi

GRU层由前向GRU和后向GRU组合而成;其输入为嵌入层ELECTRA

wwm模型的Generator输出的词向量。
[0014]进一步地,所述利用训练得到的生成式对抗网络模型的生成器对待识别文本进行敏感数据识别包括:
[0015]对待识别文本进行数据预处理,即进行数据清洗以及分词;
[0016]将向量化的文本数据投入训练得到的生成式对抗网络模型的生成器中,输出含有敏感数据的概率;
[0017]根据预定义的正态概率阈值进行过滤。
[0018]根据本公开的第二方面,提供了一种基于ELECTRA

wwm+GAN的非结构化敏感数据识别装置。该装置包括:预处理模块,用于获取敏感语句数据,对所述敏感语句数据进行预处理;训练模块,用于根据预处理后的敏感语句数据及其标注,对基于ELECTRA

wwm+GAN的生成式对抗网络模型进行训练;识别模块,用于利用训练得到的生成式对抗网络模型的生成器对待识别文本进行敏感数据识别。
[0019]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
[0020]根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本公开的第一方面的方法。
[0021]本公开提供的一种基于ELECTRA

wwm+GAN的非结构化敏感数据识别方法及装置,实现了以下技术效果:
[0022]1.生成器使用ELECTRA

wwm的神经网络模型作为嵌入层,ELECTRA使用Replaced Token Detection(RTD)作为预训练任务,克服了现有技术中BERT模型的预训练任务(MLM)的缺陷。节省了计算力;训练和识别过程一致,提高了识别精度。
[0023]2.生成器使用Bi

GRU模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ELECTRA

wwm+GAN的非结构化敏感数据识别方法,其特征在于,包括:获取敏感语句数据,对所述敏感语句数据进行预处理;根据预处理后的敏感语句数据及其标注,对基于ELECTRA

wwm+GAN的生成式对抗网络模型进行训练;利用训练得到的生成式对抗网络模型的生成器对待识别文本进行敏感数据识别。2.根据权利要求1所述的方法,其特征在于,所述预处理包括:数据清洗、数据标注、语义扩展、分词处理。3.根据权利要求2所述的方法,其特征在于,所述基于ELECTRA

wwm+GAN的生成式对抗网络模型包括生成器、判别器;所述生成器由输入层、嵌入层、Bi

GRU层、Multi

attention层、全连接层构成。4.根据权利要求3所述的方法,其特征在于,所述嵌入层采用ELECTRA

wwm模型,由两部分组成,分别是Generator以及Discriminator,所述Generator以及Discriminator为transformer的encoder结构。5.根据权利要求3所述的方法,其特征在于,所述Bi

GRU层由前向GRU和后向GRU组合而成;其输入为嵌入层ELECTRA

【专利技术属性】
技术研发人员:孙燕杰孔维玉袁开国付海涛司大鹏石明磊陆毅远
申请(专利权)人:上海速丰通联科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1