基于ELECTRA-wwm+GAN的非结构化敏感数据识别方法及装置制造方法及图纸

技术编号：37575897 阅读：7 留言：0更新日期：2023-05-15 07:52

本公开的实施例提供了一种基于ELECTRA

全部详细技术资料下载

【技术实现步骤摘要】
基于ELECTRA
‑
wwm+GAN的非结构化敏感数据识别方法及装置

[0001]本公开涉及信息安全领域，尤其涉及基于ELECTRA
‑
wwm+GAN的非结构化敏感数据识别

技术介绍

[0002]随着信息技术的飞速发展，信息安全问题逐渐备受关注，而且多起信息安全事故给个人和社会带来了非常严重的影响，尤其是敏感数据的泄露，甚至能直接影响国家安全。
[0003]目前，敏感数据防泄漏的关键技术包括：敏感数据识别、敏感数据标记、敏感数据阻断、销毁和策略管理等。其中敏感数据识别是敏感数据防泄漏方案的前提，也会其中最重要的环节，只有精准的识别出敏感数据才能防止这些敏感数据泄露。
[0004]对于敏感数据的识别，主要是基于文本的识别。目前基于文本的识别算法主要有三种:一种是基于关键词匹配的方法、基于机器学习的方法以及基于深度学习的方法。
[0005]早期的敏感数据识别技术通常采用关键词匹配的方法，首先需要数据分析师根据其主观意识筛选出敏感数据的关键词，作为词表和识别的依据，然后根据多模匹配算法将待测文本与词表进行比对，并根据事先设定的阈值来判断待测文本是否含有敏感数据，若大于阈值，则还有敏感数据，否则，没有敏感数据。多模匹配算法以AC(Aho
‑
Corasick)算法为代表，该算法通过有限状态机将字符比较转化为状态转移，从而完成对字符串的匹配。但该方法识别精度低，在数据字典不完整或建立有误的情况下，容易造成敏感数据查找失败。
[0006...

【技术保护点】

【技术特征摘要】
1.一种基于ELECTRA
‑
wwm+GAN的非结构化敏感数据识别方法，其特征在于，包括：获取敏感语句数据，对所述敏感语句数据进行预处理；根据预处理后的敏感语句数据及其标注，对基于ELECTRA
‑
wwm+GAN的生成式对抗网络模型进行训练；利用训练得到的生成式对抗网络模型的生成器对待识别文本进行敏感数据识别。2.根据权利要求1所述的方法，其特征在于，所述预处理包括：数据清洗、数据标注、语义扩展、分词处理。3.根据权利要求2所述的方法，其特征在于，所述基于ELECTRA
‑
wwm+GAN的生成式对抗网络模型包括生成器、判别器；所述生成器由输入层、嵌入层、Bi
‑
GRU层、Multi
‑
attention层、全连接层构成。4.根据权利要求3所述的方法，其特征在于，所述嵌入层采用ELECTRA
‑
wwm模型，由两部分组成，分别是Generator以及Discriminator，所述Generator以及Discriminator为transformer的encoder结构。5.根据权利要求3所述的方法，其特征在于，所述Bi
‑
GRU层由前向GRU和后向GRU组合而成；其输入为嵌入层ELECTRA
‑

【专利技术属性】
技术研发人员：孙燕杰，孔维玉，袁开国，付海涛，司大鹏，石明磊，陆毅远，
申请(专利权)人：上海速丰通联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人