【技术实现步骤摘要】
一种非结构化文本的敏感信息检测方法及检测装置
本说明书一个或多个实施例涉及敏感信息检测方法
,尤其涉及一种非结构化文本的敏感信息检测方法及检测装置。
技术介绍
目前,中国网民规模已超8亿,互联网普及率达71.4%,数字经济总量达31.3万亿元。随着5G时代、万物互联时代的到来,网络安全面临新的难题。网络空间安全不仅关系着人们日常的生产生活,更是维护国家安全的重要战略要塞。在飞速发展的今天,网络成为人们日常生活的重要组成部分,数据作为网络各项功能的载体,规模不断增加,种类多样,其中包括日常使用的各种用户数据信息,网络自媒体及政务部分的各项办公数据。为我们带来便捷生活的同时,也存在各种各样的敏感信息数据泄露问题。现阶段对于敏感信息和敏感信息的检测方法,主要包括敏感词字典匹配技术,依赖所构建的敏感词字典中的字符串匹配算法来完成敏感信息的检测;传统的机器学习算法,使用空间向量中的一个向量来表示文档,该向量的每一维度表示文档的一个特征值,通过计算文本向量和主题向量之间的空间距离,来判定文本类型,该方法主要是基于数据集中存 ...
【技术保护点】
1.一种非结构化文本的敏感信息检测方法,其特征在于,包括:/n获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;/n构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据;/n融合提取的局部特征数据和全局特征数据;/n将融合后的特征数据进行分类检测,并输出分类检测结果。/n
【技术特征摘要】
1.一种非结构化文本的敏感信息检测方法,其特征在于,包括:
获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据;
融合提取的局部特征数据和全局特征数据;
将融合后的特征数据进行分类检测,并输出分类检测结果。
2.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述对非结构化文本数据进行分词预处理,包括:
解析非结构化文本数据,提取非结构化文本数据中的结构化数据;
将提取的结构化数据进行文本分词处理,得分词文本;
对分词文本进行去除停用词处理,得文本数据集。
3.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述向量化预处理,包括:
采用文本数据集训练词向量计算工具,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型;
将文本数据集输入到词向量计算工具模型中进行向量化处理;
输出文本数据集的向量表达。
4.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述提取预处理数据的局部特征数据和全局特征数据,包括:
将提取的预处理数据分为训练集、测试集;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型;
采用训练集中的数据对特征提取模型进行训练至收敛,采用测试集的数据对训练的特征提取模型进行验证;
将预处理数据输入到特征提取模型进行卷积处理,得到局部特征数据;
将预处理数据分别从前向和后向输入到特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据。
5.根据权利要求4所述的非结构化文本的敏感信息检测方法,其特征在于,所述特征提取模型包括:输入层,嵌入层,处理层,全连接...
【专利技术属性】
技术研发人员:徐国爱,蔺岩,徐国胜,王浩宇,郭燕慧,张淼,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。