【技术实现步骤摘要】
一种面向网络流量原始编码的敏感信息检测方法
[0001]本申请涉及一种敏感信息检测方法,尤其涉及一种面向网络流量原始编码的敏感信息检测方法,属于网络流量数据检测
技术介绍
[0002]随着网络的飞速发展以及各行各业信息化程度地加深,大量的网络传输流量中包含了敏感信息,进而导致了极大的隐私风险。为了保护数据隐私安全,传统的敏感信息检测方法在面对流量数据时,由于需要首先对流量载荷进行还原,因此无法有效应用于大规模网络流量传输环境中。
技术实现思路
[0003]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0004]鉴于此,为解决现有技术中存在的对流量载荷进行还原,因此无法有效应用于大规模网络流量传输环境中的技术问题,本专利技术提供一种面向网络流量原始编码的 ...
【技术保护点】
【技术特征摘要】
1.一种面向网络流量原始编码的敏感信息检测方法,其特征在于,在不对网络流量载荷内容进行转码的情况下检测网络流量中的个人敏感信息,具体包括以下步骤:S1.获取网络流量数据,提取流量文件PCAP中的载荷,并对载荷进行处理;S2.构建跳元模型对预处理后的载荷数据进行词嵌入;S3.对词嵌入向量进行降维处理,形成带有标签样本的训练集;S4.构建敏感度检测模型;S5.对标签样本进行聚类分析;S6.将待测样本和标签样本输入至敏感度检测模型中,输出相似度;S7.根据不同环境的网络流量设置判断相似度阈值,将S6所述相似度与相似度阈值进行比较,若相似度大于相似度阈值,认为待测样本与标签样本类别相同,若相似度小于相似度阈值,采用正则匹配或关键字检测是否包含敏感信息。2.根据权利要求1所述一种面向网络流量原始编码的敏感信息检测方法,其特征在于,将载荷按照6位长度进行分割。3.根据权利要求2所述一种面向网络流量原始编码的敏感信息检测方法,其特征在于,网络流量数据包括含有个人敏感信息的流量数据和不含有个人敏感信息的流量数据。4.根据权利要求3所述一种面向网络流量原始编码的敏感信息检测方法,其特征在于,S2具体是,包括以下步骤:S21.构建词索引集V={0,1,
…
,|V|},对词索引集第i个词,使用v
i
表示该词作为中心词时的向量表示,使用u
i
表示该词作为上下文词时的向量表示,给定中心词w
c
,生成上下文词w
o
的条件概率建模为:其中,表示中心词w
c
作为上下文词时的嵌入向量的转置,表示词表中第i个词作为上下文词时的嵌入向量的转置;S22.设上下文窗口为m,m=50,根据给定的文本长度T,跳元模型的似然函数为:其中,w
(t)
表示给定的文本中第t个词,w
(t+j)
表示文本中第t+j个词;S23.训练跳元模型得到每个...
【专利技术属性】
技术研发人员:张翀,刘铭,吕欣润,谷杰铭,张程鹏,邢潇,张奕欣,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。