一种面向大规模网络流量的特定信息提取方法技术

技术编号:38538350 阅读:23 留言:0更新日期:2023-08-19 17:07
本发明专利技术提出一种面向大规模网络流量的特定信息提取方法,属于特定信息提取技术领域。包括以下步骤:S1.对网络流量进行预处理,得到明文流量json载荷的嵌入向量;S2.将嵌入向量作为输入对网络流量数据进行聚类;S3.提取同类明文流量数据json载荷的频繁项,形成频繁项集;S4.对同类明文流量数据json载荷的频繁项集中的键所对应明文的值进行核验,将目标特定信息的值所对应的键作为当前类别正则提取的规则;S5.根据规则对各类流量进行正则提取获得目标特定信息内容。解决现有技术中存在的人工构建模式过程耗时久以及提取精度差的技术问题。问题。问题。

【技术实现步骤摘要】
一种面向大规模网络流量的特定信息提取方法


[0001]本申请涉及特定信息提取方法,尤其涉及一种面向大规模网络流量的特定信息提取方法,属于特定信息提取


技术介绍

[0002]通过网络进行传输信息的流量中,不同的通信双方协商好的流量载荷json内部格式通常是不完全相同的,这也就使得对载荷中特定数据信息进行自动化提取变得复杂起来。对于需精确获取的内容而言,能否构建合适的正则模式对于获取高质量的数据有着决定性影响。但人工构建正则模式过程的耗时又同原流量数据的结构脉络是否清晰有直接关联,尤其是在大规模网络流量这一场景下,为了达到降低人工构建模式过程的耗时以及提高提取精度的目的,本专利技术提出一种面向大规模网络流量的特定信息提取方法。

技术实现思路

[0003]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向大规模网络流量的特定信息提取方法,其特征在于,包括以下步骤:S1.对网络流量进行预处理,得到明文流量json载荷的嵌入向量;S2.将嵌入向量作为输入对网络流量数据进行聚类;S3.提取同类明文流量数据json载荷的频繁项,形成频繁项集;S4.对同类明文流量数据json载荷的频繁项集中的键所对应明文的值进行核验,将目标特定信息的值所对应的键作为当前类别正则提取的规则;S5.根据规则对各类流量进行正则提取获得目标特定信息内容。2.根据权利要求1所述一种面向大规模网络流量的特定信息提取方法,其特征在于,S1具体是,包括以下步骤:S11.将网络流量转换为明文流量,将流量中的json载荷以字典结构进行规范化处理,对多层嵌套的原明文json载荷字典结构去嵌套化,构建为单层字典结构;S12.获取每条明文流量对应的字典结构中的唯一的键,将键作为key形成一张key

embedding对照表,key对应的embedding为从0开始的自然数;S13.对每条待处理明文流量经S11处理后的字典规范化结果中的键值对数目进行统计,并根据统计结果中键值对数目的分布情况选择百分位数作为数据嵌入维度n;S14.对全部明文流量的字典规范化结果按照键值对的个数从高到底排序;S15.获取与S13所述嵌入维度数目对应的明文流量json载荷的嵌入向量;当明文流量json载荷中的键大于嵌入维度时,取与嵌入维度相同的键;当明文流量json载荷中的键小于嵌入维度时,采用加权平均的方式进行维度补入,补足的第i位向量值,公式为:其中,表示截至当前这一条输入数据前,所有经聚类处理分为第j类的数据在第i个维度上的均值;表示截至当前这一条输入数据前,所有经聚类处理分为第j类的数据条数;current_sum
andled
表示截至当前这一条输入数据前已经进行聚类处理的数据条数;m表示截至当前这一条输入数据前,经聚类处理产生的类的个数;将取到的键集合根据S12中的对照表映射为数值得到单条数据的嵌入向量;S16...

【专利技术属性】
技术研发人员:吕欣润张翀李精卫谷杰铭张程鹏邢潇张奕欣
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1