一种大规模PCAP数据正确性验证方法、系统及存储介质技术方案

技术编号:36437512 阅读:21 留言:0更新日期:2023-01-20 22:51
本发明专利技术公开了一种大规模PCAP数据正确性验证方法、系统及存储介质,包括:S1、生成基准HashMap数据字典;S2、通过多线程生成多个PCAP数据包文件对应的目标MD5值列表;S3、将每个目标MD5值列表同时与基准HashMap数据字典进行对比,根据对比结果,构建误命中数据集合与漏命中数据集合,实现PCAP数据正确性验证。本发明专利技术中采用多线程开多视图的方式同时加载文件进行对比,节约了合并文件的时间,且结合计算机自身IO资源的特点和能力,科学合理的控制线程个数,最大限度的提升对比的效率;与现有方法一相比本发明专利技术将总比对时间复杂度从幂数级转换为线性级,将检索单个数据帧的时间复杂度效率提升到O(1)。效率提升到O(1)。效率提升到O(1)。

【技术实现步骤摘要】
一种大规模PCAP数据正确性验证方法、系统及存储介质


[0001]本专利技术属于计算机网络数据分析处理领域,具体涉及一种大规模PCAP数据正确性验证方法、系统及存储介质。

技术介绍

[0002]在网络数据分析筛选还原设备的测试验证场景下,需要对设备的海量数据筛选还原能力进行验证,其中一项关键指标是筛选还原结果的准确性,即基于特定规则,如IP五元组(源IP地址,源端口,目的IP地址,目的端口和传输层协议这五个量组成的一个集合)、关键词、正则表达式、数据包特征等,对实时的数据流进行筛选,将筛选命中的数据进行存盘记录,验证存盘数据命中是否全面、准确。数据筛选还原有两种常见错误命中情形,分别是漏命中和误命中。漏命中是指满足筛选条件的数据,未被检测出来;误命中是指不应该命中的数据被错误的检测出来。
[0003]测评验证过程一般如下:相关业务专家根据制定的筛选规则集,对原始流量进行预处理,生成基准命中结果数据文件,作为不同厂商筛选还原设备筛选功能以及筛选还原准确率判定的标准。测试过程中将此筛选规则集作为筛选条件下发至各厂商设备,利用数据回放设备将基准命中结果数据文件分发至各厂商设备。各厂商设备基于筛选规则集对原始流量进行处理后,将筛选命中的数据按需存放到指定文件目录下。
[0004]测评人员需对比各厂商生成的PCAP数据包文件和基准命中结果数据文件,来确认筛选还原结果的准确率。数据命中量可能很大,不能直接写入一个文件中,一般存储策略是按照文件大小和写文件的时长条件对命中数据进行切分,例如:一个文件写够50MB大小,或者从文件打开开始计时,达到30分钟,满足其中任一条件,则切换生成新的文件,直至将所有命中数据写完为止。由于各厂商存储PCAP数据包文件的策略存在差异且格式为二进制大规模PCAP数据包,因此无法通过人工方式逐帧比对。
[0005]现有的大规模PCAP数据正确性验证的方法有两种,一种是单线程嵌套循环遍历的方式,该方法的缺点首先是单线程没有充分利用计算机的IO资源,其次是嵌套循环效率低,随着数据量的增大,比对时间复杂度呈幂数增长。另一种是归一化文件比对方式,即将存储的多个PCAP数据包文件合并后,再与基准命中结果数据文件一一比对,这种方法的缺点是归一化文件本身需要耗费大量的时间,同时需要消耗大量的IO读写资源。

技术实现思路

[0006]针对现有技术中的上述不足,本专利技术提供的大规模PCAP数据正确性验证方法、系统及存储介质解决了现有技术在进行PCP数据正确性检验时,没有充分利用计算机的IO资源、对比时间复杂度程幂数增长以及归一化文件耗时长的问题。
[0007]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种大规模PCAP数据正确性验证方法,包括以下步骤:
S1、生成基准HashMap数据字典;S2、通过多线程生成多个PCAP数据包文件对应的目标MD5值列表;S3、将每个目标MD5值列表同时与基准HashMap数据字典进行对比,根据对比结果,构建误命中数据集合与漏命中数据集合,实现PCAP数据正确性验证。
[0008]进一步地,所述步骤S1具体为:S11、遍历基准命中结果数据文件中的每一帧数据生成源MD5值;S12、将MD5值作为key值,以读取的时序生成包序号作为Value值,生成HashMap数据字典。
[0009]进一步地,所述步骤S2具体为:配置线程个数,基于配置的线程个数,通过多线程多视图同时加载分包存储的多个PCAP数据包文件中的数据帧,并生成对应的多个目标MD5值列表。
[0010]进一步地,所述步骤S3中,将一个目标MD5值列表与基准HashMap数据字典进行对比,构建误命中数据集合与漏命中数据集合的方法具体为:S31、判断当前目标MD5值在基准HashMap数据字典是否存在对应一致的源MD5值;若是,则进入步骤S32;若否,则进入步骤S33;S32、在基准HashMap数据字典中删除对应的源MD5值;S33、将当前目标MD5值和对应列表索引,持久化存入误命中数据集合中,进入步骤S34;S34、判断当前目标MD5值是否为目标MD5值列表中的最后一个目标MD5值;若是,则进入步骤S35;若否,则按照目标MD5值列表中目标MD5值顺序,选择下一目标MD5值作为当前目标MD5,并返回步骤S31;S35、将基准HashMap数据字典中未被删除的源MD5值,持久化存入漏命中数据集合中。
[0011]进一步地,对于PCAP数据正确性验证过程的时间复杂度,对比单个数据帧的时间复杂度为O(1),对比所有数据帧的时间复杂度为O(n)。
[0012]本专利技术的有益效果为:(1)本专利技术中采用多线程开多视图的方式同时加载文件进行对比,节约了合并文件的时间,且结合计算机自身IO资源的特点和能力,科学合理的控制线程个数,最大限度的提升对比的效率。
[0013](2)本专利技术中是将待检验数据帧与在基准HashMap数据字典中基准数据帧比对,比对数据帧总的时间复杂度为O(n),比对检索单个数据帧的时间复杂度为O(1);与现有方法一相比本专利技术将总比对时间复杂度从幂数级转换为线性级,将检索单个数据帧的时间复杂度效率提升到O(1)。
[0014]一种大规模PCAP数据正确性验证方法的验证系统,包括:基准数据生成模块:用于生成基准HashMap数据字典,所述基准HashMap数据字典以基准命中结果数据文件中的每一帧数据的源MD5值为key值,以时序生成包序号为Value值;
待验证数据生成模块:用于同时生成多个PCAP数据包文件对应的目标MD5值列表;数据对比模块:用于将同时目标MD5值列表与基准HashMap数据字典对比;验证结果生成模块:用于根据对比结果,构建PCAP数据正确性验证结果结构,包括误命中数据集合与漏命中数据集合。
[0015]进一步地,所述数据对比模块进行数据对比的方法具体为:判断目标MD5值列表中的目标MD5值是否存在于基准HashMap数据字典中;若是,在基准HashMap数据字典中删除对应的源MD5值;若否,获取当前目标MD5值和对应列表索引;当目标MD5值为当前目标MD5值列表中的最后一个时,获取基准HashMap数据字典中未被删除的源MD5值。
[0016]进一步地,所述验证结果生成模块中,误命中数据集合存入获取的目标MD5值及其对应的列表索引;漏命中数据集合中存入基准HashMap数据字典中未被删除的源MD5值。
[0017]本专利技术的有益效果为:本专利技术提供的PCAP数据正确性验证系统降低了大规模PCAP数据正确性验证的时间复杂度,提升了数据对比效率,充分利用了计算机的IO资源。
[0018]一种计算机存储介质,所述计算机存储介质执行计算机程序时,实现大规模PCAP数据正确性验证方法。
[0019]本专利技术的有益效果为:本专利技术为实现PCAP数据正确性验证的计算机程序提供了对应的计算机可读存储介质,方便用户直接使用该存储介质实现大规模PCAP数据正确性验证。
附图说明
[0020]图1为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大规模PCAP数据正确性验证方法,其特征在于,包括以下步骤:S1、生成基准HashMap数据字典;S2、通过多线程生成多个PCAP数据包文件对应的目标MD5值列表;S3、将每个目标MD5值列表同时与基准HashMap数据字典进行对比,根据对比结果,构建误命中数据集合与漏命中数据集合,实现PCAP数据正确性验证。2.根据权利要求1所述的大规模PCAP数据正确性验证方法,其特征在于,所述步骤S1具体为:S11、遍历基准命中结果数据文件中的每一帧数据生成源MD5值;S12、将MD5值作为key值,以读取的时序生成包序号作为Value值,生成HashMap数据字典。3.根据权利要求1所述的大规模PCAP数据正确性验证方法,其特征在于,所述步骤S2具体为:配置线程个数,基于配置的线程个数,通过多线程多视图同时加载分包存储的多个PCAP数据包文件中的数据帧,并生成对应的多个目标MD5值列表。4.根据权利要求2所述的大规模PCAP数据正确性验证方法,其特征在于,所述步骤S3中,将一个目标MD5值列表与基准HashMap数据字典进行对比,构建误命中数据集合与漏命中数据集合的方法具体为:S31、判断当前目标MD5值在基准HashMap数据字典是否存在对应一致的源MD5值;若是,则进入步骤S32;若否,则进入步骤S33;S32、在基准HashMap数据字典中删除对应的源MD5值;S33、将当前目标MD5值和对应列表索引,持久化存入误命中数据集合中,进入步骤S34;S34、判断当前目标MD5值是否为目标MD5值列表中的最后一个目标MD5值;若是,则进入步骤S35;若否,则按照目标MD5值列表中目标MD5值顺序,选择下一目标MD5值作为当前目标MD5,并返回步骤S31;S35、将基准HashMap数据字典中未...

【专利技术属性】
技术研发人员:古训原小卫郭春江李丽娟霍曦秦煬东段军邹昆李亮李晨华洋汪俊贵刘越
申请(专利权)人:成都九洲电子信息系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1