一种大数据级Pcap文件的处理方法及系统技术方案

技术编号:15051550 阅读:37 留言:0更新日期:2017-04-05 22:47
本发明专利技术提出一种大数据级Pcap文件的处理方法及系统,首先计算系统内存,并在顺序读取Pcap文件的过程中动态计算系统内存使用率,当内存使用率达到规定数值时停止读取,并标记标志位,对一次读取的数据进行分析后释放内存,返回标志位继续对Pcap文件进行读取,直至Pcap文件被完整处理。本发明专利技术结合系统内存情况对大数据级Pcap文件进行分批读取,有效保证了系统处理数据的速度,提高数据分析效率;进一步地,根据本发明专利技术可对处理的Pcap文件的完整性进行校验,保证了数据的完整性和处理结果的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,尤其涉及一种大数据级Pcap文件的处理方法及系统。
技术介绍
Pcap文件是进行网络抓包后存盘的数据文件,一般情况下,我们可使用wireshark来查看Pcap文件内容,并借助过滤器过滤出我们需要的数据包,并进行网络流量分析。但现有技术中,由于系统内存大小的限制,一般只能处理GB数量级的Pcap文件,而对TB数量级这类大数据级Pcap文件的处理速度、效率及数据处理的完整性都不高。
技术实现思路
针对上述现有技术中存在的缺陷,本专利技术提出一种大数据级Pcap文件的处理方法及系统,首先计算系统内存,并在顺序读取Pcap文件的过程中动态计算系统内存使用率,当内存使用率达到规定数值时停止读取,并标记标志位,对一次读取的数据进行分析后释放内存,返回标志位继续对Pcap文件进行读取,直至Pcap文件被完整处理。具体
技术实现思路
包括:一种大数据级Pcap文件的处理方法,包括如下步骤:步骤1:获取系统内存信息,计算系统容量;步骤2:从Pcap文件头部开始顺序读取数据;步骤3:动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;步骤4:在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;步骤5:对本次读取数据进行分析,提取特征信息,按规定存储特征信息;步骤6:返回Pcap文件标志位的位置,擦除标记位,释放系统内存,顺序读取数据,并再次执行步骤3至步骤5;步骤7:重复步骤6,直至Pcap文件被完整处理。进一步地,还包括:参照所述计算本次读取数据特征值的计算方式,计算Pcap文件在日志文件中记录的相邻两个标记位之间数据的特征值,若结果与日志文件中的特征值完全匹配,则所处理的Pcap文件是完整的,若不能完全匹配,则匹配失败的特征值所对应的标记位之前的数据是不完整的,需返回Pcap文件相应标记位的位置,对数据进行重新获取。进一步地,所述按规定存储特征信息,具体为:将特征信息存储在以标记位命名的文件中。进一步地,所述特征信息包括:源IP、目的IP、URL、协议方式、端口信息。进一步地,所述系统内存信息包括:系统总内存、系统空闲内存、块设备缓冲大小、文件缓冲大小。一种大数据级Pcap文件的处理系统,包括:系统容量计算模块,用于获取系统内存信息,计算系统容量;内存使用率计算模块,用于动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;标志位设置模块,用于在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;数据分析模块,用于对读取数据进行分析,提取特征信息,按规定存储特征信息;文件读取模块,用于顺序读取Pcap文件数据,并动态调用内存使用率计算模块、标志位设置模块、数据分析模块,直至Pcap文件被完整处理。进一步地,还包括数据完整性校验模块,用于参照所述计算本次读取数据特征值的计算方式,计算Pcap文件在日志文件中记录的相邻两个标记位之间数据的特征值,若结果与日志文件中的特征值完全匹配,则所处理的Pcap文件是完整的,若不能完全匹配,则匹配失败的特征值所对应的标记位之前的数据是不完整的,需返回Pcap文件相应标记位的位置,对数据进行重新获取。进一步地,所述按规定存储特征信息,具体为:将特征信息存储在以标记位命名的文件中。进一步地,所述特征信息包括:源IP、目的IP、URL、协议方式、端口信息。进一步地,所述系统内存信息包括:系统总内存、系统空闲内存、块设备缓冲大小、文件缓冲大小。本专利技术的有益效果是:本专利技术结合系统内存情况对大数据级Pcap文件进行分批读取,有效保证了系统处理数据的速度,提高数据分析效率;进一步地,根据本专利技术可对处理的Pcap文件的完整性进行校验,保证了数据的完整性和处理结果的准确性。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种大数据级Pcap文件的处理方法流程图;图2为本专利技术一种大数据级Pcap文件的处理系统结构图。具体实施方式为了使本
的人员更好地理解本专利技术实施例中的技术方案,并使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图对本专利技术中技术方案作进一步详细的说明。本专利技术给出了一种大数据级Pcap文件的处理方法实施例,如图1所示,包括:S101:获取系统内存信息,计算系统容量;S102:从Pcap文件头部开始顺序读取数据;S103:动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;内存使用率(MEMUsedPerc)可采用如下方式进行计算:MEMUsedPerc=100*(MemTotal-MemFree-Buffers-Cached)/MemTotal其中,MemTotal:系统总内存MemFree:系统空闲内存Buffers:块设备缓冲大小Cached:文件缓冲大小可根据具体数据处理需求和系统环境等设定所述规定数值,一般情况下,该数值不超过90%;S104:在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;S105:对本次读取数据进行分析,提取特征信息,按规定存储特征信息;该过程需根据具体数据分析需求对读取数据进行分析,并提取特征信息;S106:返回Pcap文件标志位的位置,擦除标记位,释放系统内存,顺序读取数据;S107:判断Pcap文件是否已被完整处理,若否,则进入S103,若是,则结束。优选地,还包括:参照所述计算本次读取数据特征值的计算方式,计算Pcap文件在日志文件中记录的相邻两个标记位之间数据的特征值,若结果与日志文件中的特征值完全匹配,则所处理的Pcap文件是完整的,若不能完全匹配,则匹配失败的特征值所对应的标记位之前的数据是不完整的,需返回Pcap文件相应标记位的位置,对数据进行重新获取。优选地,所述按规定存储特征信息,具体为:将特征信息存储在以标记位命名的文件中。优选地,所述特征信息包括:源IP、目的IP、URL、协议方式、端口信息。优选地,所述系统内存信息包括:系统总内存、系统空闲内存、块设备缓冲大小、文件缓冲大小。一种大数据级Pcap文件的处理系统,包括:系统容量计算模块201,用于获取系统内存信息,计算系统容量;内存使用率计算模块202,用于动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;标志位设置模块203,用于在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;数据分析模块204,用于对读取数据进行分析,提取特征信息,按规定存储特征信息;文件读取模块205,用于顺序读取Pcap文件数据,并动态调用内存使用率计算模块、标志位设置模块、数据分析模块,直至Pcap文件被完整处理。优选地,还包括数据完整性校验模块,用于参照所述计算本次读取数据特征值的计算方式,计算Pcap文件在日志文件中记录的相邻两个标记位之间数据的特征值,若结果与日志文件中的特征值完全匹配,则所处理的Pcap文件是完整的,若不能本文档来自技高网
...

【技术保护点】
一种大数据级Pcap文件的处理方法,其特征在于,包括如下步骤:步骤1:获取系统内存信息,计算系统容量;步骤2:从Pcap文件头部开始顺序读取数据;步骤3:动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;步骤4:在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;步骤5:对本次读取数据进行分析,提取特征信息,按规定存储特征信息;步骤6:返回Pcap文件标志位的位置,擦除标记位,释放系统内存,顺序读取数据,并再次执行步骤3至步骤5;步骤7:重复步骤6,直至Pcap文件被完整处理。

【技术特征摘要】
1.一种大数据级Pcap文件的处理方法,其特征在于,包括如下步骤:步骤1:获取系统内存信息,计算系统容量;步骤2:从Pcap文件头部开始顺序读取数据;步骤3:动态计算内存使用率,当内存使用率达到规定数值时,暂停读取数据;步骤4:在暂停读取数据的位置设置标志位,计算本次读取数据的特征值,并将标志位与特征值存储在日志文件中;步骤5:对本次读取数据进行分析,提取特征信息,按规定存储特征信息;步骤6:返回Pcap文件标志位的位置,擦除标记位,释放系统内存,顺序读取数据,并再次执行步骤3至步骤5;步骤7:重复步骤6,直至Pcap文件被完整处理。2.如权利要求1所述的方法,其特征在于,还包括:参照所述计算本次读取数据特征值的计算方式,计算Pcap文件在日志文件中记录的相邻两个标记位之间数据的特征值,若结果与日志文件中的特征值完全匹配,则所处理的Pcap文件是完整的,若不能完全匹配,则匹配失败的特征值所对应的标记位之前的数据是不完整的,需返回Pcap文件相应标记位的位置,对数据进行重新获取。3.如权利要求1或2所述的方法,其特征在于,所述按规定存储特征信息,具体为:将特征信息存储在以标记位命名的文件中。4.如权利要求3所述的方法,其特征在于,所述特征信息包括:源IP、目的IP、URL、协议方式、端口信息。5.如权利要求1或2或4所述的方法,其特征在于,所述系统内存信息包括:系统总内存、系统空闲内存、块设备缓冲大小、文件缓冲大小。...

【专利技术属性】
技术研发人员:桑彦东宋丹成韩文奇肖新光
申请(专利权)人:哈尔滨安天科技股份有限公司
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1