【技术实现步骤摘要】
一种实时流量留存和批量抽取方法
[0001]本专利技术涉及一种实时流量留存和批量抽取方法,属于网络流量存储与提取
技术介绍
[0002]当前随着5G移动互联网、大数据、人工智能、物联网、区块链等网络技术的飞速发展,网络信息安全面临全新的技术挑战。通过分析实时网络流量,对网络流量进行流量识别、过滤、解析,得到网络安全态势分析,是维护网络安全的一种至关重要的手段。而针对实时流量,以流量摘要(主要是pcap文件)的形式留存过去一段时间的网络情况,在新的安全事件出现时,可以还原当时的场景。尤其通过对DNS、Netflow、HTTP等海量访问日志的留存,可以最大程度复现过去一段时间的网络态势。对实时网络流量留存,需要考虑的主要问题为海量流量数据的存储和抽取效率问题。目前实时流量留存和批量抽取的技术在业界相关的研究和方法较少。
[0003]现有的业界流量留存技术主要是将流量数据按照类型(比如视频、音频、图片、文本、二进制文件等)存储到消息队列或者分布式文件系统中,之后便可以按照类型或文件夹抽取某一类的流量数据。现有技术 ...
【技术保护点】
【技术特征摘要】
1.一种实时流量留存和批量抽取方法,其特征在于:基于实时采集所获各待分析网络数据流在文件系统中各文件内的存储,根据各待分析网络数据流按预设网络数据流聚合规则划分下各聚合key分别与其所对应各时间标记信息对应组合构成的各个待分析键、以及各个待分析键分别所对应各待分析网络数据流在文件系统中存储地址构成的各个待分析值,按如下步骤A至步骤D,响应包含目标聚合key与目标时间段的目标抽取请求;步骤A.判断各待分析键中是否存在与目标聚合key相同的聚合key、且该聚合key所对应各时间标记信息中存在位于目标时间段中的各时间标记信息的各个待分析键,是则获得各待分析键中与目标聚合key相同的聚合key、且该聚合key所对应位于目标时间段中的各时间标记信息的各个待分析键,并获得该各个待分析键分别所对应的待分析值,作为各个待选值,然后进入步骤B;否则关于目标抽取请求的响应为空;步骤B.筛选各待选值中彼此不同的各待选值,作为各个非重复待选值,并进入步骤C;步骤C.按存储地址升序或降序,针对各个非重复待选值分别所对应存储地址进行排序,并针对该排序中各组相邻、且连续的各存储地址分别进行合并,构成各个目标存储地址,然后进入步骤D;步骤D.由文件系统中读取各目标存储地址中的全部待分析网络数据流,作为各个待选网络数据流,并获得各待选网络数据流分别对应的采集时间,进而获得其中采集时间位于目标时间段内的各个待选网络数据流,作为目标抽取请求的响应。2.根据权利要求1所述一种实时流量留存和批量抽取方法,其特征在于,执行步骤A之前,还包括如下操作:操作,以目标时间段开始时间
‑
目标时间段开始时间*5%的结果,作为新目标时间段开始时间,以目标时间段结束时间
‑
目标时间段结束时间*5%的结果,作为新目标时间段结束时间,进而由新目标时间段开始时间、以及新目标时间段结束时间,构成新目标时间段;然后步骤A中,判断各待分析键中是否存在与目标聚合key相同的聚合key、且该聚合key所对应各时间标记信息中存在位于新目标时间段中的各时间标记信息的各个待分析键,是则获得各待分析键中与目标聚合key相同的聚合key、且该聚合key所对应位于新目标时间段中的各时间标记信息的各个待分析键,并获得该各个待分析键分别所对应的待分析值,作为各个待选值,然后进入步骤B;否则关于目标抽取请求的响应为空。3.根据权利要求2所述一种实时流量留存和批量抽取方法,其特征在于:所述步骤A中,基于各待分析键按其时间标记信息升序的排序,依次遍历各待分析键,首先判断各待分析键中是否存在时间标记信息大于或等于新目标时间段开始时间的待分析键,是则获得各待分析键中第一个时间标记信息大于或等于新目标时间段开始时间的待分析键,并继续获得该待分析键后时间标记信息小于或等于新目标时间段结束时间的各个待分析键,进而获得该所获各待分析键分别对应的待分析值,作为各个待选值,然后进入步骤B;否则关于目标抽取请求的响应为空。4....
【专利技术属性】
技术研发人员:李华蓉,赵小磊,赵康,郝元,檀学峰,
申请(专利权)人:江苏省海量数据技术研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。