一种高速镜像网络流量中外发文件的提取方法及装置制造方法及图纸

技术编号:17056332 阅读:24 留言:0更新日期:2018-01-17 20:17
本发明专利技术公开了一种高速镜像网络流量中外发文件的提取方法及装置,该方法包括以下步骤:为监听的每个四元组标识的TCP数据,创建一个Hash桶;每个TCP数据包到来时根据四元组标志信息,将TCP数据放入相应的HASH桶;对放入相应HASH桶中的TCP数据进行协议识别和协议数据解析;接收经过协议数据解析得到的消息,并从该消息中提取文档属性信息;根据文档属性提取文档数据,并将提取的文档数据存储在内存文件系统上。通过本发明专利技术的方案,能够快速有效的提取外发文档,能够保证高速流量中的文档数据得以处理,为流量审计、病毒检测等提供条件。

A method and device for extracting Chinese and foreign files from high speed mirror network traffic

The invention discloses a device and a high-speed network traffic image extraction method of Chinese and foreign documents, the method comprises the following steps: TCP data monitoring for each of the four tuple ID, create a Hash barrel; each TCP when packets arrive according to the four tuple symbol information, the TCP data into HASH corresponding to the barrel; protocol identification and protocol parsing into corresponding TCP data HASH in the barrel; after receiving protocol parsing messages, and extracting document attribute information from the message; according to the document attribute extraction and extraction of document data, document data stored in memory file system. Through the scheme of the invention, the outgoing document can be extracted quickly and effectively, and the document data in high-speed traffic can be processed, providing conditions for traffic audit, virus detection and so on.

【技术实现步骤摘要】
一种高速镜像网络流量中外发文件的提取方法及装置
本专利技术涉及数据安全领域,具体涉及一种高速镜像网络流量中外发文件的提取方法及装置。
技术介绍
对企业外网出口交换机或路由器的端口镜像流量进行审计是防止企业敏感数据通过网络外泄的有效途径。如何提取出端口镜像流量中的文档,并对提出的文档进行深度解析和精确内容匹配是实现流量审计的关键。端口镜像流量中既包含外发文档,也包含接收文档,只有外发文档才是数据防泄漏DLP的关注点。端口镜像流量的解析主要包含会话还原、协议识别、协议分析三个过程。会话还原是指对端口镜像流量中的网络数据包进行处理,完成无效数据包丢弃、乱序数据包排序等主要工作。协议识别是指依据端口,协议特征等把还原出的网络会话数据归属到对应的应用协议。协议分析是指按照RFC的协议规则,对识别出的网络会话进行分析,提取会话中传输的内容,提取正文或附件的内容。在实际应用中,企业外网中的镜像流量主要是HTTP流量和SMTP流量。现有技术文献:文献1:CN104318162A,源代码泄露检测方法及装置。该专利文献1通过拦截网络数据流,对数据流进行协议解析获得字符流,根据预设的检测字符串和/或语法分析库函数判断字符流中是否包含源代码。文献1的主要目的在于根据检测字符串的手段判断字符流是否包含源码,若是则阻断所述网络数据流。然而文献存在以下缺点:(1)其并不针对高速流量的处理过程。(2)其主要是判定字符流是否包含特定关键字。(3)未采用并发的协议解析,导致数据处理速度慢。本专利技术主要是从内容还原的角度,注重说明高速流量中如何从各个协议会话数据中析取文件的内容。从而为后续的审计,标识和加密等过程建立条件。
技术实现思路
为解决上述技术问题,本专利技术提供了一种高速镜像网络流量中外发文件的提取方法,该方法包括以下步骤:(1)为监听的每个四元组标识的TCP数据,创建一个HASH桶;(2)每个TCP数据包到来时根据四元组标识信息,将TCP数据放入相应的HASH桶;(3)对放入相应HASH桶中的TCP数据进行协议识别和协议数据解析;(4)接收协议数据解析得到的消息,并从该消息中提取文档属性信息;(5)根据该文档属性信息提取文档数据,并将提取的文档数据存储在内存文件系统上;其中,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析。根据本专利技术的实施例,优选的,在所述步骤(1)之前还包括步骤:在交换机或路由器上,将一个或多个源端口的数据流量转发到某一个指定端口来实现对网络数据的监听。根据本专利技术的实施例,优选的,所述步骤(2)之后还包括:TCP会话结束时,关闭为TCP数据创建的HASH桶。根据本专利技术的实施例,优选的,所述步骤(3)中的协议识别包括:根据会话数据中应用请求的命令字和相应的响应代码,确定应用协议的类型,包括:HTTP、SMTP或者FTP协议。根据本专利技术的实施例,优选的,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析具体包括:每个TCP会话结束后,会给线程池发一个消息,线程池得到消息后,立刻建立一个线程,来处理这个TCP会话。为解决上述技术问题,本专利技术提供了一种高速镜像网络流量中外发文件的提取装置,该装置包括:会话还原模块,为监听的每个四元组标识的TCP数据,创建一个HASH桶,每个TCP数据包到来时根据四元组标识信息,将TCP数据放入相应的HASH桶,TCP会话结束时,关闭为TCP数据创建的HASH桶,发送消息给协议解析模块;协议解析模块,对放入相应HASH桶中的TCP数据进行协议识别和协议数据解析,协议数据解析完成后,发送消息给所述文档存储模块;文档存储模块,接收协议解析模块发送的消息,并从该消息中提取文档属性信息,根据该文档属性信息提取文档数据,并将提取的文档数据存储在内存文件系统上;其中,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析。根据本专利技术的实施例,优选的,转发模块,将交换机或路由器一个或多个源端口的数据流量转发到某一个指定端口来实现对网络的监听。根据本专利技术的实施例,优选的,根据会话数据中应用请求的命令字和相应的响应代码,确定应用协议的类型,包括:HTTP、SMTP或者FTP协议。根据本专利技术的实施例,优选的,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析具体包括:每个TCP会话结束后,会给线程池发一个消息,线程池得到消息后,立刻建立一个线程,来处理这个TCP会话。为解决上述技术问题,本专利技术提供了一种计算机存储介质,其包括计算机程序指令,当执行该计算机程序指令时,执行上述方法之一。本专利技术的技术方案取得了以下技术效果:通过本专利技术提出的高速流量中文档的提取方法及装置,能够快速有效的提取外发文档,能够保证高速流量中的文档数据得以处理,为流量审计、病毒检测等提供条件。附图说明图1是本专利技术的系统架构图具体实施方式端口镜像:在交换机或路由器上,将一个或多个源端口的数据流量转发到某一个指定端口来实现对网络的监听。在企业中用镜像功能,可以很好地对企业内部的网络数据进行监控管理,在网络出故障的时候,可以快速地定位故障。网络协议:为计算机网络中进行数据交换而建立的规则、标准或约定的集合。协议识别:是指对L7层应用协议的网络数据,按照深度包检测技术,在分析报文头的基础上结合不同的应用协议的特征,综合判断网络数据所属的应用。协议解析:对已经判定协议类型的网络流量数据按照协议格式,提取信息的过程。DLP:DataLossPrevention数据丢失防护,或称数据泄漏防护(DataLeakagePrevention)是目前信息领域主流的企业信息安全和数据防护系统的名称。DLP是通过一定的数据处理和分析方法,结合企业的信息安全管理策略,对企业中所有电子信息和数据进行分类分级管控,防止企业中的信息资产或关键数据流失、泄密或非受控扩散。本专利技术专利提出的高速流量中文件的提取方法,针对企业流量审计或安全防护等目的,解决了从高速网络流量中提取文档的技术难题。本方法从高速网络流量的流量解析入手,详细描述了会话还原,协议解析,文档解析提取等过程,形成了一种快速高效的网络流量中文档提取的解决方案。会话还原:将多个TCP包的数据,通过五元组和时间戳组装起来,组装过程中丢弃无效的TCP数据包,并调整TCP数据包的乱序现象。重组后的TCP会话数据能够有序反映应用层的数据传输情况。协议解析:在一个完整的会话数据中,根据会话数据中应用请求的命令字和相应的响应代码,先确定L7层应用协议的类型,比如HTTP、SMTP或者FTP等。确定协议类型后,根据协议的特定流程,解析协议内容中的传输文档。文档存储:高速网络流量中的文档数量巨大,字节容量大,需要快速保存在内存存储区域,然后再转存到硬盘上。<业务处理方法>本专利技术提供了一种高速镜像网络流量中外发文件的提取方法,该方法包括以下步骤:(1)为监听的每个四元组标识的TCP数据,根据四元组调用系统HASH函数创建一个HASH桶;所述四元组是指:源IP地址,目标IP地址,源端口号,目标端口号。(2)每个TCP数据包到来时根据四元组标志信息,将TCP数据放入相应的HASH桶;(3)对放入相应HASH桶中的本文档来自技高网
...
一种高速镜像网络流量中外发文件的提取方法及装置

【技术保护点】
一种高速镜像网络流量中外发文件的提取方法,该方法包括以下步骤:(1)为监听的每个四元组标识的TCP数据,创建一个HASH桶;(2)每个TCP数据包到来时根据四元组标识信息,将TCP数据放入相应的HASH桶;(3)对放入相应HASH桶中的TCP数据进行协议识别和协议数据解析;(4)接收协议数据解析得到的消息,并从该消息中提取文档属性信息;(5)根据该文档属性信息提取文档数据,并将提取的文档数据存储在内存文件系统上;其中,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析。

【技术特征摘要】
1.一种高速镜像网络流量中外发文件的提取方法,该方法包括以下步骤:(1)为监听的每个四元组标识的TCP数据,创建一个HASH桶;(2)每个TCP数据包到来时根据四元组标识信息,将TCP数据放入相应的HASH桶;(3)对放入相应HASH桶中的TCP数据进行协议识别和协议数据解析;(4)接收协议数据解析得到的消息,并从该消息中提取文档属性信息;(5)根据该文档属性信息提取文档数据,并将提取的文档数据存储在内存文件系统上;其中,所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析。2.根据权利要求1所述的方法,在所述步骤(1)之前还包括步骤:在交换机或路由器上,将一个或多个源端口的数据流量转发到某一个指定端口来实现对网络数据的监听。3.根据权利要求1所述的方法,所述步骤(2)之后还包括:TCP会话结束时,关闭为TCP数据创建的HASH桶。4.根据权利要求1所述的方法,所述步骤(3)中的协议识别包括:根据会话数据中应用请求的命令字和相应的响应代码,确定应用协议的类型,包括:HTTP、SMTP或者FTP协议。5.根据权利要求4所述的方法,所述步骤(3)中的协议数据解析包括:确定协议类型后,根据协议的特定流程,解析协议内容中的附件或文件;所述协议数据解析采用线程池实现高速镜像网络流量中的高并发TCP会话数据解析具体包括:每个TCP会话结束后,会给线程池发一个消息,线程池得到消息后,立刻建立一个线程,来处理这个TCP会话...

【专利技术属性】
技术研发人员:魏效征王志海喻波安鹏牛立伟
申请(专利权)人:北京明朝万达科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1