一种自动识别流量并提取应用规则的方法及装置制造方法及图纸

技术编号:20824962 阅读:19 留言:0更新日期:2019-04-10 07:16
一种自动识别流量并提取应用规则的装置涉及信息技术领域,尤其是网络监管的流量自动识别领域。本发明专利技术由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成。本发明专利技术在没有提供流量模型指纹的情况下可以实现通过自动学习分析网络流量识别出网络应用流量类型,并且自动学习到的流量特征能生成规则特征库。本发明专利技术的推广可以减少人员的工作量,提高工作效率。

【技术实现步骤摘要】
一种自动识别流量并提取应用规则的方法及装置
本专利技术涉及信息
,尤其是网络安全监管方面的流量自动识别领域。
技术介绍
随着互联网流量不断扩充,从2G网,3G网,4G网,及后面演变到5G网,这种演变导致互联网应用流量不断扩容,流量的多样化,再加上互联网应用更新频繁和新的互联网应用快速诞生!网络监管要面对这种庞大的网络数据流和变化多端的网络数据流量,用传统的人工流量分析和应用规则提取,已经很难解决监管的及时性及网络的安全性,并且投入大量的人力和时间也不能完全解决该问题,所以急需要一种新的方法应对该情况。目前主要的方法是用互联网流量与存在的流量模型指纹匹配来自动化识别。然而基于这种方法存在的缺点是:1.没有考虑新的流量类型不断增多,更新频繁的流量类型没有流量模型指纹匹配;2.流量模型指纹所依赖的特征规则库无法自动生成;3.无法自动更新规则库;4.无法快速自动识别网络数据流量和流量趋势图。本专利技术在没有提供流量模型指纹的情况下可以实现通过自动学习分析网络流量识别出网络应用流量类型,并且自动学习到的流量特征能生成规则特征库。本专利技术的推广可以减少人员的工作量,提高工作效率。共有技术HOST规则特征就是一个能表示应用网络数据会话的负载中标准字段中host特征表达式,如百度的host规则特征是pkt.payload~"Host:[-~]*\.baidu.com*\r\n"。域名正则匹配规则就是针对http流量中的代表域名字段(host)的匹配规则,如:pkt.payload~"Host:[-~]*xxx*\r\n"。规则指纹库就是以前分析总结出来的网络应用的流量的规则特征库。http的标准头部特征为http.request.method时,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed。标准字段是HTTP请求时,流量的头部特征包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData。http的标准头部特征的独有属性就是针对特殊应用自己独有的HTTP的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的。HTTP流量与非HTTP流量及常用的流量抓取工具:1.WireShark是一款常见的网络数据包分析工具。该软件可以在线截取各种网络封包,显示网络封包的详细信息,也可分析已有的报文数据,如由tcpdump/WinDump、WireShark等采集的报文数据。WireShark提供多种过滤规则,进行报文过滤。使用者可借助该工具的分析功能,获取多种网络数据特征。2.Tcptrace是一款分析TCP流量数据文件的工具,它的输入包括多种的基于报文采集程序输出的文件,如tcpdump,snoop,etherpeek,HPNetMetrix和WinDump。使用Tcptrace可以获得每个通信连接的各种信息,包括:持续时间,字节数,发送和接收的片段,重传,往返时间等,也可以生成许多图形,用于使用者的后续分析。3.QPA是一款开源的基于进程抓包的实时流量分析软件。其基于进程抓包的优势,能够实时准确判定每个包所属进程,基于正则表达式书写规则,能提取IP、端口、报文长度与内容等维度特征;QPA按流量类型自动归类,分析简便,优于基于一条条会话的分析模式。4.Tstat是在Tcptrace的基础上进一步开发而来,可以在普通PC硬件或者数据采集卡进行在线的报文数据采集。除此之外,Tstat还可分析已有的数据报文,支持各种dump格式,如libpcap库支持的格式等。双向的TCP流分析可得到新的统计特征,如阻塞窗口大小、乱序片段等,这些信息在服务器和客户端有所区分,还可区分内网主机和外网主机。5.CapAnalysis是一款有效的网络流量分析工具,适用于信息安全专家,系统管理员和其他需要分析大量已捕获网络流量的人员。CapAnalysis通过索引PCAP文件的数据集,执行并将其内容以多种形式转化,从包含TCP,UDP或ESP流的列表,到将其连接以地理图形的方式表示出来。可安装部署到debian32/64位,Ubuntu32/64位系统。6.Xplico的目标是提取互联网流量并捕获应用数据中包含的信息。解码控制器,IP/网络解码器,程序集和可视化系统构成了一个完整的Xplico系统。该系统支持对HTTP,SIP,IMAP,POP,SMTP,TCP,UDP,IPv6等协议的分析。非HTTP流量能够提取的内容特征包括:IP、端口、报文长度、协议类型、内容。应用服务器ip地址与应用协议名映射表,由网络监管方记录已知的应用服务器ip和与之对应的应用协议名形成应用服务器ip地址与应用协议名映射表。
技术实现思路
针对现有技术中网络监管自动化处理不足的缺陷,实现本专利技术的一种自动识别流量并提取应用规则的装置由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成;本专利技术的具体实现步骤包括:1)网络应用流量的分类①流量分类模块读取网络应用流量,根据http流量特征表由流量对比器将网络应用流量分成http流量和非http流量,并将http流量和非http流量发送给流量过滤器;②http流量特征表包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;③流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,本文档来自技高网
...

【技术保护点】
1.一种自动识别流量并提取应用规则的装置,其特征在于由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成;本专利技术的具体实现步骤包括:1)网络应用流量的分类①流量分类模块读取网络应用流量,根据http流量特征表由流量对比器将网络应用流量分成http流量和非http流量,并将http流量和非http流量发送给流量过滤器;②http流量特征表包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension‑mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content‑Type:,User‑Agent:,Host:,userToken:,Cookie:,Q‑UA2:,Q‑GUID:,QQ‑S‑ZIP:,Apn‑Type:,Date:,Pragma:,Range:,Location:,Server:,Last‑modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi‑id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;③流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容属于http流量特征表所记录的内容时,标记网络应用流量为http流量,流量对比器将http流量发送给流量过滤器;④流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容不属于http流量特征表所记录的内容时,标记网络应用流量为非http流量,流量对比器将非http流量发送给流量过滤器;2)网络应用流量的过滤①流量过滤器接收http流量并提取http流量的内容与流量规则指纹库中的http流量规则指纹集合对比,当http流量的内容在http流量规则指纹集合中有记录时放弃http流量;当http流量的内容在http流量规则指纹库集合中没有记录时标记http流量为未匹配的http流量;流量过滤器将未匹配的http流量发送给流量类型判断模块;②流量过滤器接收非http流量并提取非http流量的IP、端口、报文长度、协议类型、内容,流量过滤器使用16进制特征转换器将非http流量的IP、端口、报文长度、协议类型、内容转换成16进制的非http流量特征指纹;流量过滤器将非http流量特征指纹与流量规则指纹库中的非http流量规则指纹集合对比,当非http流量特征指纹在非http流量规则指纹集合中有记录时放弃非http流量;当非http流量特征指纹在非http流量规则指纹库集合中没有记录时标记非http流量为未匹配的非http流量;流量过滤器将未匹配的非http流量发送给非http流量记录器;3)http流量自动学习生成 http流量规则指纹①流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含域名字符串,流量类型判断模块将未匹配的http流量发送给域名和网页title分析器;域名的自动化判断方法为:1.中文域名格式为: *.中国,*.公司,*.网络,*必须含中文,.必须是英文输入法下的点号;2.不超过20个字符,且只能包括字符、数字、和破折号,破折号不能在开始和结尾,不能有两个连续的破折号;3.英文域名以.cn结尾的纯英文域名,格式为:*.cn,*必须是英文;②流量类型判断模块预设有app应用商店的软件包名录和规则特征字符串池以及服务器IP地址集;app应用商店的软件包名录来源于网络采集;规则特征字符串池中的规则特征字符串来源于网络监管方已知网络应用流量的特征;服务器IP地址集来源于网络监管方已知的服务器IP地址;③流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含有app应用商店的软件包名并且app应用商店的软件包名在app应用商店的软件包名录中有记录时,流量类型判断模块将未匹配的http流量发送给特征字符...

【技术特征摘要】
1.一种自动识别流量并提取应用规则的装置,其特征在于由流量分类模块、流量过滤模块、http流量自动学习分析模块、非http流量特征提取模块组成;流量分类模块由流量对比器和http流量特征表组成;流量过滤模块由流量过滤器、流量规则指纹库组成;http流量自动学习分析模块由流量类型判断模块、特征字符串匹配分析器、域名和网页title分析器、服务器ip地址分析器组成;非http流量特征提取模块由非http流量记录器和16进制特征转换器组成;本发明的具体实现步骤包括:1)网络应用流量的分类①流量分类模块读取网络应用流量,根据http流量特征表由流量对比器将网络应用流量分成http流量和非http流量,并将http流量和非http流量发送给流量过滤器;②http流量特征表包括三部分,分别是:http的标准头部特征,http的标准字段和http的独有属性;http的标准头部特征为http.request.method,其值包括:GET,POST,HEAD,PUT,DELETE,OPTIONS,CONNECT,TRACE,PATCH,MOVE,COPY,LINK,UNLINK,WRAPPED,Extension-mothed;http的标准字段是http请求时,流量的头部特征,包括:Referer:,rf:,Origin:,Content-Type:,User-Agent:,Host:,userToken:,Cookie:,Q-UA2:,Q-GUID:,QQ-S-ZIP:,Apn-Type:,Date:,Pragma:,Range:,Location:,Server:,Last-modified:,PostData;http的独有属性就是针对特殊应用独有的http的标准字段,例如:qyi-id是爱奇艺http流量独有的,qqread是腾讯阅读http流量独有的;③流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容属于http流量特征表所记录的内容时,标记网络应用流量为http流量,流量对比器将http流量发送给流量过滤器;④流量对比器提取网络应用流量的IP、端口、报文长度、协议类型、内容,并将所提取的内容与http流量特征表比对,当网络应用流量的内容不属于http流量特征表所记录的内容时,标记网络应用流量为非http流量,流量对比器将非http流量发送给流量过滤器;2)网络应用流量的过滤①流量过滤器接收http流量并提取http流量的内容与流量规则指纹库中的http流量规则指纹集合对比,当http流量的内容在http流量规则指纹集合中有记录时放弃http流量;当http流量的内容在http流量规则指纹库集合中没有记录时标记http流量为未匹配的http流量;流量过滤器将未匹配的http流量发送给流量类型判断模块;②流量过滤器接收非http流量并提取非http流量的IP、端口、报文长度、协议类型、内容,流量过滤器使用16进制特征转换器将非http流量的IP、端口、报文长度、协议类型、内容转换成16进制的非http流量特征指纹;流量过滤器将非http流量特征指纹与流量规则指纹库中的非http流量规则指纹集合对比,当非http流量特征指纹在非http流量规则指纹集合中有记录时放弃非http流量;当非http流量特征指纹在非http流量规则指纹库集合中没有记录时标记非http流量为未匹配的非http流量;流量过滤器将未匹配的非http流量发送给非http流量记录器;3)http流量自动学习生成http流量规则指纹①流量类型判断模块接收未匹配的http流量并解析未匹配的http流量,当未匹配的http流量中包含域名字符串,流量类型判断模块将未匹配的http流量发送给域名和网页title分析器;域名的自动化判断方法为:1.中文域名格式为:*.中国,*.公司,*.网络,*必须含中文,.必须是英文输入...

【专利技术属性】
技术研发人员:王娜蔡莎林飞古元毛华阳华仲锋
申请(专利权)人:北京亚鸿世纪科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1