一种大规模流量中基于cookieID的NAT识别方法技术

技术编号:16069066 阅读:236 留言:0更新日期:2017-08-25 08:27
本发明专利技术公开了一种大规模流量中基于cookieID的NAT识别方法。本方法为:1)解析网络数据包,从网络数据包中提取完整源信息、UserAgent、cookieID并入库;2)计算该库中相同源IP、目的IP的cookieID数量,以及计算该库中相同源IP、目的IP的UserAgent数量;3)根据步骤2)的计算结果识别出NAT网关及NAT网关的用户规模。本发明专利技术不仅能更快的对NAT属性进行识别,而且能够对NAT规模进行判定。

A NAT recognition method based on cookieID in large scale traffic

The invention discloses a NAT identification method based on cookieID in large-scale traffic. The method is as follows: 1) analysis of network data packets, extract the complete source information, UserAgent, cookieID from the network data package and storage; 2) the number of cookieID to calculate the same source in the library IP, object IP, and calculate the same source in the library of IP, IP UserAgent; 3) according to step 2) the results identify the NAT gateway and NAT gateway user scale. The invention not only can identify the NAT attribute more quickly, but also can judge the size of the NAT.

【技术实现步骤摘要】

本专利技术涉及一种大规模流量中基于cookieID的NAT识别方法
技术介绍
目前主流NAT(NetworkAddressTranslation,网络地址转换)识别方法主要采用被动检测方法,其方法是通过被动监听网络数据流量,分析数据包的源信息(源IP、源PORT、目的IP、目的PORT)、及内容信息来进行用户身份判断。从而佐证源IP是否是NAT网关。如果推测源IP为NAT网关,后继可判定其规模大小。根据各种识别方法的不同特点,大致上可以把现有的NAT被动检测方法分为两个大的类别,分别为:基于TCP/IP协议特征字段的识别方法、基于应用层信息的识别方法。无论是基于TCP/IP协议特征字段识别还是基于应用层信息识别都是基于外显特征、协议特点等对NAT网关进行有效识别。在大数据时代的今天,这种基于特征的检测手段对计算资源消耗巨大。而本检测方法适用于大规模流量中基于cookieID与用户源信息关联的手段对NAT网关进行识别。在HTTP协议中,为了便于Web网站辨别用户身份,从而有效地处理客户端与Web服务器之间的状态信息或内容信息,定义了一个cookie数据值。当用户浏览某个网站时,Web服务器将生成一个包含有用户ID、时间日期等信息的Cookie值,并将该Cookie值连同用户访问的相应内容一并返回给请求访问的浏览器,浏览器则将其存储于用户本地的终端中。当下次该用户再次浏览同一个网站时,用户会将上次保存在本地的Cookie值一并发送,网站通过该Cookie值便可以得到用户信息了。一般情况下,对于首次访问该网站的用户,Web服务器会在Cookie值中设置一个有效期。在有效期内,同一个网站下不同的用户的Cookie值中的用户ID是不同的。运营商经常利用一些知名网站的CookieID来对动态主机、NAT主机进行标识,进而做一些与网络测量、优化服务等相关的工作。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种大规模流量中基于cookieID的NAT识别方法本专利技术从已知的NAT检测方法出发,通过对网络数据包应用层信息中的cookieID进行识别,不仅能对NAT属性进行识别,而且能够对NAT规模进行判定。本专利技术的技术方案为:一种大规模流量中基于cookieID的NAT识别方法,其步骤为:1)解析网络数据包,从网络数据包中提取完整源信息、UserAgent、cookieID并入库;2)计算该库中相同源IP、目的IP的cookieID数量,以及计算该库中相同源IP、目的IP的UserAgent数量;3)根据步骤2)的计算结果识别出NAT网关及NAT网关的用户规模。将相同源IP、目的IP的cookieID数量排序靠前的源IP识别为NAT网关,将该源IP、目的IP对应的UserAgent数量识别为该NAT网关的用户规模。利用Hash计算相同源IP、目的IP的cookieID数量并进行排序;其中,以源IP、目的IP作Key,计算cookieID数量。利用Hash计算相同源IP、目的IP的cookieID数量并进行排序;其中,以源IP、目的IP和cookieID作Key,计算cookieID数量。利用Hash计算相同源IP、目的IP的UserAgent数量并进行排序;其中,以源IP、目的IP作Key,计算UserAgent数量。利用Hash计算相同源IP、目的IP的UserAgent数量并进行排序;其中,以源IP、目的IP和UserAgent作Key,计算UserAgent数量。所述完整源信息包含源IP、源PORT、目的IP、目的PORT。所述步骤2)中,首先利用源PORT、目的PORT对库中的信息进行过滤,然后计算该库中相同源IP、目的IP的cookieID数量,以及计算该库中相同源IP、目的IP的UserAgent数量。与现有技术相比,本专利技术的积极效果为:本专利技术主要的优势在于:能够更快识别出NAT,以及对NAT规模进行判定。使用CookieID能准确识别出NAT;使用User-Agent能准确计算出NAT规模;使用国内外知名网站CookieID能对国内外NAT进行识别。本专利技术根据网络数据包应用层信息中的cookieID进行识别NAT。为了对国内外NAT设备进行识别以及主机数的确定;选取国内外互联网上有着超高流量的网站。通过实验确定使用第三方CookieID为:中国的BAIDUID;国外的RNLBSERVERID。附图说明图1为NAT网络结构图。图2为本专利技术的方法流程图。具体实施方式下面,结合具体的实施例对本专利技术进行详细说明。如图1所示,ICP(互联网内容提供商)获取ISP(互联网服务器提供商)的大规模流量数据。本方法采取分析该大规模数据流量,从而识别NAT网关及NAT网关的用户规模。具体实现步骤如图2所示,包括:(1)根据网络数据包各层协议,解析数据包内容;(2)提取完整源信息(即包含源IP、源PORT、目的IP、目的PORT)、UserAgent、cookieID等并入库;提取端口信息,即源PORT、目的PORT,可以区分Web服务器的服务类型;同一个IP服务器可能承载多个服务,不同用户可能使用不同的服务,提取端口信息,会提高分析的准确性。(3)利用Hash计算相同源IP、目的IP的cookieID数量并进行排序;(key=[源IP、目的IP、cookieID],value=count,即cookieID数量);其中,将cookieID作为key的一部分,目的是计算同源同目的对应cookieID的去重后个数,因此需要将其放到key值里。(4)利用Hash计算相同源IP、目的IP的UserAgent数量并进行排序;(key=[源IP、目的IP、UserAgent],value=count,即UserAgent数量);其中,将UserAgent作为key的一部分,目的是计算同源同目的对应UserAgent的去重后个数,因此需要将其放到key值里。(5)关联分析(3)、(4)的数据结果得出可能是NAT网关的IP列表及使用该NAT网关的用户规模。模拟分析步骤为保护用户隐私,采用模拟数据,分析步骤及方法如下:a)基于网络数据包各层协议,解析获取的网络数据包,提取完整源信息。源信息包括源IP、源PORT、目的IP、目的PORT、UserAgent、cookieID等。b)将上一步的结果入库,例如表1所示。c)分析表1所示数据,以源IP+目的IP作Key,计算cookieID数量,并排序,如表2。d)分析表1所示数据,以源IP+目的IP作Key,计算UserAgent数量,并排序,入表3。分析:Cookie是由Web服务器保存在用户浏览器上的小文本文件,它包含有关用户的信息。由此可见,在相同源IP、目的IP的情况下,如果该源IP只有一个用户,cookie应该仅有一个或数量有限的几个。因此,在相同源IP、目的IP的情况下,cookie个数越多,该源IP是NAT网关的可能性越高。Web服务器通常通过UserAgent来确定用户浏览该Web站点的操作环境,主要包括操作系统、浏览器类型、浏览器渲染引擎等。通常自然人用户访问Web站点的操作环境并不会时常变换。因此,在相同源IP、目的IP的情况下,UserAgen本文档来自技高网
...
一种大规模流量中基于cookieID的NAT识别方法

【技术保护点】
一种大规模流量中基于cookieID的NAT识别方法,其步骤为:1)解析网络数据包,从网络数据包中提取完整源信息、UserAgent、cookieID并入库;2)计算该库中相同源IP、目的IP的cookieID数量,以及计算该库中相同源IP、目的IP的UserAgent数量;3)根据步骤2)的计算结果识别出NAT网关及NAT网关的用户规模。

【技术特征摘要】
1.一种大规模流量中基于cookieID的NAT识别方法,其步骤为:1)解析网络数据包,从网络数据包中提取完整源信息、UserAgent、cookieID并入库;2)计算该库中相同源IP、目的IP的cookieID数量,以及计算该库中相同源IP、目的IP的UserAgent数量;3)根据步骤2)的计算结果识别出NAT网关及NAT网关的用户规模。2.如权利要求1所述的方法,其特征在于,步骤3)中,将相同源IP、目的IP的cookieID数量排序靠前的源IP识别为NAT网关,将该源IP、目的IP对应的UserAgent数量识别为该NAT网关的用户规模。3.如权利要求1或2所述的方法,其特征在于,利用Hash计算相同源IP、目的IP的cookieID数量并进行排序;其中,以源IP、目的IP作Key,计算cookieID数量。4.如权利要求1或2所述的方法,其特征在于,利用Hash计算相同源IP、目的IP的co...

【专利技术属性】
技术研发人员:徐安林熊刚苟高鹏石俊峥
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1