【技术实现步骤摘要】
web页面分割方法及装置
本专利技术涉及网络通信系统,具体涉及一种web页面分割方法及装置。
技术介绍
网络流量测量和网络性能优化中一项重要指标是页面响应速度,通过测量属于同一个页面的数据包的传输速度来测量页面响应速度,确定属于同一个页面的数据包的技术手段被称为web页面分割。目前,web页面分割的方法包括两种,解析HTTP方式和不解析HTTP方式:第一,解析HTTP方式,针对网络流量,在流表中记录各个请求数据包的HTTP头部的REFRER字段和各个请求数据包的目的URL,将请求嵌入对象文件(例如JPG文件、PNG文件等等)的请求数据包的REFERER字段的域值即URL与请求容器对象文件(例如HTML文件、HTM文件、SHTML文件等等)的请求包的目的URL进行对比,若二者相同则表明该嵌入对象文件属于该容器对象文件的目的URL所指示的页面。并通过根据请求数据包和响应数据包之间的对应关系组合出属于同一个web页面的数据包,也即对不同的web页面进行了分割。第二,不解析HTTP方式,基于大多数浏览器发送的请求容器对象文件的请求数据包的大小显著地大于请求嵌入对象文件的请 ...
【技术保护点】
一种web页面分割方法,其特征在于,包括:在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件 ...
【技术特征摘要】
1.一种web页面分割方法,其特征在于,包括:在预定时间段内,根据web客户端发送给web服务器的各个请求数据包的TCP头部信息和IP头部信息,确定请求数据包的数据包属性值集合;其中,所述请求数据包用于请求获取构成web页面的文件,所述请求数据包的数据包属性值集合包括:相同源IP地址的相邻两个请求数据包的时间间隔,和/或相同源IP地址的相邻两个请求数据包的HTTP净载荷长度差值;并根据各个请求数据包的HTTP头部的REFERER字段,识别出各个请求数据包所请求的文件的文件类型;所述文件类型包括:容器对象文件、嵌入对象文件或独立对象文件,所述独立对象文件包括RAR文件、TXT文件或PDF文件;确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合;根据所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包以及与所确定的请求数据包对应的响应数据包。2.根据权利要求1所述的方法,其特征在于,在所述预定时间段内,确定请求数据包的数据包属性值集合,具体包括:在所述预定时间段内,将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;其中,所述滑动窗口的时间长度小于或等于所述预定时间段的时间长度。3.根据权利要求2所述的方法,其特征在于,确定当前滑动窗口中的属性值集合中的属性值,具体包括:在当前滑动窗口的时间长度内提取各个请求数据包的TCP头部信息和IP头部信息,并从提取的TCP头部信息和IP头部信息中获取各个请求数据包的源IP地址和目的IP地址,并确定各个请求数据包的HTTP净载荷长度;将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一时间间隔;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二时间间隔;和/或,将每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第一HTTP净载荷长度差值;将每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值的平均值确定为相同源IP地址的相邻两个请求数据包的第二HTTP净载荷长度差值。4.根据权利要求1所述的方法,其特征在于,识别出各个请求数据包所请求的文件的文件类型,具体包括:在所述预定时间段内,提取当前滑动窗口中的各个请求数据包的HTTP头部的REFERER字段;如果请求数据包的REFERER字段中的URL是静态URL,提取该静态URL的最后一个分隔符“.”至该URL最后一个字符之间的字符串为该请求包的所请求的文件的文件类型;如果请求数据包的REFERER字段中的URL是动态URL,提取该动态URL的最后一个分隔符“.”至该URL最后一个分隔符“?”之间的字符串为该请求包的所请求的文件的文件类型。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所确定的请求容器对象文件的请求数据包的REFERER字段中的URL存储在URL库,在无法根据请求数据包的REFERER字段中的URL识别该请求数据包所请求的文件的文件类型的情况下,如果所述URL库中存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为容器对象文件,如果所述URL库中不存在的一个URL与该请求数据包的REFERER字段中的URL相同,确定该请求数据包所请求的文件的文件类型为嵌入对象文件。6.根据权利要求3所述的方法,其特征在于,确定属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,具体包括:确定请求容器对象文件的请求数据包或者请求独立对象文件的请求数据包为一个web页面的第一个数据包;每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的时间戳的差值小于或等于所述第一时间间隔;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的时间戳的差值小于或等于所述第二时间间隔;和/或,每两个相邻的具有相同源IP地址、相同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第一HTTP净载荷长度差值;每两个相邻的具有相同源IP地址、不同目的IP地址的请求数据包的HTTP净载荷长度差值小于或等于所述第二HTTP净载荷长度差值。7.根据权利要求1或6所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括:将当前滑动窗口中确定的请求数据包的数据包属性值集合中当前属性的属性加权值与上一个滑动窗口中确定的相应属性的属性加权值的和值确定为当前属性的属性值;根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合,和所确定的属于同一个web页面的请求数据包所请求的文件的文件类型以及属于同一个web页面的请求数据包的数据包属性值集合,确定属于同一个页面的请求数据包。8.根据权利要求7所述的方法,其特征在于,确定属于同一个页面的请求数据包,具体包括:在当前滑动窗口中,根据在当前滑动窗口中所确定的请求数据包的数据包属性值集合和请求数据包所请求的文件的文件类型,以及所确定的属于同一个web页面的请求数据包所请求的文件的文件类型和属于同一个web页面的请求数据包的数据包属性值集合,确定得到多个web页面的情况下,分别确定这多个web页面的请求容器对象文件的请求数据包的REFERER字段中的URL,将这多个URL中在预定的历史时间段内记录的URL进行对比,如果这多个URL中的一个URL在历史时间段内记录的URL的请求数量多于这多个URL中其它URL在历史时间段内记录的URL的请求数量,将该URL对应的分割得到的web页面作为最终分割得到的web页面。9.一种web页面分割装置,其特征在于,包括:第...
【专利技术属性】
技术研发人员:曾彬,
申请(专利权)人:中国移动通信集团湖南有限公司,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。