HTTP主动测量中仿真真实用户负载的方法及系统技术方案

技术编号:9829603 阅读:98 留言:0更新日期:2014-04-01 18:34
本发明专利技术公开了一种HTTP主动测量中仿真真实用户负载的方法及系统,方法包括:步骤1,从主页开始抓取待测量网站的每个网页;步骤2,计算所述待测量网站的每个网页的网页级别值;步骤3,模拟多个客户端,并令所述客户端根据所述网页级别值随机选择所述待测量网站的网页进行随机游走主动访问,从而对所述待测量网站的所述每个网页分别产生仿真真实用户访问的不同权值大小的负载。由此,可以对待测量网站的HTTP业务性能进行准确和全面的分析。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种HTTP主动测量中仿真真实用户负载的方法及系统,方法包括:步骤1,从主页开始抓取待测量网站的每个网页;步骤2,计算所述待测量网站的每个网页的网页级别值;步骤3,模拟多个客户端,并令所述客户端根据所述网页级别值随机选择所述待测量网站的网页进行随机游走主动访问,从而对所述待测量网站的所述每个网页分别产生仿真真实用户访问的不同权值大小的负载。由此,可以对待测量网站的HTTP业务性能进行准确和全面的分析。【专利说明】HTTP主动测量中仿真真实用户负载的方法及系统
本专利技术涉及计算机网络测量领域,特别涉及一种网页随机游走主动测量方法及系统。
技术介绍
由于万维网业务在因特网应用中的重要地位,Web流量的特征和HTTP协议的性能分析一直以来就是研究的热点。常用的HTTP业务性能分析方法包括被动分析法和主动测量法:被动分析法是通过分析服务器或客户端收集的大量包记录,从而建立HTTP业务不同层次相关参数的特征模式,如网页连接数、连接大小等;主动测量法是通过主动探测的方法来模拟不同负载与协议实现的HTTP业务,从而比较不同协议选项的性能差异,改进协议设计与协议实现。由于被动分析方法主要使用服务器或客户端日志信息和包记录,因而对于检验HTTP协议性能和Web流量特征有很多好处,但对端到端路径HTTP业务性能分析以及故障发现来说,缺乏足够的灵活性。而使用主动测量法可以灵活地模拟HTTP业务过程,通过HTTP业务响应及时地给出当前网络的HTTP性能变化,检测可能出现的性能异常并及时做出调整。传统的HTTP主动测量技术往往是简单地重复对服务器的上一个或多个资源的请求,其业务流量的形式单一,对服务器产生的负载压力比较片面。而真实用户的业务请求有一定的规律,比如:高质量的网页会获得比低质量的网页更多的请求。但传统的测量技术不能仿真出这种真实的业务负载,而是片面地产生单一的资源负载来衡量HTTP业务性能,因而并不能准确反映在真实用户负载下的HTTP业务性能的情况。因此,需要有一种更好的能仿真真实用户负载的HTTP主动测量技术,来准确地反映HTTP业务性能。本专利技术用于对一指定网站进行HTTP测量。只需要输入网站的主页,通过本方法就可以对该网站的各个网页分别产生近似于真实用户访问的不同权值大小的负载,从而能对HTTP业务性能进行准确和全面的分析。以下对本专利技术所用的一些技术做简要介绍。网络爬虫是搜索引擎的关键技术之一,它是一种计算机程序,不停地从互联网中下载网页,分析并抽取链接,并根据一定的爬行算法来维护下载队列以发现和搜集信息。网络爬虫是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。著名的PageRank算法(以下称为网页级别算法)是L Page, S.Brin提出的,网页级别算法的基本思想是:一个网页的重要性由它被引用的次数相关,被其他网页特别是那些已经被认定为“重要”的网页引用的次数越多也就重要。该算法在Google搜索引擎对查询结果排序的应用中有着重要的地位。网页级别除了考虑到入链数量的影响,还参考了网页质量因素,两者相结合获得了更好的网页重要性评价标准。如果一个网页节点接收到的其他网页指向的入链数量越多,那么这个网页越重要。指向网页的入链质量不同,质量高的网页会通过链接向其他网页传递更多的权重。所以越是质量高的网页指向某网页,则该网页越重要。网页级别算法刚开始赋予每个网页相同的重要性得分,通过迭代递归计算来更新每个网页节点的网页级别得分,直到得分稳定为止。互联网用户在上网时,往往有类似的网络行为:输入网址,浏览网页,然后顺着网页的链接不断打开新的网页。随机游走模型就是针对浏览网页的用户行为建立的抽象概念模型。在最初阶段,用户打开浏览器浏览第I个网页,用户在看完网页后,对网页内某个链接指向的网页感兴趣,于是点击该链接,进入第2个网页。用户不断重复以上过程,在相互有链接指向的网页之间跳转。如果对于某个网页所包含的所有链接,用户都没有兴趣继续浏览,则可能会在浏览器中输入另外一个网址,直接到达该网页,这个行为称为远程跳转。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。
技术实现思路
在HTTP主动测量中,针对传统测量方式不能有效仿真真实用户负载的问题,本专利技术的目的在于,提供一种基于网页级别算法的HTTP主动测量中仿真真实用户负载的方法,能对某网站的各个网页分别产生近似于真实用户访问的不同权值大小的负载,从而能对HTTP业务性能进行准确和全面的分析。为实现上述目的,本专利技术所提出的HTTP主动测量中仿真真实用户负载的方法,其特征在于,包括以下步骤:步骤1,从主页开始抓取待测量网站的每个网页,记录所述每个网页的超链接的第一类URL和内嵌资源对象的第二类URL,其中,所述第一类URL用于计算所述每个网页的网页级别值,所述第二类URL用于请求所述每个网页的所有内嵌资源对象;步骤2,赋予所述每个网页顺序的ID及相同分值,将所述分值按ID顺序排列并以向量R表示,设置矩阵A,若存在从网页i到网页j的所述第一类URL,则所述矩阵A的元素Bij的值为网页i所包含的所述第一类URL的数目的倒数,若不存在从网页i到网页j的所述第一类URL,则所述矩阵A的元素au的值为0,计算AR作为网页级别值,并通过迭代计算来更新所述网页级别值,进而计算出所述每个网页的最终网页级别值;步骤3,模拟多个客户端,并令所述客户端根据所述最终网页级别值随机选择所述待测量网站的网页进行随机游走主动访问,且所述随机游走主动访问都是先请求容器页面对象,再根据所述第二类URL并发地请求内嵌资源对象,从而对所述待测量网站的所述每个网页分别产生仿真真实用户访问的不同权值大小的负载。本专利技术所提出的HTTP主动测量中仿真真实用户负载的方法,其特征在于,所述步骤I具体为:步骤11,设置并初始化线性表1、线性表2,所述线性表I用于保存需要遍历的URL,所述线性表2用于保存已遍历过的URL,将所述待测量网站的主页的URL加入所述线性表I,初始化所述线性表2为空;步骤12,选择所述线性表I中的所述待测量网站的主页的URL,将该URL作为已遍历过的URL,从所述线性表1离开并加入所述线性表2 ;步骤13,根据所述待测量网站的主页的URL解析相应的网页,获取该网页所包含的所述第一类URL和所述第二类URL ;步骤14,设置链表1、链表2,所述第二类URL存入所述链表2,对于所述第一类URL,判断其是否属于所述待测量网站,若不属于,则丢弃,若属于,则将所述第一类URL存入所述链表1 ;步骤15,对于未丢弃的所述第一类URL,若其不在所述线性表1中也不在所述线性表2中,则加入所述线性表1中;步骤16,判断所述线性表1、所述线性表2的现有状态是否已满足结束条件,若满足,则进入步骤2,若不满足,则转步骤12,其中,所述结束条件可以是所述线性表1为空,或所述第一类、第二类URL的数量超过设定阈值。本专利技术本文档来自技高网
...

【技术保护点】
一种HTTP主动测量中仿真真实用户负载的方法,其特征在于,包括以下步骤:步骤1,从主页开始抓取待测量网站的每个网页,记录所述每个网页的超链接的第一类URL和内嵌资源对象的第二类URL,其中,所述第一类URL用于计算所述每个网页的网页级别值,所述第二类URL用于请求所述每个网页的所有内嵌资源对象;步骤2,赋予所述每个网页顺序的ID及相同分值,将所述分值按ID顺序排列并以向量R表示,设置矩阵A,若存在从网页i到网页j的所述第一类URL,则所述矩阵A的元素aij的值为网页i所包含的所述第一类URL的数目的倒数,若不存在从网页i到网页j的所述第一类URL,则所述矩阵A的元素aij的值为0,计算AR作为网页级别值,并通过迭代计算来更新所述网页级别值,进而计算出所述每个网页的最终网页级别值;步骤3,模拟多个客户端,并令所述客户端根据所述最终网页级别值随机选择所述待测量网站的网页进行随机游走主动访问,且所述随机游走主动访问都是先请求容器页面对象,再根据所述第二类URL并发地请求内嵌资源对象,从而对所述待测量网站的所述每个网页分别产生仿真真实用户访问的不同权值大小的负载。

【技术特征摘要】

【专利技术属性】
技术研发人员:张骏张广兴谢高岗徐川
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1