一种基于爬虫的自动化差异检测方法及装置制造方法及图纸

技术编号：9276525 阅读：101 留言：0更新日期：2013-10-24 23:31

公开了一种基于爬虫的自动化差异检测方法及装置。所述方法包括：获取第一Web系统的第一初始统一资源定位符（URL）以及第二Web系统的第二初始URL；基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一Web系统下的第一页面和第二Web系统下的第二页面，其中，在遍历过程中，执行以下处理：对抓取的第一页面和相应的第二页面进行渲染，分别产生第一网页图像和第二网页图像，对第一网页图像和第二网页图像进行相似性比较，当第一网页图像和第二网页图像不同时，产生差异页面信息，并且将所述差异页面信息存储在差异页面信息数据库中。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于爬虫的自动化差异检测方法及装置
本专利技术涉及一种自动化差异检测方法及装置，更具体地说，涉及一种基于爬虫的自动化差异检测方法及装置。
技术介绍
互联网上的Web系统经常会升级，有些升级仅影响了少数的页面，由于页面实现底层可能有耦合关系，为了保证整个Web系统的质量，测试人员往往需要回归所有的页面，人力消耗很大。差异（Diff）检测，是通过找出新旧系统的不同来进行回归检测的方法。现有的Web检测技术一般是通过浏览器驱动器操作页面，通过对HTML页面进行分析，定义一些断言的方式进行web自动化检测。例如，selenium、watir框架可提供这种web自动化检测方法。上述方案需要人工开发测试用例，但页面变化时，经常导致用例不可用，需要更新维护，人力成本较大；上述方案一般对页面的代码进行分析，如果不符合预期即认为是bug，而Web服务最终展现给用户的是可视化的页面，上述方案无法对页面的可视化效果进行验证；上述方案只能对指定的点进行验证。因此，为了减少人力成本，需要一种自动找出变化和不变的页面，同时保证回归检测的效率和质量的差异检测方法。
技术实现思路
本专利技术提供了一种自动化差异检测方法及装置。该方法可以对新旧两套Web系统进行自动化测试，快速产生差异测试报告，帮助用户直观准确地定位有差异的部分。根据本专利技术示例性实施例的一方面，提供了一种基于爬虫的自动化差异检测方法，所述方法包括：获取第一Web系统的第一初始统一资源定位符（URL）以及第二Web系统的第二初始URL；基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一web系统下的第一...
一种基于爬虫的自动化差异检测方法及装置

【技术保护点】
一种基于爬虫的自动化差异检测方法，所述方法包括：获取第一Web系统的第一初始统一资源定位符（URL）以及第二Web系统的第二初始URL；基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一web系统下的第一页面和第二web系统下的第二页面，其中，在遍历过程中，执行以下处理：对抓取的第一页面和相应的第二页面进行渲染，分别产生第一网页图像和第二网页图像，对第一网页图像和第二网页图像进行相似性比较，当第一网页图像和第二网页图像不同时，产生差异页面信息，并且将所述差异页面信息存储在差异页面信息数据库中。

【技术特征摘要】
1.一种基于爬虫的自动化差异检测方法，所述方法包括：获取第一Web系统的第一初始统一资源定位符(URL)以及第二Web系统的第二初始URL；基于爬虫分别对第一初始URL和第二初始URL进行遍历，以不断抓取第一web系统下的第一页面和第二web系统下的第二页面，其中，在遍历过程中，执行以下处理：对抓取的第一页面和相应的第二页面进行渲染，分别产生第一网页图像和第二网页图像，对第一网页图像和第二网页图像进行相似性比较，当第一网页图像和第二网页图像不同时，产生差异页面信息，并且将所述差异页面信息存储在差异页面信息数据库中，其中，在遍历过程中，执行以下处理：从渲染后的第一页面和渲染后的第二页面中提取新的URL，如果从渲染后的第一页面中提取的URL与从渲染后的第二页面中提取的相应的URL不相同，则跳过所述从渲染后的第一页面中提取的URL和所述从渲染后的第二页面中提取的相应的URL，并产生差异页面信息，将差异页面信息存储在差异页面信息数据库中。2.如权利要求1所述的方法，其中，所述差异页面信息包括指示所述第一网页图像与所述第二网页图像不同的图像。3.如权利要求2所述的方法，其中，所述差异页面信息还包括与所述第一网页图像对应的第一网页的URL和与所述第二网页图像对应的第二网页的URL，和/或与所述第一网页图像对应的第一网页和与所述第二网页图像对应的第二网页。4.如权利要求1所述的方法，其中，进行相似性比较的步骤包括：将第一网页图像与相应的第二网页图像分别转换为第一灰度图像和第二灰度图像；逐个比较第一灰度图像和第二灰度图像中的每个像素；如果第一灰度图像和第二灰度图像的不同像素数量超过预定阈值，则确定第一网页图像与相应的第二网页图像不同。5.如权利要求4所述的方法，其中，使用第一灰度图像中的与第二灰度图像不同的像素来产生所述差异页面信息。6.如权利要求1所述的方法，其中，在所述遍历过程中，跳过第一Web系统下的非本地URL和第二Web系统下的非本地URL。7.如权利要求1所述的方法，其中，如果第一Web系统下的本地URL的后缀与第二Web系统下的相应的本地URL的后缀相同，则确定所述第一Web系统下的本地URL与所述第二Web系统下的相应的本地URL相同。8.如权利要求1所述的方法，其中，所述差异页面信息包括所述第一页面的URL和所述第二页面的URL，和/或所述第一页面和所述第二页面。9.如权利要求1所述的方法，还包括，从差异页面信息数据库读取差异页面信息，根据所述差异页面信息产生相应的报告。10.一种基于爬虫的自动化差异检测装置，所述装置包括：URL获取单元，获取...

【专利技术属性】
技术研发人员：孙彬，吴甜甜，范桂群，黄始韬，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人