一种测试网络爬虫的方法及系统技术方案

技术编号:14973215 阅读:67 留言:0更新日期:2017-04-03 01:10
本申请实施例公开了一种测试网络爬虫的方法及系统,所述方法包括:第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器遍历所述海量域名,并针对每个域名向第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。本申请实施例公开的测试网络爬虫的方法及系统,可以在不对真实网站形成打扰的情况下,检测网络爬虫抓取海量网站页面时的工作性能。

【技术实现步骤摘要】

本申请涉及互联网搜索引擎
,特别涉及一种测试网络爬虫的方法及系统
技术介绍
随着互联网信息爆炸式的增长,搜索引擎扮演着越来越重要的角色。搜索引擎技术中,网络爬虫是重要的组成部分。网络爬虫可以按照一定的规则,自动地抓取页面信息。网络爬虫工作的基本步骤包括:将需要抓取的URL(UniformResourceLocator,统一资源定位符)放入待抓取队列;从待抓取队列中取出一个URL;从所述URL指向的网站上抓取相关页面信息;将抓取到的页面信息保存至页面库中;将已经抓取完的URL放入已抓取URL队列。一些网络爬虫每天需要抓取数万甚至百万、千万级别的网站,其抓取的页面数量更是可以达到亿级。为了检测网络爬虫在抓取海量网站页面时的工作性能,需要对其进行测试。现有技术在测试网络爬虫工作性能时,会准备少量的测试网站提交给网络爬虫抓取;也可以直接提供大量的真实网站给网络爬虫进行抓取。在实现本申请过程中,专利技术人发现现有技术至少存在如下问题:上述现有技术的测试网络爬虫工作性能的方法,若只通过对少量的测试网站进行抓取测试,由于网络爬虫测试抓取少量测试网站时负荷较低,检测到的性能仅能代表低负荷时的性能,即无法代表网络爬虫在处理海量网站时处于较高负荷状态下的工作性能;若使用大量的真实网站进行测试,那么将对这些真实网站形成打扰,可能会被真实网站屏蔽访问。
技术实现思路
本申请提供一种测试网络爬虫的方法及系统,目的在于不对真实网站形成打扰前提下,检测网络爬虫抓取海量网站页面时的工作性能。为解决上述技术问题,本申请实施例提供的一种测试网络爬虫的方法及系统是这样实现的:一种测试网络爬虫的方法,包括:第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求;网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。一种测试网络爬虫的方法,包括:网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。一种测试网络爬虫的方法,包括:网络爬虫服务器读取由第一服务器配置的预设数量的顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求;网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求;网络爬虫服务器对第二服务器选取的网站进行抓取。一种测试网络爬虫的方法,包括:网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;网络爬虫服务器对第二服务器选取的网站进行抓取。一种测试网络爬虫的方法,包括:第二服务器接收网络爬虫服务器发来的网站抓取请求;第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取。一种测试网络爬虫的方法,包括:第二服务器接收网络爬虫服务器发来的网站抓取请求;第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站,并将所述调用的网站提供给网络爬虫服务器抓取。一种测试网络爬虫的系统,包括第一服务器,网络爬虫服务器,第二服务器,其中:所述第一服务器,用来配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;所述网络爬虫服务器,用来读取所述顶级域名并根据所述顶级域名扩展出海量域名,将存储的DNS服务器地址设置为所述第一服务器的地址,遍历所述海量域名,并针对每个域名通过第一服务器获取第二服务器的IP地址,根据所述第二服务器的IP地址对第二服务器发起网站抓取请求;所述第二服务器,用来选取网站,并将所述网站提供给网络爬虫服务器抓取。一种测试网络爬虫的系统,包括第一服务器,网络爬虫服务器,第二服务器,其中:所述网络爬虫服务器,用来建立海量域名,将所述海量域名设置为指向第二服务器的IP地址,遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;所述第二服务器,用来选取网站,并将所述网站提供给网络爬虫服务器抓取。本申请实施例的技术方案模拟出海量的网站提供给网络爬虫进行功能测试,能够在不对真实网站形成打扰的情况下,检测网络爬虫抓取海量网站页面时的工作性能。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请测试网络爬虫方法一个实施例的流程图;图2是本申请以网络爬虫服务器为主体的测试网络爬虫的方法的一个实施例的流程图;图3是本申请以网络爬虫服务器为主体的测试网络爬虫的方法的另一实施例的流程图;图4是本申请以第二服务器为主体的测试网络爬虫的方法的一个实施例的流程图;图5是本申请以第二服务器为主体的测试网络爬虫的方法的另一实施例的流程图;图6是本申请以第二服务器为主体的测试网络爬虫的方法的另一实施例的流程图;图7是本申请一种测试网络爬虫的系统第一实施例的功能模块图;图8是本申请一种测试网络爬虫的系统第一实施例中第一服务器的功能模块图;图9是本申请一种测试网络爬虫的系统第一实施例中网络爬虫服务器的功能模块图;图10是本申请一种测试网络爬虫的系统第二实施例的功能模块图;图11是本申请一种测试网络爬虫的系统第二实施例中网络爬虫服务器的功能模块图;图12是本申请一种测试网络爬虫的系统中第二服务器第一实现方式的功能模块图;图13是本申请一种测试网络爬虫的系统中第二服务器第二实现方式的功能模块图;图14是本申请一本文档来自技高网...

【技术保护点】
一种测试网络爬虫的方法,其特征在于,包括:第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求;网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。

【技术特征摘要】
1.一种测试网络爬虫的方法,其特征在于,包括:
第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP
地址;
网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;
网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二
服务器IP地址的转换请求;
网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据
所述第二服务器的IP地址对第二服务器发起抓取请求;
第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。
2.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;
第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。
3.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器
选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括:
第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络
爬虫服务器抓取。
4.如权利要求3所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取
预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体
包括:
第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板;
第二服务器将所述调用的网站模板填充内容后提供给网络爬虫服务器抓取。
5.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器
选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括:
第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站,并将所述调用的
网站提供给网络爬虫服务器抓取。
6.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器读取由第一服务器配置的预设数量的顶级域名并根据所述顶级域名扩

\t展出海量域名;
网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二
服务器IP地址的转换请求;
网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据
所述第二服务器的IP地址对第二服务器发起抓取请求;
网络爬虫服务器对第二服务器选取的网站进行抓取。
7.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;
网络爬虫服务器对第二服务器选取的网站进行抓取。
8.一种测试网络爬虫的方法,其特征在于,包括:
第二服务器接收网络爬虫服务器发来的网站抓取请求;
第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络
爬虫服务器抓取。
9.如权利要求8所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取
预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体
包括:
第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板;
第二服务器将所述调用的网站模板填充内...

【专利技术属性】
技术研发人员:王辉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1