【技术实现步骤摘要】
本申请涉及互联网搜索引擎
,特别涉及一种测试网络爬虫的方法及系统。
技术介绍
随着互联网信息爆炸式的增长,搜索引擎扮演着越来越重要的角色。搜索引擎技术中,网络爬虫是重要的组成部分。网络爬虫可以按照一定的规则,自动地抓取页面信息。网络爬虫工作的基本步骤包括:将需要抓取的URL(UniformResourceLocator,统一资源定位符)放入待抓取队列;从待抓取队列中取出一个URL;从所述URL指向的网站上抓取相关页面信息;将抓取到的页面信息保存至页面库中;将已经抓取完的URL放入已抓取URL队列。一些网络爬虫每天需要抓取数万甚至百万、千万级别的网站,其抓取的页面数量更是可以达到亿级。为了检测网络爬虫在抓取海量网站页面时的工作性能,需要对其进行测试。现有技术在测试网络爬虫工作性能时,会准备少量的测试网站提交给网络爬虫抓取;也可以直接提供大量的真实网站给网络爬虫进行抓取。在实现本申请过程中,专利技术人发现现有技术至少存在如下问题:上述现有技术的测试网络爬虫工作性能的方法,若只通过对少量的测试网站进行抓取测试,由于网络爬虫测试抓取少量测试网站时负荷较低,检测到的性能仅能代表低负荷时的性能,即无法代表网络爬虫在处理海量网站时处于较高负荷状态下的工作性能;若使用大量的真实网站进行测试,那么将对这些真实网站形成打扰,可能会被真实网站屏蔽访问。
技术实现思路
本申请提供一种测试网络爬虫的方法及系统,目的在于不对真实网站形成打 ...
【技术保护点】
一种测试网络爬虫的方法,其特征在于,包括:第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP地址;网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二服务器IP地址的转换请求;网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据所述第二服务器的IP地址对第二服务器发起抓取请求;第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。
【技术特征摘要】
1.一种测试网络爬虫的方法,其特征在于,包括:
第一服务器配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务器的IP
地址;
网络爬虫服务器读取所述顶级域名并根据所述顶级域名扩展出海量域名;
网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二
服务器IP地址的转换请求;
网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据
所述第二服务器的IP地址对第二服务器发起抓取请求;
第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。
2.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;
第二服务器选取网站,并将所述网站提供给网络爬虫服务器抓取。
3.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器
选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括:
第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络
爬虫服务器抓取。
4.如权利要求3所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取
预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体
包括:
第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板;
第二服务器将所述调用的网站模板填充内容后提供给网络爬虫服务器抓取。
5.如权利要求1或2所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器
选取网站,并将所述网站提供给网络爬虫服务器抓取具体包括:
第二服务器在预先建立的海量网站中按预设条件调用其中的一套网站,并将所述调用的
网站提供给网络爬虫服务器抓取。
6.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器读取由第一服务器配置的预设数量的顶级域名并根据所述顶级域名扩
\t展出海量域名;
网络爬虫服务器将存储的DNS服务器地址设置为所述第一服务器的地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名向第一服务器发起所述域名到第二
服务器IP地址的转换请求;
网络爬虫服务器接收第一服务器发来的根据所述域名转换的第二服务器IP地址,并根据
所述第二服务器的IP地址对第二服务器发起抓取请求;
网络爬虫服务器对第二服务器选取的网站进行抓取。
7.一种测试网络爬虫的方法,其特征在于,包括:
网络爬虫服务器建立海量域名,并将所述海量域名设置为指向第二服务器的IP地址;
网络爬虫服务器遍历所述海量域名,并针对每个域名对第二服务器发起抓取请求;
网络爬虫服务器对第二服务器选取的网站进行抓取。
8.一种测试网络爬虫的方法,其特征在于,包括:
第二服务器接收网络爬虫服务器发来的网站抓取请求;
第二服务器选取预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络
爬虫服务器抓取。
9.如权利要求8所述的一种测试网络爬虫的方法,其特征在于,所述第二服务器选取
预先建立的网站模板并对所述选取的网站模板填充内容后提供给网络爬虫服务器抓取具体
包括:
第二服务器在预先建立的至少两套网站模板中按预设条件调用其中的一套网站模板;
第二服务器将所述调用的网站模板填充内...
【专利技术属性】
技术研发人员:王辉,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。