一种爬取网络数据的方法和装置制造方法及图纸

技术编号：12164723 阅读：81 留言：0更新日期：2015-10-08 00:02

本发明专利技术公开了一种爬取网络数据的方法和装置，属于互联网技术领域。所述方法包括：按照预设的轮询顺序，在预先存储的域名队列中逐个选取待爬取的域名；在每次选取待爬取的域名后，如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值，则在所述选取的域名对应的网址队列中抽取待爬取的网址，对所述待爬取的网址进行网络数据爬取，如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值，则选取下一个待爬取的域名。采用本发明专利技术，可以提高爬取网络数据的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，特别涉及一种爬取网络数据的方法和装置。
技术介绍
随着互联网技术的发展，互联网的应用越来越广泛，互联网中网络数据的数据量也越来越大。人们可以通过浏览器在互联网中浏览网络数据，如新闻、视频和小说等。为了方便用户获取更多的网络数据，一些网站经常会从其他网站中爬取网络数据，将爬取到的网络数据设置在本网站中，爬取网络数据的处理通常由爬取服务器来完成。爬取服务器中存储有大量的网址，这些网址可以是技术人员输入的，也可以是爬取服务器在爬取网络数据的过程中获取到的，爬取服务器会按照网址的获取顺序向网址对应的网站服务器发送数据请求，网站服务器接收到数据请求后，会返回相应的网络数据，爬取服务器则会对网络数据进行分析，获取有用的网络数据并进行存储，同时还可以对其中包含的网址进行存储，用于后续的爬取过程。在实现本专利技术的过程中，专利技术人发现现有技术至少存在以下问题:网站服务器通常设置有访问频率的上限，由于爬取服务器按照网址的获取顺序向网站服务器发送数据请求，因此经常会出现在某时间段内向某网站服务器发送大量的数据请求的情况，如果发送数据请求的频率大于该网站的访问频率的上限，该网站服务器将会屏蔽爬取服务器的IP (Internet Protocol，互联网协议)地址，导致爬取服务器在一定的时间段内无法从该网站服务器中爬取网络数据，从而使得爬取服务器爬取网络数据的效率较低。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种爬取网络数据的方法和装置。所述技术方案如下:第一方面，提供了一种爬取网络数据的方法，所述方法包括:按照预设...

【技术保护点】
一种爬取网络数据的方法，其特征在于，所述方法包括：按照预设的轮询顺序，在预先存储的域名队列中逐个选取待爬取的域名；在每次选取待爬取的域名后，如果选取的域名上一次被爬取的时间与当前时间的时间间隔超过预设的时间间隔阈值，则在所述选取的域名对应的网址队列中抽取待爬取的网址，对所述待爬取的网址进行网络数据爬取，如果选取的域名上一次被爬取的时间与当前时间的时间间隔未超过预设的时间间隔阈值，则选取下一个待爬取的域名。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘杰，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人