一种爬虫的爬取方法及装置制造方法及图纸

技术编号：21914091 阅读：28 留言：0更新日期：2019-08-21 12:28

本发明专利技术公开了一种爬虫的爬取方法及装置，涉及计算机技术领域，主要目的在于使得爬虫爬取到的数据能够覆盖更多的页面层级，本发明专利技术的主要技术方案为：获取待爬取的同一层级下每个页面对应的所有URL链接；从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列；以所述待爬取队列中的URL链接作为入口，对所述URL链接对应页面中的页面内容进行爬取。本发明专利技术主要用于页面中URL链接的爬取。

A crawling method and device for reptiles

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫的爬取方法及装置
本专利技术涉及计算机
，尤其涉及一种爬虫的爬取方法及装置。
技术介绍
随着云计算和大数据技术的深入发展，网页上的大量结构化和非结构化的信息搜索与挖掘技术成为一个热点研究问题。在分析数据时往往会花费大量的时间和精力，在大数据时代，爬虫技术成为获取网络数据的重要方式。爬虫技术是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去。当爬虫在爬取一个网站的所有页面时，一般会采用广度优先算法，即从一个入口页开始，抓取到该入口页的所有链接，作为第一层，然后从所有链接中的每一个链接出发，获取该链接对应页面下的所有链接，作为第二层，以此类推，一层一层爬取下去，直到没有新的链接产生为止。在很多情况下，由于页面过多，会对爬取到的页面数量或者页面层数进行限制，进而控制爬虫的爬取时间，如只爬取前两层的页面或者只爬取前100万个页面，然而，上述爬虫的爬取方法无法抓取到更多层级的数据，使得在一定时间内爬取到的数据受限，并不能覆盖真实网站的各个成分，也无法满足很多应用场景的数据需求，造成很多应用场景下信息的缺失。
技术实现思路
有鉴于此，本专利技术提供一种爬虫的爬取方法及装置，主要目的在于使得爬虫爬取到的数据能够覆盖更多的页面层级。为了解决上述问题，本专利技术主要提供如下技术方案：一方面，本专利技术实施例提供了一种爬虫的爬取方法，包括：获取待爬取的同一层级下每个页面对应的所有URL链接；从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队...

【技术保护点】
1.一种爬虫的爬取方法，其特征在于，包括：获取待爬取的同一层级下每个页面对应的所有URL链接；从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列；以所述待爬取队列中的URL链接作为入口，对所述URL链接对应页面中的页面内容进行爬取。

【技术特征摘要】
1.一种爬虫的爬取方法，其特征在于，包括：获取待爬取的同一层级下每个页面对应的所有URL链接；从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列；以所述待爬取队列中的URL链接作为入口，对所述URL链接对应页面中的页面内容进行爬取。2.根据权利要求1所述的方法，其特征在于，所述从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列包括：分别从每个所述页面对应的所有URL链接中提取出相同预设数量的URL链接，并放入待爬取队列；或对不同类型页面设置权重值，分别从每个所述页面对应的所有URL链接中提取出与该页面类型对应的权重值相匹配的预设数量的URL链接，并放入待爬取队列。3.根据权利要求1所述的方法，其特征在于，在所述获取待爬取的同一层级下每个页面对应的所有URL链接之后，所述方法还包括：获取所述URL链接对应的页面的标识信息；根据所述标识信息建立不同页面对应的爬取目录；将每个所述页面对应的所有URL链接放入该页面对应的爬取目录中，以及所述从每个所述页面对应的所有URL链接中提取出预设数量的URL链接，并放入待爬取队列包括：从每个所述页面对应的爬取目录中提取出预设数量的URL链接，并放入待爬取队列。4.根据权利要求3所述的方法，其特征在于，在所述从每个所述页面对应的爬取目录中提取出预设数量的URL链接之前，所述方法还包括：按照预设时间间隔遍历查询每个所述页面对应的爬取目录；获取所述页面对应的爬取目录中存储的URL链接数量。5.根据权利要求4所述的方法，其特征在于，所述从每个所述页面对应的爬取目录中提取...

【专利技术属性】
技术研发人员：何熠皓，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人