一种分布式网络爬虫的信息爬取方法、服务器及存储介质技术

技术编号：20389785 阅读：18 留言：0更新日期：2019-02-20 02:49

本发明专利技术提供了一种分布式网络爬虫的信息爬取方法、服务器及存储介质，通过利用获取到的多个IP同时进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；多个爬虫客户端同时从所述redis集群中获取URL，并从获取的URL中解析出目标信息。本发明专利技术所提供的信息爬取方法使用多台设备利用多个IP进行协作，同时对Internet上的所有URL进行爬取，实现更好，更快的，更准确的从海量的网络资源中获取到有用的信息。

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式网络爬虫的信息爬取方法、服务器及存储介质
本专利技术涉及信息
，尤其涉及的是一种分布式网络爬虫的信息爬取方法、服务器及存储介质。
技术介绍
目前，据统计Internet上网页数量超出200亿个，研究表明接近30%的页面是重复的，并且还有大量动态页面的存在。客户端、服务器端脚本语言的应用使得指向相同Web（WorldWideWeb，全球广域网或万维网）信息的URL（UniformResourceLocator，统一资源定位）数量呈指数级增长，这时候我们如果要用一台服务器从Internet的网页里面想爬取我们需要的信息，则要花销大量的时间，用户不能及时获取所需信息，因此会导致诸多不便。因此，现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处，本专利技术的目的在于为用户提供一种分布式网络爬虫的信息爬取方法、服务器及存储介质，克服现有技术中不能快速查找从海量网络资源中爬取到所需信息的缺陷。本专利技术提供了的第一实施例为一种分布式网络爬虫的信息爬取方法，其中，包括以下步骤：利用获取到的多个IP进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；多个爬虫客户端从所述redis集群中获取URL，并从获取的URL中解析出目标信息。可选地，所述利用获取到的多个IP进行网络URL爬取的步骤之前还包括：获取网络上的闲置IP，并将闲置IP存储在MongoDB中；多个爬虫客户端从所述MongoDB中获取IP。可选地，所述将爬取到的URL编码为key值存储到redis集群中的步骤还包括：将爬取到的URL进行base64编码成k...

【技术保护点】
1.一种分布式网络爬虫的信息爬取方法，其特征在于，包括以下步骤：利用获取到的多个IP进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；多个爬虫客户端从所述redis集群中获取URL，并从获取的URL中解析出目标信息。

【技术特征摘要】
1.一种分布式网络爬虫的信息爬取方法，其特征在于，包括以下步骤：利用获取到的多个IP进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；多个爬虫客户端从所述redis集群中获取URL，并从获取的URL中解析出目标信息。2.根据权利要求1所述的分布式网络爬虫的信息爬取方法，其特征在于，所述利用获取到的多个IP进行网络URL爬取的步骤之前还包括：获取网络上的闲置IP，并将闲置IP存储在MongoDB中；多个爬虫客户端从所述MongoDB中获取IP。3.根据权利要求1所述的分布式网络爬虫的信息爬取方法，其特征在于，所述将爬取到的URL编码为key值存储到redis集群中的步骤还包括：将爬取到的URL进行base64编码成key值，并以key值和URL一一对应保存至所述redis集群的第一主键中。4.根据权利要求1所述的分布式网络爬虫的信息爬取方法，其特征在于，所述方法还包括：将已经解析出目标信息的URL转存至所述redis集群的第二主键中。5.根据权利要求4所述的分布式网络爬虫的信息爬取方法，其特征在于，所述多个爬虫客户端从所述redis集群中获取URL，并从获取的URL中解析出目标信息的步骤还包括：所述多个爬虫客户端依据所述第一主键和第二主键中的记录进行查重筛选，从第一主键中选取未被解析过的URL作为目标URL；对所述目标URL进行解析以得到目标信息。6.一种服务器，其特征在于，所述服务器包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行...

【专利技术属性】
技术研发人员：徐松柏，
申请(专利权)人：广州TCL智能家居科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人