【技术实现步骤摘要】
网页信息的获取方法、获取设备及计算机可读介质
本申请涉及计算机领域,尤其涉及一种网页信息的获取方法、获取设备及计算机可读介质。
技术介绍
目前,网络爬虫系统在爬取网页信息时,通常将待爬取的统一资源定位符(uniformresourcelocator,URL)存储在内存中。当网络爬虫系统需要重启的时候,存放在内存中的待爬取的URL会消失。当网络爬虫系统在重启后希望继续爬取网页信息时,需要重新找到待爬取的URL并将待爬取的URL加载至内存中,从而导致网页信息获取效率较低。
技术实现思路
本申请的一个目的是提供一种网页信息的获取方法、获取设备及计算机可读介质。根据本申请的一个方面,提供了一种网页信息的获取方法,该方法包括:将包含待爬取的URL的网络爬虫队列放入内存数据库中;从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL;向所述URL对应的网站发送获取请求,所述获取请求用于请求所述待爬取的URL对应的网页;若从所述网站获取到所述网页,则采用内容解析工具从所述网页中提取网页内容信息;存储所述网页内容信息。进一步的,上述方法中,所述将包含待爬取的URL的网络爬虫队列 ...
【技术保护点】
1.一种网页信息的获取方法,其特征在于,所述方法包括:将包含待爬取的URL的网络爬虫队列放入内存数据库中;从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL;向所述URL对应的网站发送获取请求,所述获取请求用于请求所述待爬取的URL对应的网页;若从所述网站获取到所述网页,则采用内容解析工具从所述网页中提取网页内容信息;存储所述网页内容信息。
【技术特征摘要】
1.一种网页信息的获取方法,其特征在于,所述方法包括:将包含待爬取的URL的网络爬虫队列放入内存数据库中;从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL;向所述URL对应的网站发送获取请求,所述获取请求用于请求所述待爬取的URL对应的网页;若从所述网站获取到所述网页,则采用内容解析工具从所述网页中提取网页内容信息;存储所述网页内容信息。2.根据权利要求1所述的方法,其特征在于,所述将包含待爬取的URL的网络爬虫队列放入内存数据库中之前,还包括:按预设优先级规则对所述待爬取的URL进行排序;将排序后的待爬取的URL放入所述网络爬虫队列。3.根据权利要求1或2所述的方法,其特征在于,所述向所述URL对应的网站发送获取请求之后,还包括:若未从所述网站获取到所述网页,则将所述待爬取的URL放回所述内存数据库中的所述网络爬虫队列中。4.根据权利要求3所述的方法,其特征在于,所述将所述待爬取的URL放回所述内存数据库中的所述网络爬虫队列中,包括:若所述待爬取的URL的优先级大于或等于预设阈值,则将所述待爬取的URL放回所述网络爬虫队列中的队头位置;或者,若所述待爬取的URL的优先级小于预设阈值,则将所述待爬取的URL放回所述网络爬虫队列中的队尾位置。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL之后,还包括::启动一个...
【专利技术属性】
技术研发人员:孟祥祥,陈冲,
申请(专利权)人:上海盛付通电子支付服务有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。