网页信息的获取方法、获取设备及计算机可读介质技术

技术编号：19821981 阅读：31 留言：0更新日期：2018-12-19 14:46

本申请的目的是提供一种网页信息的获取方法、计算机可读介质及设备，本申请通过在采集网页之前，将包含待爬取的统一资源定位符(URL)的网络爬虫队列放入内存数据库中，避免了由于网络爬虫系统需要重启的时候存放在内存中的URL会消失的问题，可以保证网络爬虫系统重启后，可以快速从内存数据库的网络爬虫队列读取待爬取的URL，保证网络爬虫系统的正常执行；通过采用内容解析工具从获取到的网页中提取网页内容信息，实现对网页内容进行清洗，最后存储所述网页内容信息，实现网页内容信息入库，从而提高了网页内容信息的获取效率和可靠度。

全部详细技术资料下载

【技术实现步骤摘要】
网页信息的获取方法、获取设备及计算机可读介质
本申请涉及计算机领域，尤其涉及一种网页信息的获取方法、获取设备及计算机可读介质。
技术介绍
目前，网络爬虫系统在爬取网页信息时，通常将待爬取的统一资源定位符(uniformresourcelocator，URL)存储在内存中。当网络爬虫系统需要重启的时候，存放在内存中的待爬取的URL会消失。当网络爬虫系统在重启后希望继续爬取网页信息时，需要重新找到待爬取的URL并将待爬取的URL加载至内存中，从而导致网页信息获取效率较低。
技术实现思路
本申请的一个目的是提供一种网页信息的获取方法、获取设备及计算机可读介质。根据本申请的一个方面，提供了一种网页信息的获取方法，该方法包括：将包含待爬取的URL的网络爬虫队列放入内存数据库中；从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL；向所述URL对应的网站发送获取请求，所述获取请求用于请求所述待爬取的URL对应的网页；若从所述网站获取到所述网页，则采用内容解析工具从所述网页中提取网页内容信息；存储所述网页内容信息。进一步的，上述方法中，所述将包含待爬取的URL的网络爬虫队列...

【技术保护点】
1.一种网页信息的获取方法，其特征在于，所述方法包括：将包含待爬取的URL的网络爬虫队列放入内存数据库中；从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL；向所述URL对应的网站发送获取请求，所述获取请求用于请求所述待爬取的URL对应的网页；若从所述网站获取到所述网页，则采用内容解析工具从所述网页中提取网页内容信息；存储所述网页内容信息。

【技术特征摘要】
1.一种网页信息的获取方法，其特征在于，所述方法包括：将包含待爬取的URL的网络爬虫队列放入内存数据库中；从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL；向所述URL对应的网站发送获取请求，所述获取请求用于请求所述待爬取的URL对应的网页；若从所述网站获取到所述网页，则采用内容解析工具从所述网页中提取网页内容信息；存储所述网页内容信息。2.根据权利要求1所述的方法，其特征在于，所述将包含待爬取的URL的网络爬虫队列放入内存数据库中之前，还包括：按预设优先级规则对所述待爬取的URL进行排序；将排序后的待爬取的URL放入所述网络爬虫队列。3.根据权利要求1或2所述的方法，其特征在于，所述向所述URL对应的网站发送获取请求之后，还包括：若未从所述网站获取到所述网页，则将所述待爬取的URL放回所述内存数据库中的所述网络爬虫队列中。4.根据权利要求3所述的方法，其特征在于，所述将所述待爬取的URL放回所述内存数据库中的所述网络爬虫队列中，包括：若所述待爬取的URL的优先级大于或等于预设阈值，则将所述待爬取的URL放回所述网络爬虫队列中的队头位置；或者，若所述待爬取的URL的优先级小于预设阈值，则将所述待爬取的URL放回所述网络爬虫队列中的队尾位置。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述从所述内存数据库中的所述网络爬虫队列中取出所述待爬取的URL之后，还包括：：启动一个...

【专利技术属性】
技术研发人员：孟祥祥，陈冲，
申请(专利权)人：上海盛付通电子支付服务有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人