网页内容获取方法、装置和电子设备制造方法及图纸

技术编号：37548378 阅读：11 留言：0更新日期：2023-05-12 16:24

本发明专利技术提供一种网页内容获取方法、装置和电子设备。该方法包括：判断各子线程对应的各待爬取队列是否为空；当所述待爬取队列不为空时，运行爬取进程，在所述待爬取队列中爬取目标URL，以获取所述目标URL对应的网页；获取爬取所述目标URL后的响应信息；当所述响应信息为响应成功信息时，确定所述目标URL对应的网页获取成功，并执行页面解析操作，对所述网页进行解析以获取目标网页数据；存储所述目标网页数据。该方法采用多线程的方式进行网页数据的获取，爬取速度快效率高，并且将爬取失败的目标URL重新加入到待爬取队列中，提高了网页数据爬取的稳定性。数据爬取的稳定性。数据爬取的稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
网页内容获取方法、装置和电子设备

[0001]本专利技术涉及互联网
，尤其涉及一种网页内容获取方法、装置和电子设备。

技术介绍

[0002]通用搜索引擎的处理对象是互联网网页，目前互联网网页的数量已达百亿，所以搜索引擎首先面临的问题是：如何能够设计出高效的下载系统，将如此的海量的网页数据传送到本地，在本地形成互联网网页的镜像备份。
[0003]网络爬虫能够起到这样的作用，完成此艰巨任务。网络爬虫是搜索引擎中很关键也很基础的构件，尽管爬虫经过几十年的发展，从整体框架上来看已经相对成熟，但随着互联网的不断发展，也面临着一些新的挑战。网络爬虫爬取数据是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待，这使得网络爬虫爬取速度慢，效率低下。

技术实现思路

[0004]本专利技术提供一种网页内容获取方法、装置和电子设备，用以解决现有技术中网络爬取速度慢、效率低的问题，实现多线程的方式进行网页数据的获取，爬取速度快效率高，并且将爬取失败的目标URL重新加入到待爬取队列中，提高了网页数据爬取的稳定性。
[0005]本专利技术提供一种网页内容获取方法，包括：
[0006]判断各子线程对应的各待爬取队列是否为空；
[0007]当所述待爬取队列不为空时，运行爬取进程，在所述待爬取队列中爬取目标URL，以获取所述目标URL对应的网页；
[0008]获取爬取所述目标URL后的响应信息；
[0009]当所述响应信息为响应成功信息时，确定所述目标URL对...

【技术保护点】

【技术特征摘要】
1.一种网页内容获取方法，其特征在于，包括：判断各子线程对应的各待爬取队列是否为空；当所述待爬取队列不为空时，运行爬取进程，在所述待爬取队列中爬取目标URL，以获取所述目标URL对应的网页；获取爬取所述目标URL后的响应信息；当所述响应信息为响应成功信息时，确定所述目标URL对应的网页获取成功，并执行页面解析操作，对所述网页进行解析以获取目标网页数据；存储所述目标网页数据。2.根据权利要求1所述网页内容获取方法，其特征在于，还包括：当所述响应信息为响应失败信息时，确定所述目标URL对应的网页获取失败，并将所述目标URL重新放入所述待爬取列队中。3.根据权利要求1所述网页内容获取方法，其特征在于，还包括：当所述待爬取队列为空时，结束对应的所述子线程。4.根据权利要求1至3任一项所述网页内容获取方法，其特征在于，所述判断各子线程对应的各待爬取队列是否为空之前，还包括：获取多个种子URL，根据预设规则将多个所述种子URL分别放入各子线程的待爬取队列中。5.根据权利要求4所述网页内容获取方法，其特征在于，所述预设规则包括预设优先级；所述获取多个种子URL，根据预设规则将多个所述种子URL分别放入各子线程的待爬取队列中，包括：获取多个种子URL，根据所述种子URL所属子线程对多个所述种子URL进行分组；将多组所述种子URL分别按照预...

【专利技术属性】
技术研发人员：张浩然，单酉，朱泽，孙利晓，
申请(专利权)人：北京航天云路有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人