对认证页面进行数据爬取的方法及装置制造方法及图纸

技术编号：37159141 阅读：13 留言：0更新日期：2023-04-06 22:22

本申请涉及一种对认证页面进行数据爬取的方法、装置、电子设备及计算机可读介质。该方法包括：执行爬虫任务以获取请求结果；由所述请求结果中提取响应状态码；在所述响应状态码为指定编码时，确定当前爬取页面为认证页面；由所述请求结果中确定认证方式；由认证账户列表中提取用户名和密码，并结合所述认证方式生成认证请求；将所述认证请求发送到当前爬取页面以获取数据。本申请涉及的对认证页面进行数据爬取的方法、装置、电子设备及计算机可读介质，能够爬取认证页面的数据，相较于普通的无法进行HTTP认证的爬虫工具，本申请能够爬取更多的页面资源。多的页面资源。多的页面资源。

全部详细技术资料下载

【技术实现步骤摘要】
对认证页面进行数据爬取的方法及装置

[0001]本公开涉及计算机信息处理领域，具体而言，涉及一种对认证页面进行数据爬取的方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]网络爬虫(或简称爬虫)，是一种自动抓取互联网上数据的工具。利用爬虫抓取数据时往往从一个或若干初始网页的URL(统一资源定位器，Uniform Resource Locator)开始，获得初始网页上的URL，在抓取网页的过程中，一边按自己的业务需求对页面资源进行处理，例如截取包含某关键词的文本；一边不断从当前页面上抽取新的URL，放入爬虫队列，递归爬取，直到满足系统的一定停止条件，如达到一定的页面爬取深度。
[0003]能否获取更多、更有效的页面资源是一款爬虫工具优秀与否的基本评判标准，现有的爬虫工具主要针对没有做限制的资源进行发掘，而无法有效处理一些特殊资源，比如有认证拦截的页面资源。
[0004]因此，需要一种新的对认证页面进行数据爬取的方法、装置、电子设备及计算机可读介质。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本申请的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]有鉴于此，本申请提供一种对认证页面进行数据爬取的方法、装置、电子设备及计算机可读介质，能够爬取认证页面的数据，相较于普通的无法进行HTTP认证的爬虫工具，本申请能够爬取更多的页面资源。
[0007]本申请的其他特性和优点将通过下面的详细描述变得显然，或部...

【技术保护点】

【技术特征摘要】
1.一种对认证页面进行数据爬取的方法，其特征在于，包括：执行爬虫任务以获取请求结果；由所述请求结果中提取响应状态码；在所述响应状态码为指定编码时，确定当前爬取页面为认证页面；由所述请求结果中确定认证方式；由认证账户列表中提取用户名和密码，并结合所述认证方式生成认证请求；将所述认证请求发送到当前爬取页面以获取数据。2.如权利要求1所述的方法，其特征在于，执行爬虫队列中的爬虫任务获取请求结果之前，还包括：对目标端口进行监听以生成爬虫任务；在获取到爬虫任务后，将所述爬虫任务发送到任务池中；为任务池中的所述爬虫任务分配爬虫子进程。3.如权利要求2所述的方法，其特征在于，在获取到爬虫任务后，将所述爬虫任务发送到任务池中，包括：初始化任务状态为等待状态；在获取到爬虫任务后，将所述爬虫任务对应的任务配置储存到数据库；定时扫描数据库中的任务，以将所述爬虫任务发送到所述任务池。4.如权利要求1所述的方法，其特征在于，执行爬虫任务以获取请求结果，包括：爬虫子进程由任务池中提取所述爬虫任务；初始化爬虫客户端；将所述爬虫任务对应的目标URL加入爬虫队列以获取请求结果。5.如权利要求4所述的方法，其特征在于，初始化爬虫客户端，包括：解析数据库中的任务配置数据获取任务参数；根据所述任务参数初始化所述爬虫客户端。6.如权利要求4所述的方法，其特征在于，将所述爬虫任务对应的目标URL加入爬虫队列以获取请求结果，包括：将所述爬虫任务对应的目标URL加入爬虫队列；基于爬虫队列的排序向所述目标URL对应的页面...

【专利技术属性】
技术研发人员：吕振旺，曹浪，杨圣华，
申请(专利权)人：杭州迪普科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人