一种应用于web网页页面元素爬取方法及相关设备技术

技术编号：39131454 阅读：36 留言：0更新日期：2023-10-23 14:50

本申请属于前端页面领域，涉及应用于web网页页面元素爬取方法、装置、计算机设备及存储介质，该方法包括：调用创建好的Python数据库，并根据Python数据库获取与目标页面地址相对应的页面格式文件；调用解析器，并基于解析器对页面格式文件进行解析操作，得到初始页面元素；根据预设的异常检测规则对初始页面元素进行检测操作，得到检测结果；若检测结果为初始页面元素存在异常页面元素，则根据预设的异常处理机制对异常页面元素进行异常处理操作，得到待存储页面元素；将待存储页面元素存储至MySQL数据库。本申请可以解决传统的页面元素获取方法存在无法适应于缺陷网站的问题。获取方法存在无法适应于缺陷网站的问题。获取方法存在无法适应于缺陷网站的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于web网页页面元素爬取方法及相关设备

[0001]本申请涉及前端页面
，尤其涉及一种应用于web网页页面元素爬取方法及相关设备。

技术介绍

[0002]通常，在批量获取网络信息时，一般使用爬虫技术来爬取大量的网页，然后再对爬取到的页面进行解析，以获取该页面的元素。
[0003]然而，申请人发现，传统的页面元素获取方法并不智能，当待获取的网页存在缺陷时，通过传统的页面元素获取方法并不能进行有效的处理，严重影响整个元素抓取的效率，甚至影响页面元素的可执行性，由此可见，传统的页面元素获取方法存在无法适应于缺陷网站的情况。

技术实现思路

[0004]本申请实施例的目的在于提出一种应用于web网页页面元素爬取方法、装置、计算机设备及存储介质，以解决传统的页面元素获取方法存在无法适应于缺陷网站的问题。
[0005]为了解决上述技术问题，本申请实施例提供一种应用于web网页页面元素爬取方法，采用了如下所述的技术方案：
[0006]接收用户终端发送的爬取请求，其中，所述爬取请求携带有目

【技术保护点】

【技术特征摘要】
1.一种应用于web网页页面元素爬取方法，其特征在于，包括下述步骤：接收用户终端发送的爬取请求，其中，所述爬取请求携带有目标页面地址；调用创建好的Python数据库，并根据所述Python数据库获取与所述目标页面地址相对应的页面格式文件；调用解析器，并基于所述解析器对所述页面格式文件进行解析操作，得到初始页面元素；根据预设的异常检测规则对所述初始页面元素进行检测操作，得到检测结果；若所述检测结果为所述初始页面元素存在异常页面元素，则根据预设的异常处理机制对所述异常页面元素进行异常处理操作，得到待存储页面元素；若所述检测结果为所述初始页面元素不存在所述异常页面元素，则将所述初始页面元素作为所述待存储页面元素；将所述待存储页面元素存储至MySQL数据库。2.根据权利要求1所述的应用于web网页页面元素爬取方法，其特征在于，在所述调用创建好的Python数据库，并根据所述Python数据库获取与所述目标页面相对应的页面格式文件的步骤之前，还包括下述步骤：根据MySQL的管理工具或者Python的MySQL库创建数据库和表，得到所述创建好的Python数据库。3.根据权利要求1所述的应用于web网页页面元素爬取方法，其特征在于，在所述调用解析器，并基于所述解析器对所述页面格式文件进行解析操作，得到初始页面元素的步骤之后，还包括下述步骤：根据code判断所述初始页面元素是否为有效页面元素；若所述初始页面元素不为有效页面元素，则对所述初始页面元素进行数据清洗处理。4.根据权利要求1所述的应用于web网页页面元素爬取方法，其特征在于，所述调用解析器，并基于所述解析器对所述页面格式文件进行解析操作，得到初始页面元素的步骤，具体包括下述步骤：根据Python的Requests库发送向所述目标页面地址发送HTTP请求，得到所述页面格式文件，其中，若发送所述HTTP请求时出现DNS解析失败或者请求超时信号时，根据预设的超时时间、重试机制、使用代理方式进行异常处理。5.根据权利要求1所述的应用于web网页页面元素爬取方法，其特征在于，所述根据预设的异常检测规则对所述初始页面元素进行检测操作，得到检测结果的步骤，具体包括下述步骤：检测所述初始页面元素的是否存在不规范HT...

【专利技术属性】
技术研发人员：伍健，杜习营，冯斌，
申请(专利权)人：深圳复临科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人