【技术实现步骤摘要】
一种应用于web网页页面元素爬取方法及相关设备
[0001]本申请涉及前端页面
,尤其涉及一种应用于web网页页面元素爬取方法及相关设备。
技术介绍
[0002]通常,在批量获取网络信息时,一般使用爬虫技术来爬取大量的网页,然后再对爬取到的页面进行解析,以获取该页面的元素。
[0003]然而,申请人发现,传统的页面元素获取方法并不智能,当待获取的网页存在缺陷时,通过传统的页面元素获取方法并不能进行有效的处理,严重影响整个元素抓取的效率,甚至影响页面元素的可执行性,由此可见,传统的页面元素获取方法存在无法适应于缺陷网站的情况。
技术实现思路
[0004]本申请实施例的目的在于提出一种应用于web网页页面元素爬取方法、装置、计算机设备及存储介质,以解决传统的页面元素获取方法存在无法适应于缺陷网站的问题。
[0005]为了解决上述技术问题,本申请实施例提供一种应用于web网页页面元素爬取方法,采用了如下所述的技术方案:
[0006]接收用户终端发送的爬取请求,其中,所述爬取请求携带有目
【技术保护点】
【技术特征摘要】
1.一种应用于web网页页面元素爬取方法,其特征在于,包括下述步骤:接收用户终端发送的爬取请求,其中,所述爬取请求携带有目标页面地址;调用创建好的Python数据库,并根据所述Python数据库获取与所述目标页面地址相对应的页面格式文件;调用解析器,并基于所述解析器对所述页面格式文件进行解析操作,得到初始页面元素;根据预设的异常检测规则对所述初始页面元素进行检测操作,得到检测结果;若所述检测结果为所述初始页面元素存在异常页面元素,则根据预设的异常处理机制对所述异常页面元素进行异常处理操作,得到待存储页面元素;若所述检测结果为所述初始页面元素不存在所述异常页面元素,则将所述初始页面元素作为所述待存储页面元素;将所述待存储页面元素存储至MySQL数据库。2.根据权利要求1所述的应用于web网页页面元素爬取方法,其特征在于,在所述调用创建好的Python数据库,并根据所述Python数据库获取与所述目标页面相对应的页面格式文件的步骤之前,还包括下述步骤:根据MySQL的管理工具或者Python的MySQL库创建数据库和表,得到所述创建好的Python数据库。3.根据权利要求1所述的应用于web网页页面元素爬取方法,其特征在于,在所述调用解析器,并基于所述解析器对所述页面格式文件进行解析操作,得到初始页面元素的步骤之后,还包括下述步骤:根据code判断所述初始页面元素是否为有效页面元素;若所述初始页面元素不为有效页面元素,则对所述初始页面元素进行数据清洗处理。4.根据权利要求1所述的应用于web网页页面元素爬取方法,其特征在于,所述调用解析器,并基于所述解析器对所述页面格式文件进行解析操作,得到初始页面元素的步骤,具体包括下述步骤:根据Python的Requests库发送向所述目标页面地址发送HTTP请求,得到所述页面格式文件,其中,若发送所述HTTP请求时出现DNS解析失败或者请求超时信号时,根据预设的超时时间、重试机制、使用代理方式进行异常处理。5.根据权利要求1所述的应用于web网页页面元素爬取方法,其特征在于,所述根据预设的异常检测规则对所述初始页面元素进行检测操作,得到检测结果的步骤,具体包括下述步骤:检测所述初始页面元素的是否存在不规范HT...
【专利技术属性】
技术研发人员:伍健,杜习营,冯斌,
申请(专利权)人:深圳复临科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。