网页抓取方法、装置、设备以及存储介质制造方法及图纸

技术编号:35564138 阅读:21 留言:0更新日期:2022-11-12 15:47
本公开提供了一种网页抓取方法、装置、设备以及存储介质。涉及人工智能领域,具体涉及云计算和企业应用技术,可应用于智能云场景下。具体实现方案为:按照优先级顺序获取目标配置信息;基于目标配置信息确定控制参数和待抓取的目标网页;基于控制参数,执行针对目标网页的抓取操作,得到目标网页的抓取结果。根据本公开的技术方案,能提高网页抓取的效率。能提高网页抓取的效率。能提高网页抓取的效率。

【技术实现步骤摘要】
网页抓取方法、装置、设备以及存储介质


[0001]本公开涉及人工智能领域,具体涉及云计算和企业应用技术,可应用于智能云场景下。

技术介绍

[0002]随着大数据时代的到来,网络爬虫技术成为不可或缺的一部分。网页抓取是从网站中提取内容和数据的过程。相关技术中,网页抓取流程繁琐,抓取效率较低。

技术实现思路

[0003]本公开提供了一种网页抓取方法、装置、设备以及存储介质。
[0004]根据本公开的第一方面,提供了一种网页抓取方法,应用于服务器,包括:
[0005]按照优先级顺序获取目标配置信息;
[0006]基于该目标配置信息确定控制参数和待抓取的目标网页;
[0007]基于该控制参数,执行针对该目标网页的抓取操作,得到该目标网页的抓取结果。
[0008]根据本公开的第二方面,提供了一种网页抓取装置,包括:
[0009]获取单元,用于按照优先级顺序获取目标配置信息;
[0010]第一确定单元,用于基于该目标配置信息确定控制参数和待抓取的目标网页;
[0011]抓取单元本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网页抓取方法,包括:按照优先级顺序获取目标配置信息;基于所述目标配置信息确定控制参数和待抓取的目标网页;基于所述控制参数,执行针对所述目标网页的抓取操作,得到所述目标网页的抓取结果。2.根据权利要求1所述的方法,还包括:基于所述目标配置信息确定目标存储路径;将记录的网页抓取过程中的信息生成日志文件,并将所述日志文件存储至所述目标存储路径下。3.根据权利要求1或2所述的方法,还包括:确定所述抓取结果的数据类型;按照所述数据类型存储所述抓取结果。4.根据权利要求3所述的方法,其中,所述抓取结果包括网页内容,所述按照所述数据类型存储所述抓取结果,包括:将所述数据类型为结构化数据的网页内容,存储至本地的第一数据库中;将所述数据类型为非结构化数据的网页内容,存储至本地的第二数据库中。5.根据权利要求4所述的方法,还包括:解析出所述网页内容对应的编码类型;在所述编码类型为非预设编码类型的情况下,将所述网页内容转换成编码类型为所述预设编码类型的网页内容。6.根据权利要求3所述的方法,其中,所述抓取结果包括网页源文件,所述方法还包括:将所述网页源文件存储至本地的指定的存储目录下。7.根据权利要求1或2所述的方法,其中,所述按照优先级顺序获取目标配置信息,包括:响应于检测到命令行参数,将所述命令行参数中的第一配置信息作为目标配置信息;响应于未检测到所述命令行参数但检测到系统环境变量,将所述系统环境变量中的第二配置信息作为目标配置信息;响应于只检测到配置文件,将所述配置文件中的第三配置信息作为目标配置信息。8.根据权利要求7所述的方法,其中,所述目标配置信息包括预设参数的配置信息,所述按照优先级顺序获取目标配置信息,还包括:响应于检测到所述命令行参数、所述系统环境变量和所述配置文件中均不包括所述预设参数,读取所述预设参数的默认值;将所述预设参数的默认值作为所述预设参数的目标配置信息。9.根据权利要求7所述的方法,还包括:利用预设编程语言编译的第一类数据包读取所述命令行参数;利用预设编程语言编译的第二类数据包读取所述系统环境变量;利用预设编程语言编译的第三类数据包读取所述配置文件,并监听所述配置文件的变化。10.根据权利要求9所述的方法,还包括:
在网页抓取过程中,响应于检测到所述配置文件发生变化,更新所述目标配置信息。11.根据权利要求1或2所述的方法,其中,所述基于所述控制参数,执行针对所述目标网页的抓取操作,包括:在网页抓取过程中,利用预设编程语言...

【专利技术属性】
技术研发人员:王玉振章志军尚传帅
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1