【技术实现步骤摘要】
网页爬取方法、装置、存储介质和计算机设备
本专利技术涉及爬虫领域,尤其涉及一种网页爬取方法、装置、存储介质和计算机设备。
技术介绍
目前用户在爬取网页时,通常都是采用编写脚本代码的方式,通过执行脚本代码来实现网页信息的爬取。这对于非开发人员的门槛较高,非开发人员需要学习一定的编程基础才可以进行网页信息的爬取,并且,经常编写爬虫脚本代码降低了网页爬取的效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页爬取方法、装置、存储介质和计算机设备,用以解决网页爬取效率低下的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种网页爬取方法,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令 ...
【技术保护点】
1.一种网页爬取方法,其特征在于,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;执行所述目标爬取任务,在所述目标网页上爬取目标信息。
【技术特征摘要】
2018.10.29 CN 20181126872911.一种网页爬取方法,其特征在于,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;执行所述目标爬取任务,在所述目标网页上爬取目标信息。2.根据权利要求1所述的方法,其特征在于,所述在所述目标网页生成操作提示窗口,包括:判断所述目标网页的网址与模板网页的网址是否相同;若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口,包括:获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;根据所述第一爬取操作生成所述操作提示窗口。4.根据权利要求1所述的方法,其特征在于,所述行为包括行为操作和行为内容,所述根据所述行为在所述操作提示窗口展示第二提示信息,包括:根据所述行为操作和所述行为内容,在所述操作提示窗口上提示所述第二提示信息,其中,所述行为操作是指发生所述行为时所对应的操作,所述行为内容是指发生所述行为时所对应的对象。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,包括:按照用户选择所述第一爬取操作和所述第二爬取操作的时间顺序设置所述第一爬取操作和所述第二爬取操作的执行顺序,确定所述目...
【专利技术属性】
技术研发人员:刘劲柏,徐佳良,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。