网页爬取方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:21089912 阅读:20 留言:0更新日期:2019-05-11 10:05
本发明专利技术公开了一种网页爬取方法、装置、存储介质和计算机设备。该网页爬取方法包括:根据获取的目标网页的网址跳转到目标网页;在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作;获取用户在目标网页上的行为;根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作;根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务;执行目标爬取任务,在目标网页上爬取目标信息。采用该网页爬取方法能够提高网页爬取的效率。

Web crawling methods, devices, storage media and computer equipment

【技术实现步骤摘要】
网页爬取方法、装置、存储介质和计算机设备
本专利技术涉及爬虫领域,尤其涉及一种网页爬取方法、装置、存储介质和计算机设备。
技术介绍
目前用户在爬取网页时,通常都是采用编写脚本代码的方式,通过执行脚本代码来实现网页信息的爬取。这对于非开发人员的门槛较高,非开发人员需要学习一定的编程基础才可以进行网页信息的爬取,并且,经常编写爬虫脚本代码降低了网页爬取的效率。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网页爬取方法、装置、存储介质和计算机设备,用以解决网页爬取效率低下的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种网页爬取方法,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;执行所述目标爬取任务,在所述目标网页上爬取目标信息。进一步地,所述在所述目标网页生成操作提示窗口,包括:判断所述目标网页的网址与模板网页的网址是否相同;若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。进一步地,所述根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口,包括:获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;根据所述第一爬取操作生成所述操作提示窗口。进一步地,所述行为包括行为操作和行为内容,所述根据所述行为在所述操作提示窗口展示第二提示信息,包括:根据所述行为操作和所述行为内容,在所述操作提示窗口上提示所述第二提示信息,其中,所述行为操作是指发生所述行为时所对应的操作,所述行为内容是指发生所述行为时所对应的对象。进一步地,所述根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,包括:按照用户选择所述第一爬取操作和所述第二爬取操作的时间顺序设置所述第一爬取操作和所述第二爬取操作的执行顺序,确定所述目标爬取任务。为了实现上述目的,根据本专利技术的一个方面,提供了一种网页爬取装置,所述装置包括:目标网址获取模块,用于获取目标网页的网址;目标网页跳转模块,用于根据所述目标网页的网址跳转到所述目标网页;操作提示窗口生成模块,用于在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;行为获取模块,用于获取用户在所述目标网页上的行为;第二提示信息展示模块,用于根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;选择指令获取模块,用于获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;目标爬取任务确定模块,用于根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;目标信息爬取模块,用于执行所述目标爬取任务,在所述目标网页上爬取目标信息。进一步地,所述操作提示窗口生成模块,包括:判断单元,用于判断所述目标网页的网址与模板网页的网址是否相同;第一操作提示窗口生成单元,用于若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;第二操作提示窗口生成单元,用于若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。进一步地,所述第二操作提示窗口生成单元,包括:映射表获取子单元,用于获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;第一爬取操作确定子单元,用于根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;操作提示窗口生成子单元,用于根据所述第一爬取操作生成所述操作提示窗口。为了实现上述目的,根据本专利技术的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的网页爬取方法。为了实现上述目的,根据本专利技术的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的网页爬取方法的步骤。本专利技术实施例中,首先根据用户跳转到的目标网页,在目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息。通过跳转到的目标网页,自动、实时生成与用户进行信息交互的操作提示窗口,用户可以在跳转到目标网页时便查看到与目标网页相关的第一提示信息,并根据该第一提示信息选择所需的第一爬取操作,以基于该第一爬取操作生成目标爬取任务。然后获取用户在所述目标网页上的行为,根据所述行为在所述操作提示窗口展示第二提示信息。通过用户在目标网页上的行为提示用户可能选择的第二爬取操作,以根据第一爬取操作和第二爬取操作生成目标爬取任务。最后根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,执行所述目标爬取任务,在所述目标网页上爬取目标信息。本专利技术实施例将用户在目标网页上可能选择的第一爬取操作和第二爬取操作,根据用户跳转到的目标网页和在目标网页上所做的行为,实时、自动地通过操作提示窗口展现给用户,用户可以根据该操作提示窗口便确定目标网页的目标爬取任务,降低了用户的网页爬取门槛,显著提高了网页爬取的效率。【附图说明】为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术一实施例中网页爬取方法的一流程图;图2是本专利技术一实施例中网页爬取装置的一示意图。【具体实施方式】为了更好的理解本专利技术的技术方案,下面结合附图对本专利技术实施例进行详细描述。应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本专利技术本文档来自技高网...

【技术保护点】
1.一种网页爬取方法,其特征在于,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;执行所述目标爬取任务,在所述目标网页上爬取目标信息。

【技术特征摘要】
2018.10.29 CN 20181126872911.一种网页爬取方法,其特征在于,所述方法包括:获取目标网页的网址;根据所述目标网页的网址跳转到所述目标网页;在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;获取用户在所述目标网页上的行为;根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;执行所述目标爬取任务,在所述目标网页上爬取目标信息。2.根据权利要求1所述的方法,其特征在于,所述在所述目标网页生成操作提示窗口,包括:判断所述目标网页的网址与模板网页的网址是否相同;若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口,包括:获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;根据所述第一爬取操作生成所述操作提示窗口。4.根据权利要求1所述的方法,其特征在于,所述行为包括行为操作和行为内容,所述根据所述行为在所述操作提示窗口展示第二提示信息,包括:根据所述行为操作和所述行为内容,在所述操作提示窗口上提示所述第二提示信息,其中,所述行为操作是指发生所述行为时所对应的操作,所述行为内容是指发生所述行为时所对应的对象。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,包括:按照用户选择所述第一爬取操作和所述第二爬取操作的时间顺序设置所述第一爬取操作和所述第二爬取操作的执行顺序,确定所述目...

【专利技术属性】
技术研发人员:刘劲柏徐佳良
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1