网页爬取方法、装置以及计算机设备制造方法及图纸

技术编号:28837916 阅读:32 留言:0更新日期:2021-06-11 23:35
本发明专利技术公开了一种网页爬取方法,该方法包括:爬取第一网页,获取所述第一网页包括的第一内容以及第一内容链接,将所述第一内容保存到内容集合中;爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接;判断所述第二内容与所述第一内容是否相同;当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,并继续爬取所述第二内容链接对应的第三网页。本发明专利技术还提供一种网页爬取装置、计算机设备以及计算机可读存储介质。本发明专利技术能够从网页的每个内容链接入手,爬取所有的相关网页,再通过内容去重,从而实现高效、全面地执行网页爬取任务。

【技术实现步骤摘要】
网页爬取方法、装置以及计算机设备
本专利技术涉及互联网
,尤其涉及一种网页爬取方法、装置、计算机设备及计算机可读存储介质。
技术介绍
随着互联网的快速发展,人们可以通过搜索引擎能从互联网上检索到很多包括工作、生活、学习方面的各种信息。对于企业来说,也可以通过互联网搜集某些单一主题内容的信息,用于分析和预测商品市场。比如,企业通过网络爬虫的方式爬取特定网络或者网站上的网页内容,然后分析出大众用户的偏好,从而进行市场分析。现有技术中通过网络爬虫工具爬取网页内容时一般都是采用自动翻页爬取方式,自动翻页爬取通常是针对设置有分页的系列性网页进行内容爬取,而且某些时候,由于网站方面对于网页设置的分页限制,使得爬虫工具通过列表和分页的模式并不能爬取到所有相关内容的网页。因此,现有技术中的爬取方法,爬取效率低下,爬取结果也不全面。
技术实现思路
有鉴于此,本专利技术提出一种网页爬取方法、装置、计算机设备及计算机可读存储介质,能够解决上述的爬虫工具在对网页爬取过程中爬取结果不全面,爬取效率低下的问题。首先,为实现上述目的,本专利技术提供一种网页爬取方法,所述方法包括:爬取第一网页,获取所述第一网页包括的第一内容以及第一内容链接,将所述第一内容保存到内容集合中;爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接;判断所述第二内容与所述第一内容是否相同;当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,并继续爬取所述第二内容链接对应的第三网页。在一个例子中,所述第一内容链接或所述第二内容链接包括目录列表内容链接,前后翻页内容链接,相关内容链接,推荐内容链接中的至少一种。在一个例子中,所述判断所述第二内容与所述第一内容是否相同包括:对所述第一内容进行特征数据提取,标记为第一标识,并将所述第一标识与所述第一内容关联保存到所述内容集合;在获取到所述第二内容后,对所述第二内容进行特征数据提取,标记为第二标识;通过判断所述第二标识与所述第一标识是否相同,从而判断所述第二内容与所述第一内容是否相同。在一个例子中,所述判断所述第二内容与所述第一内容是否相同包括:将所述第一内容对应的第一URL与所述第二内容对应的第二URL进行一致性比较;当所述第一URL与所述第二URL相同时,则判断所述第二内容与所述第一内容相同。在一个例子中,所述方法还包括:当所述第二内容与所述第一内容相同时,不对所述第二内容进行保存;结束爬取,将所述内容集合作为爬取结果输出。此外,为实现上述目的,本专利技术还提供一种网页爬取装置,所述装置包括:获取模块,用于爬取第一网页,获取所述第一网页包括的第一内容以及第一内容链接,将所述第一内容保存到内容集合中;所述获取模块,还用于爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接;判断模块,用于判断所述第二内容与所述第一内容是否相同;控制模块,用于当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,并控制所述获取模块继续爬取所述第二内容链接对应的第三网页。在一个例子中,所述装置还包括提取模块,其中:所述提取模块,用于对所述第一内容进行特征数据提取,标记为第一标识,并将所述第一标识与所述第一内容关联保存到所述内容集合;所述提取模块,还用于在获取到所述第二内容后,对所述第二内容进行特征数据提取,标记为第二标识;所述判断模块,还用于通过判断所述第二标识与所述第一标识是否相同,从而判断所述第二内容与所述第一内容是否相同。在一个例子中,所述判断模块还用于:将所述第一内容对应的第一URL与所述第二内容对应的第二URL进行一致性比较;当所述第一URL与所述第二URL相同时,则判断所述第二内容与所述第一内容相同。进一步地,本专利技术还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的网页爬取方法的步骤。进一步地,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的网页爬取方法的步骤。相较于现有技术,本专利技术所提出的网页爬取方法、装置、计算机设备及计算机可读存储介质,能够在爬取第一网页时,获取所述第一网页包括的第一内容以及第一内容链接,并将所述第一内容保存到内容集合中;然后继续爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接,并判断所述第二内容与所述第一内容是否相同;当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,再继续爬取所述第二内容链接对应的第三网页。通过这种方式,能够从网页的每个内容链接入手,爬取所有的相关网页,再通过内容去重,从而实现高效、全面地执行网页爬取任务。附图说明图1是本专利技术一实施例的应用环境示意图;图2是本专利技术网页爬取方法一具体实施例的流程示意图;图3是图2步骤S202的一示例性实例的示意图;图4是图2步骤S204中的判断所述第二内容与所述第一内容是否相同的过程的一具体实施例的流程示意图;图5是图2步骤S204中的判断所述第二内容与所述第一内容是否相同的过程的另一具体实施例的流程示意图;图6是本专利技术计算机设备一可选的硬件架构的示意图;图7是本专利技术网页爬取装置一实施例的程序模块示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。图1是本专利技术一实施例的应用环境示意图。参阅图1所示,所述计算机设备1与服务器连接,通过网络爬虫工具对所述服务器上的网页执行内容爬取操作。在本实施例中,所述计算机设备1可作为一个数据服务器,或者用户终端比如:手机,用户便携设备,PC机等。在其他实施例中,所述计算机设备1也可以作为独立的功能模块,然后附加到数据服务器或者用户终端上,用于实现爬取预设所述数据服务器或者用户终端连接的其他服务器上的网页内容。图2是本专利技术网页爬取方法一实施例的流程示意图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以本文档来自技高网...

【技术保护点】
1.一种网页爬取方法,其特征在于,所述方法包括:/n爬取第一网页,获取所述第一网页包括的第一内容以及第一内容链接,将所述第一内容保存到内容集合中;/n爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接;/n判断所述第二内容与所述第一内容是否相同;/n当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,并继续爬取所述第二内容链接对应的第三网页。/n

【技术特征摘要】
1.一种网页爬取方法,其特征在于,所述方法包括:
爬取第一网页,获取所述第一网页包括的第一内容以及第一内容链接,将所述第一内容保存到内容集合中;
爬取所述第一内容链接对应的第二网页,获取所述第二网页包括的第二内容以及第二内容链接;
判断所述第二内容与所述第一内容是否相同;
当所述第二内容与所述第一内容不相同时,将所述第二内容保存到内容集合中,并继续爬取所述第二内容链接对应的第三网页。


2.如权利要求1所述的网页爬取方法,其特征在于,所述第一内容链接或所述第二内容链接包括目录列表内容链接,前后翻页内容链接,相关内容链接,推荐内容链接中的至少一种。


3.如权利要求1所述的网页爬取方法,其特征在于,所述判断所述第二内容与所述第一内容是否相同包括:
对所述第一内容进行特征数据提取,标记为第一标识,并将所述第一标识与所述第一内容关联保存到所述内容集合;
在获取到所述第二内容后,对所述第二内容进行特征数据提取,标记为第二标识;
通过判断所述第二标识与所述第一标识是否相同,从而判断所述第二内容与所述第一内容是否相同。


4.如权利要求1所述的网页爬取方法,其特征在于,所述判断所述第二内容与所述第一内容是否相同包括:
将所述第一内容对应的第一URL与所述第二内容对应的第二URL进行一致性比较;
当所述第一URL与所述第二URL相同时,则判断所述第二内容与所述第一内容相同。


5.如权利要求1所述的网页爬取方法,其特征在于,所述方法还包括:
当所述第二内容与所述第一内容相同时,不对所述第二内容进行保存;
结束爬取,将所述内容集合作为爬取结果输出。


6.一种网页爬取装置,其特征在于,所述装置包括:
获...

【专利技术属性】
技术研发人员:唐君行
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1