页面爬取方法、装置、介质及电子设备制造方法及图纸

技术编号:33293021 阅读:22 留言:0更新日期:2022-05-01 00:16
本公开涉及人工智能和爬虫领域,揭示了一种页面爬取方法、装置、介质及电子设备。该方法包括:进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数;迭代执行爬取步骤和次数更新步骤,对多个页面中的资源进行爬取;爬取步骤包括:从起始网站开始,按照当前深度优先遍历次数从深度方向爬取起始网站在链接路径上的多层级网站的页面,并在每次爬取属于其中一层级的目标网站的页面时,按照当前广度优先遍历次数分别爬取链接了目标网站的页面所链接的同一层级的多个网站的页面;次数更新步骤包括:根据最近一次爬取步骤中爬取到的页面中的资源,调整当前深度优先遍历次数和当前广度优先遍历次数。此方法能够高效准确地爬取所需信息。取所需信息。取所需信息。

【技术实现步骤摘要】
页面爬取方法、装置、介质及电子设备


[0001]本公开涉及人工智能和爬虫
,特别涉及一种页面爬取方法、装置、介质及电子设备。

技术介绍

[0002]网络爬虫Web Spider又叫Web Crawler或者Robot,是一个沿着链接漫游web文档集合的程序。它一般驻留在服务器上,并且利用标准的http协议根据超链接和web文档检索的方法遍历整个Intemet网信息进行搜索。
[0003]现有的网络爬虫大都是根据深度优先搜索或广度优先搜索方法进行Web文档的爬取的。
[0004]深度优先搜索(Depth—nrstSearch),其设计思路是尽量“深”入地搜索信息资源。在深度优先搜索中,针对最新发现的网页源顶点p,如果它还有以此为起点而尚未搜索到的路径,则沿此路径继续搜索下去。反之,如果当顶点P的所有路径均己被搜索过,则回溯到初始点。但是深度优先策略不足之处是,深度优先策略在很多情况下会导致网络爬虫的陷入问题(trapped),导致盲目搜索。
[0005]宽度优先搜索(Breadth—FirstSearch)是一种简便常用的搜索算法(又称广度优先搜索)。这一算法也是其他很多重要算法之原型,其主要用来解决最优解问题。其基本思想是:从起始网页源顶点P开始,沿着树的宽度遍历树的每一个节点,获取相关所有链接网页,进而再沿这些节点继续抓取该网页中的所有链接页面,最终遍历所有顶点。但该算法的设计和实现相对简单,属于盲目搜索,因而效率较低。换句话说,它并不考虑结果的可能位置,彻底地搜索整张图,直到找到结果为止。为尽可能覆盖较多网页,宽度优先搜索方法是较好的选择。
[0006]然而,深度优先会浪费资源盲目搜索,忽略很多重要的信息;广度优先的策略由于要遍历所有节点,所以效率很低。

技术实现思路

[0007]在人工智能和爬虫
,为了解决现有技术中进行页面爬取时,深度优先搜索方法忽略重要信息太多而广度优先搜索方式效率很低的的技术问题,本公开的目的在于提供一种页面爬取方法、装置、介质及电子设备。
[0008]根据本公开的一方面,提供了一种页面爬取方法,所述方法包括:
[0009]分别对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数;
[0010]迭代执行爬取步骤和次数更新步骤,以对多个页面中的资源进行爬取;
[0011]其中,所述爬取步骤包括:
[0012]从起始网站开始,按照当前深度优先遍历次数从深度方向爬取所述起始网站在链接路径上的多层级网站的页面,并在每次爬取属于所述多层级网站的其中一层级的目标网
站的页面时,按照当前广度优先遍历次数分别爬取链接了所述目标网站的页面所链接的同一层级的多个网站的页面;
[0013]所述次数更新步骤包括:
[0014]根据最近一次所述爬取步骤中爬取到的页面中的资源,调整所述当前深度优先遍历次数和所述当前广度优先遍历次数。
[0015]根据本公开的另一方面,提供了一种页面爬取装置,所述装置包括:
[0016]初始化模块,被配置为分别对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数;
[0017]步骤迭代执行模块,被配置为迭代执行爬取步骤和次数更新步骤,以对多个页面中的资源进行爬取;
[0018]其中,所述爬取步骤包括:
[0019]从起始网站开始,按照当前深度优先遍历次数从深度方向爬取所述起始网站在链接路径上的多层级网站的页面,并在每次爬取属于所述多层级网站的其中一层级的目标网站的页面时,按照当前广度优先遍历次数分别爬取链接了所述目标网站的页面所链接的同一层级的多个网站的页面;
[0020]所述次数更新步骤包括:
[0021]根据最近一次所述爬取步骤中爬取到的页面中的资源,调整所述当前深度优先遍历次数和所述当前广度优先遍历次数。
[0022]根据本公开的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
[0023]根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
[0024]处理器;
[0025]存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
[0026]本公开的实施例提供的技术方案可以包括以下有益效果:
[0027]对于本公开所提供的页面爬取方法、装置、介质及电子设备,该方法包括如下步骤:分别对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数;迭代执行爬取步骤和次数更新步骤,以对多个页面中的资源进行爬取;其中,所述爬取步骤包括:从起始网站开始,按照当前深度优先遍历次数从深度方向爬取所述起始网站在链接路径上的多层级网站的页面,并在每次爬取属于所述多层级网站的其中一层级的目标网站的页面时,按照当前广度优先遍历次数分别爬取链接了所述目标网站的页面所链接的同一层级的多个网站的页面;所述次数更新步骤包括:根据最近一次所述爬取步骤中爬取到的页面中的资源,调整所述当前深度优先遍历次数和所述当前广度优先遍历次数。
[0028]此方法下,通过把广度优先和深度优先的爬取策略按照一个合理的方式结合起来,并在执行完爬取步骤之后,可以对当前深度优先遍历次数和当前广度优先遍历次数进行更新,与单独使用深度优先方式相比,可以使重要信息被忽略的可能性减少,从而既能够搜索出有用的信息,也能够提高爬虫的搜索效率。
[0029]应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本
专利技术。
附图说明
[0030]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0031]图1是根据一示例性实施例示出的一种页面爬取方法的系统架构示意图;
[0032]图2是根据一示例性实施例示出的一种页面爬取方法的流程图;
[0033]图3是根据一示例性实施例示出的分别对深度优先遍历次数和广度优先遍历次数进行初始化操作的流程图;
[0034]图4是根据一示例性实施例示出的迭代执行爬取步骤和次数更新步骤的流程示意图;
[0035]图5是根据一示例性实施例示出的一种页面爬取装置的框图;
[0036]图6是根据一示例性实施例示出的一种实现上述页面爬取方法的电子设备示例框图;
[0037]图7是根据一示例性实施例示出的一种实现上述页面爬取方法的程序产品。
具体实施方式
[0038]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种页面爬取方法,其特征在于,所述方法包括:分别对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数;迭代执行爬取步骤和次数更新步骤,以对多个页面中的资源进行爬取;其中,所述爬取步骤包括:从起始网站开始,按照当前深度优先遍历次数从深度方向爬取所述起始网站在链接路径上的多层级网站的页面,并在每次爬取属于所述多层级网站的其中一层级的目标网站的页面时,按照当前广度优先遍历次数分别爬取链接了所述目标网站的页面所链接的同一层级的多个网站的页面;所述次数更新步骤包括:根据最近一次所述爬取步骤中爬取到的页面中的资源,调整所述当前深度优先遍历次数和所述当前广度优先遍历次数。2.根据权利要求1所述的方法,其特征在于,所述分别对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数,包括:爬取起始网站的所链接的各网站中页面的资源;根据爬取到各网站中页面的资源数量,对深度优先遍历次数和广度优先遍历次数进行初始化操作,得到当前深度优先遍历次数和当前广度优先遍历次数。3.根据权利要求1所述的方法,其特征在于,所述根据最近一次所述爬取步骤中爬取到的页面中的资源,调整所述当前深度优先遍历次数和所述当前广度优先遍历次数,包括:根据最近一次所述爬取步骤中爬取到的页面中的资源,按照如下公式调整所述当前深度优先遍历次数和所述当前广度优先遍历次数:度优先遍历次数和所述当前广度优先遍历次数:其中,i为根据爬取到的页面中的资源所计算出的参数,D

为当前深度优先遍历次数,W

为当前广度优先遍历次数,R
d
为最近一次爬取步骤中通过深度优先方式爬取到的页面中的资源的数量,R
W
为最近一次爬取步骤中通过广度优先方式爬取到的页面中的资源的数量,D为调整后的当前深度优先遍历次数,W为调整后的当前广度优先遍历次数。4.根据权利要求1所述的方法,其特征在于,所述迭代执行爬取步骤和次数更新步骤,以对多个页面中的资源进行爬取,包括:每当执行完预定数目次爬取步骤,执行一次所述次数更新步骤。5.根据权利要求1所述的方法,其特征在于,所述迭代执行爬取步骤和次数更新步骤,
...

【专利技术属性】
技术研发人员:郭红山
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1