页面爬取方法、装置、介质及电子设备制造方法及图纸

技术编号：33293021 阅读：22 留言：0更新日期：2022-05-01 00:16

本公开涉及人工智能和爬虫领域，揭示了一种页面爬取方法、装置、介质及电子设备。该方法包括：进行初始化操作，得到当前深度优先遍历次数和当前广度优先遍历次数；迭代执行爬取步骤和次数更新步骤，对多个页面中的资源进行爬取；爬取步骤包括：从起始网站开始，按照当前深度优先遍历次数从深度方向爬取起始网站在链接路径上的多层级网站的页面，并在每次爬取属于其中一层级的目标网站的页面时，按照当前广度优先遍历次数分别爬取链接了目标网站的页面所链接的同一层级的多个网站的页面；次数更新步骤包括：根据最近一次爬取步骤中爬取到的页面中的资源，调整当前深度优先遍历次数和当前广度优先遍历次数。此方法能够高效准确地爬取所需信息。取所需信息。取所需信息。

全部详细技术资料下载

【技术实现步骤摘要】
页面爬取方法、装置、介质及电子设备

[0001]本公开涉及人工智能和爬虫
，特别涉及一种页面爬取方法、装置、介质及电子设备。

技术介绍

[0002]网络爬虫Web Spider又叫Web Crawler或者Robot，是一个沿着链接漫游web文档集合的程序。它一般驻留在服务器上，并且利用标准的http协议根据超链接和web文档检索的方法遍历整个Intemet网信息进行搜索。
[0003]现有的网络爬虫大都是根据深度优先搜索或广度优先搜索方法进行Web文档的爬取的。
[0004]深度优先搜索(Depth—nrstSearch)，其设计思路是尽量“深”入地搜索信息资源。在深度优先搜索中，针对最新发现的网页源顶点p，如果它还有以此为起点而尚未搜索到的路径，则沿此路径继续搜索下去。反之，如果当顶点P的所有路径均己被搜索过，则回溯到初始点。但是深度优先策略不足之处是，深度优先策略在很多情况下会导致网络爬虫的陷入问题(trapped)，导致盲目搜索。
[0005]宽度优先搜索(Breadth—FirstSearch)是一种简便常用的搜索算法(又称广度优先搜索)。这一算法也是其他很多重要算法之原型，其主要用来解决最优解问题。其基本思想是：从起始网页源顶点P开始，沿着树的宽度遍历树的每一个节点，获取相关所有链接网页，进而再沿这些节点继续抓取该网页中的所有链接页面，最终遍历所有顶点。但该算法的设计和实现相对简单，属于盲目搜索，因而效率较低。换句话说，它并不考虑结果的可能位置，彻底地搜索整张图，直到找到结果...

【技术保护点】

【技术特征摘要】
1.一种页面爬取方法，其特征在于，所述方法包括：分别对深度优先遍历次数和广度优先遍历次数进行初始化操作，得到当前深度优先遍历次数和当前广度优先遍历次数；迭代执行爬取步骤和次数更新步骤，以对多个页面中的资源进行爬取；其中，所述爬取步骤包括：从起始网站开始，按照当前深度优先遍历次数从深度方向爬取所述起始网站在链接路径上的多层级网站的页面，并在每次爬取属于所述多层级网站的其中一层级的目标网站的页面时，按照当前广度优先遍历次数分别爬取链接了所述目标网站的页面所链接的同一层级的多个网站的页面；所述次数更新步骤包括：根据最近一次所述爬取步骤中爬取到的页面中的资源，调整所述当前深度优先遍历次数和所述当前广度优先遍历次数。2.根据权利要求1所述的方法，其特征在于，所述分别对深度优先遍历次数和广度优先遍历次数进行初始化操作，得到当前深度优先遍历次数和当前广度优先遍历次数，包括：爬取起始网站的所链接的各网站中页面的资源；根据爬取到各网站中页面的资源数量，对深度优先遍历次数和广度优先遍历次数进行初始化操作，得到当前深度优先遍历次数和当前广度优先遍历次数。3.根据权利要求1所述的方法，其特征在于，所述根据最近一次所述爬取步骤中爬取到的页面中的资源，调整所述当前深度优先遍历次数和所述当前广度优先遍历次数，包括：根据最近一次所述爬取步骤中爬取到的页面中的资源，按照如下公式调整所述当前深度优先遍历次数和所述当前广度优先遍历次数：度优先遍历次数和所述当前广度优先遍历次数：其中，i为根据爬取到的页面中的资源所计算出的参数，D
′
为当前深度优先遍历次数，W
′
为当前广度优先遍历次数，R
d
为最近一次爬取步骤中通过深度优先方式爬取到的页面中的资源的数量，R
W
为最近一次爬取步骤中通过广度优先方式爬取到的页面中的资源的数量，D为调整后的当前深度优先遍历次数，W为调整后的当前广度优先遍历次数。4.根据权利要求1所述的方法，其特征在于，所述迭代执行爬取步骤和次数更新步骤，以对多个页面中的资源进行爬取，包括：每当执行完预定数目次爬取步骤，执行一次所述次数更新步骤。5.根据权利要求1所述的方法，其特征在于，所述迭代执行爬取步骤和次数更新步骤，
...

【专利技术属性】
技术研发人员：郭红山，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人