数据爬取方法、装置、电子设备和存储介质制造方法及图纸

技术编号：41090673 阅读：2 留言：0更新日期：2024-04-25 13:51

本发明专利技术公开了一种数据爬取方法、装置、电子设备和存储介质。其中，方法包括确定需要爬取的网页地址和需要抽取的链接标签；根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系；根据所述层级关系逐层爬取，并将爬取的网页信息进行保存。本发明专利技术提供的方案通过定义链接关系并遍历每一层级，可以获取到完整的网页内容，而不是只局限于当前页面的部分内容，实现网页信息的自动化爬取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例涉及数据采集，尤其涉及一种数据爬取方法、装置、电子设备和存储介质。

技术介绍

1、网络爬虫是一种自动化的网页抓取工具，可以根据一定的规则和算法，从互联网上抓取和收集数据。网络爬虫的技术不断发展，已经成为了数据采集、信息处理、搜索引擎等应用领域的重要工具。

2、在传统的爬取程序中，常常由于不能明确链接之间的层级关系，无法对爬取的链接进行分级，从而造成爬取混乱，仅爬取到部分链接的网页内容，无法爬取到完整的网页内容等问题，造成数据采集困难。

技术实现思路

1、为解决现有数据爬取过程中不能明确链接之间的层级关系，无法对爬取的链接进行分级的技术问题，本专利技术实施例提供一种数据爬取方法、装置、电子设备和存储介质。

2、本专利技术实施例的技术方案是这样实现的：

3、本专利技术实施例提供了一种数据爬取方法，其特征在于，所述方法包括：确定需要爬取的网页地址和需要抽取的链接标签；根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系；根据所述层级关系逐层爬取，并将爬取的网页信息进行保存。

4、在一实施例中，所述根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系，包括：在定义的第一函数中传入所述需要爬取的网页地址和所述需要抽取的链接标签；所述第一函数用于根据所述需要爬取的网页地址和所述需要抽取的链接标签利用第一库获取网页内容；所述第一库用于向所述述需要爬取的网页地址发送请求获取网页内容；利用第二库解

5、在一实施例中，所述遍历所述链接标签，对于所述链接标签中包含下一层链接的链接标签，继续调用第一函数获取所述下一层链接的网页内容，包括：遍历所述链接标签，判断所述链接标签的类型是否为链接类型；在判断所述链接标签的类型为链接类型的情况下，获取所述链接标签中的第一属性值；将所述第一属性值作为下一层链接的网页地址，调用第一函数获取下一层链接的网页内容。

6、在一实施例中，所述遍历所述链接标签，判断所述链接标签的类型是否为链接类型之后，所述方法还包括：在判断所述链接标签的类型为资源类型的情况下，根据所述链接标签获取对应的资源文件并进行存储。

7、在一实施例中，所述根据所述链接标签获取对应的资源文件并进行存储，包括：根据所述链接标签确定所述资源文件的存储位置；在确定所述存储位置为网站或服务器的情况下，通过向所述网站或者服务器发送获取请求，获取对应的资源文件；在确定所述存储位置为本地文件系统的情况下，直接访问文件路径获取对应的资源文件。

8、在一实施例中，所述根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系之后，所述方法还包括：在预设的多种去重方式中选定至少一种去重方式；基于选定的去重方式对所述链接进行去重。

9、在一实施例中，所述预设的多种去重方式包括：获取每一链接所对应的网页地址，判断所述网页地址是否重复，去除重复的网页地址所对应的链接；或者，获取每一链接所对应的网页内容，对所述网页内容进行哈希处理，获取哈希值，判断所述哈希值是否相同，去除哈希值相同的网页内容所对应的链接；或者，获取每一链接所对应的网页的指纹信息，去除指纹信息相同的网页所对应的链接。

10、本专利技术实施例还提供了一种数据爬取装置，所述数据爬取装置包括：第一确定模块，用于确定需要爬取的网页地址和需要抽取的链接标签；第二确定模块，用于根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系；爬取模块，用于根据所述层级关系逐层爬取，并将爬取的网页信息进行保存。

11、本专利技术实施例还提供了一种电子设备，包括：传感器、处理器和用于存储能够在处理器上运行的计算机程序的存储器；其中，处理器用于运行计算机程序时，执行上述任一方法的步骤。

12、本专利技术实施例还提供了一种存储介质，存储介质中存储有计算机程序，计算机程序被处理器执行时，实现上述任一方法的步骤。

13、本专利技术实施例提供的数据爬取方法、装置、电子设备和存储介质，确定需要爬取的网页地址和需要抽取的链接标签；根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系；根据所述层级关系逐层爬取，并将爬取的网页信息进行保存。本专利技术提供的方案通过定义链接关系并遍历每一层级，可以获取到完整的网页内容，而不是只局限于当前页面的部分内容，实现网页信息的自动化爬取。

本文档来自技高网...

【技术保护点】

1.一种数据爬取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系，包括：

3.根据权利要求2所述的方法，其特征在于，所述遍历所述链接标签，对于所述链接标签中包含下一层链接的链接标签，继续调用第一函数获取所述下一层链接的网页内容，包括：

4.根据权利要求3所述的方法，其特征在于，所述遍历所述链接标签，判断所述链接标签的类型是否为链接类型之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述链接标签获取对应的资源文件并进行存储，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述预设的多种去重方式包括：

8.一种数据爬取装置，其特征在于，所述数据爬取装置包括：

9.一种电子设备，其特征在于，包括：传感器、处理器和用于存储能

10.一种存储介质，所述存储介质中存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种数据爬取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述需要爬取的网页地址和所述需要抽取的链接标签确定链接之间的层级关系，包括：

4.根据权利要求3所述的方法，其特征在于，所述遍历所述链接标签，判断所述链接标签的类型是否为链接类型之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述链接标签获取对应的资源文件并...

【专利技术属性】
技术研发人员：刘文强，陈渌萍，吕韬，
申请(专利权)人：赛迪检测认证中心有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人