一种网页表格数据通用抓取方法技术

技术编号:28145635 阅读:11 留言:0更新日期:2021-04-21 19:29
本发明专利技术适用于计算机技术领域,提供了一种网页表格数据通用抓取方法;其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。展示。展示。

【技术实现步骤摘要】
一种网页表格数据通用抓取方法


[0001]本专利技术涉及计算机
,具体是一种网页表格数据通用抓取方法。

技术介绍

[0002]随着时代的进步,万维网成为当今传输数量最大、传输效率最高的信息数据载体。因此,如何有效的从万维网中获取需要的信息数据以及对海量信息的利用,成为网络通信
研究的热点课题。
[0003]现有的网页表格数据抓取系统,只能够对数据进行简单的抓取,不能够根据用户需要对抓取完成后的数据进行再处理,需要用户二次处理,因此 现提供一种网页表格数据通用抓取方法来解决该技术问题。

技术实现思路

[0004]本专利技术的目的在于提供一种网页表格数据通用抓取方法,以解决上述
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种网页表格数据通用抓取方法,其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。
[0006]作为本专利技术进一步的方案:所述自定义抓取内容特征为目标网站的数据抓取地址入口。
[0007]作为本专利技术再进一步的方案:获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
[0008]作为本专利技术再进一步的方案:从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取,进而实现快速的对数据进行抓取。
[0009]作为本专利技术再进一步的方案:所述网页表格数据通用抓取系统包括操作端和处理端,操作端与处理端通信连接;操作端,用于接收用户录入的自定义抓取内容特征;用用于接收处理端发送的表格数据,并将数据分类展示。
[0010]处理端,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表
格数据和含有表格数据的该页面网络链接储存至数据库中;用于对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端。
[0011]作为本专利技术再进一步的方案:所述操作端包括显示单元与录入单元,显示单元与录入单元通信连接。
[0012]显示单元,用于接收处理端发送的表格数据,并将数据分类展示;录入单元,用于接收用户录入的自定义抓取内容特征。
[0013]作为本专利技术再进一步的方案:所述处理端包括路径获取单元、解析单元、数据库、比对单元和后处理单元;路径获取单元、解析单元、数据库、比对单元和后处理单元之间均通信连接。
[0014]路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;解析单元,用于接收路径获取单元获取的页面的数据,并对页面信息进行解析,获取表格数据和该表格数据的页面网络链接,将表格数据和含有表格数据的该页面网络链接储存至数据库中;数据库,用于储存数据;比对单元,对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,重新发送给数据库进行储存,并将之前的数据进行覆盖,将处理完成后的表格数据发送给操作端。
[0015]作为本专利技术再进一步的方案:路径获取单元,用于获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。
[0016]作为本专利技术再进一步的方案:路径获取单元包括阵列处理模块和多个数据获取模块,阵列处理模块和多个数据获取模块之间通信连接。
[0017]阵列处理模块,用于从页面的URL路径阵列两端获取页面的URL路径,并将两端页面的URL路径逐一分配给数据获取模块;多个数据获取模块,用于接收阵列处理模块分配的页面的URL路径,根据页面的URL路径进行数据获取。
[0018]与现有技术相比,本专利技术的有益效果是:通过直接获取页面的URL路径,避免了在抓取数据时,每次都要逐级访问网站层级,增加抓取数据的时间和难度;通过对表格数据进行比对处理,将重复的处理掉;同时能够对数据进行分类展示;同时存储表格数据的页面网络链接,当使用者对表格数据存在异议的时候可以通过链接找到网页,根据网页数据理解表格。
附图说明
[0019]图1为网页表格数据通用抓取方法的结构示意图。
[0020]图2为网页表格数据通用抓取系统的网络结构示意图。
[0021]图3为网页表格数据通用抓取方法的结构示意图。
[0022]图4为网页表格数据通用抓取方法中路径获取单元的结构示意图。
[0023]图中:操作端

1、处理端

2、显示单元

11、录入单元

12、路径获取单元

21、解析单元

22、数据库

23、比对单元

24、后处理单元

25、阵列处理模块

211、数据获取模块

212。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]实施例1请参阅图1,本专利技术实施例1中,为本专利技术实施例提供的一种网页表格数据通用抓取方法的流程示意图,其应用于网页表格数据通用抓取系统,包括:S101:获取用户输入的自定义抓取内容特征;S102:获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;S103:对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库23中;S104:对数据库23中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。可以根据表格数据的属性,对其进行分类。
[0026]具体的,通过直接获取页面的URL路径,避免了在抓取数据时,每次都要逐级访问网站层级,增加抓取数据的时间和难度;通过对表格数据进行比对处理,将重复的处理掉;同时能够对数据进行分类展示;同时存储表格数据的页面网络链接,当使用者对表格数据存在异议的时候可以通过链接找到网页,根据网页数据理解表格。
[0027]所述自定义抓取内容特征为目标网站的数据抓取地址入口,其可以为目标网址的网络链接入口。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页表格数据通用抓取方法,其特征在于,其应用于网页表格数据通用抓取系统,包括以下处理步骤:获取用户输入的自定义抓取内容特征;获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列、展示。2.根据权利要求1所述的网页表格数据通用抓取方法,其特征在于,所述自定义抓取内容特征为目标网站的数据抓取地址入口。3.根据权利要求2所述的网页表格数据通用抓取方法,其特征在于,获取网站的配置文件信息,通过网站的配置文件信息解析出页面的URL路径阵列,根据页面的URL路径阵列逐一对页面进行数据获取。4.根据权利要求3所述的网页表格数据通用抓取方法,其特征在于,从页面的URL路径阵列两端同时获取页面的URL路径,同时两路进行页面数据抓取。5.根据权利要求1

4任一所述的网页表格数据通用抓取方法,其特征在于,所述网页表格数据通用抓取系统包括操作端和处理端,操作端与处理端通信连接;操作端,用于接收用户录入的自定义抓取内容特征;用用于接收处理端发送的表格数据,并将数据分类展示;处理端,用于获取网站的配置文件信息,通过网站的配置文件信息获取个页面的URL路径信息,进一步的获取各页面的数据;用于对页面信息进行解析,获取表格数据,将表格数据和含有表格数据的该页面网络链接储存至数据库中;用于对数据库中的表格数据进行比对,将相同数据进行剔除;然后对剔除后的表格数据进行分类排列,将处理完成后的表格数据发送给操作端。6.根据权利要求5所述的网页表...

【专利技术属性】
技术研发人员:曹肖林许琳逸
申请(专利权)人:江苏乐道胡巴投资管理有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1