一种可配置的网页数据采集方法、装置、设备及介质制造方法及图纸

技术编号:37701186 阅读:30 留言:0更新日期:2023-06-01 23:45
本发明专利技术提供了一种可配置的网页数据采集方法,包括:创建采集任务的配置信息;所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;基于所述采集目标页面配置,将所述采集任务按所述采集任务包含的页面地址的数量分解成对应的分解任务;基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。本发明专利技术还公开了一种可配置的网页数据采集装置、电子设备及计算机可读介质。本发明专利技术解决了现有技术中网页数据采集方法不够便利、通用的问题,可有效提高数据采集的效率,显著减少开发工作量。显著减少开发工作量。显著减少开发工作量。

【技术实现步骤摘要】
一种可配置的网页数据采集方法、装置、设备及介质


[0001]本专利技术属于互联网数据采集
,具体涉及一种可配置的网页数据采集方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]大数据时代,各行各业越来越依赖互联网信息。数据采集,数据挖掘应用越来越广泛。而网页数据采集就是其中很重要的一种数据来源方式。例如采集招投标网站的招标信息,电商网站的商品信息等。
[0003]目前,常见的网页数据采集方法有两类:
[0004]第一类只能针对某一网站或部分类型的网站进行采集,例如电商网站信息采集,这种采集方式可以获取比较全面的信息,但是仅仅适用于特定的网站。
[0005]第二类通过配置指定网页数据抽取规则,可以灵活匹配到简单网页的数据。但是对于复杂的页面,通常需要额外的开发来处理。情况一就是需要额外操作后才出现的数据(例如点击链接跳转,点击TAB选项卡,下滑页面翻页等等),情况二就是关联的数据分布在不同的页面,例如采集商品信息,商品价格和用户评价分散在两个不同的页面,虽然可以针对这两类页面分别采集数据,但是建立这两个数据的联系又需要额外的开发工作。
[0006]从上面的问题我们可以看出,现有的网页数据采集在面对日益复杂的网页交互时,还有很多需要人工开发处理的地方,需要寻求一种更便利、更通用的数据采集方法。

技术实现思路

[0007]针对现有技术中所存在的不足,本专利技术提供了一种高效、可显著减少开发工作量的可配置的网页数据采集方法、装置、电子设备及计算机可读介质。/>[0008]第一方面,一种可配置的网页数据采集方法,包括:
[0009]创建采集任务的配置信息;所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;
[0010]采集任务分解步骤:基于所述采集目标页面配置,将所述采集任务按所述采集任务包含的页面地址的数量分解成对应的分解任务;
[0011]基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。
[0012]作为优选实施例,所述采集任务分解步骤,包括:
[0013]获取所述配置信息中的采集目标页面配置;
[0014]分解步骤:根据所述采集任务是否为分页模式的判断结果,选择不同的方式获取所述采集任务中所有不重复的页面地址,并将所述页面地址作为分解任务加入到分解任务列表。
[0015]作为进一步优选实施例,在所述分解步骤之前,还包括:
[0016]判断所述采集任务是否已分解,若是则结束所述采集任务分解步骤,否则执行所
述分解步骤;
[0017]在所述分解步骤之后,还包括:
[0018]将所述采集任务的状态标记为已分解。
[0019]作为优选实施例,所述分解步骤,包括:
[0020]判断所述采集任务是否为分页模式,若是则从所述采集目标页面配置中获取URL、起始页码和结束页码,从所述起始页码至所述结束页码依次替换所述URL的占位符以生成若干目标链接,并将所述目标链接作为分解任务加入分解任务列表;
[0021]否则从所述采集目标页面配置中获取目标地址、匹配规则及抓取层级,根据目标地址获取网页内容,按正则表达式获取符合所述匹配规则的目标链接,直到匹配不到链接或达到抓取层级;将获取的所述目标链接作为分解任务加入分解任务列表;
[0022]对所述目标链接进行去重处理并入库。
[0023]作为优选实施例,所述基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库,包括如下步骤:
[0024]获取所述分解任务的源码,并将所述源码封装成网页文档对象;
[0025]根据所述列表匹配规则,从所述网页文档对象中获取列表文档对象;
[0026]根据所述行匹配规则,从所述列表文档对象中获取多个行文档对象;
[0027]遍历所述行文档对象,根据所述行文档对象中的字段是否能直接获取的判断结果,选择不同的方式采集字段并将其加入采集结果列表;
[0028]在遍历完所述行文档对象后,对所述采集结果列表中的字段进行去重处理并入库;
[0029]将所述分解任务标记为已完成。
[0030]作为优选实施例,所述根据所述行文档对象中的字段是否能直接获取的判断结果,选择不同的方式采集字段并将其加入采集结果列表,包括:
[0031]判断字段是否可以直接获取,若是则通过所述采集字段列表配置的匹配规则获取到对应的HTML元素,并获取所述HTML元素的属性作为目标字段;
[0032]否则通过解析所述采集字段列表配置的匹配规则,获得操作指令列表;遍历执行所述操作指令列表中的操作指令,直到匹配到目标字段;
[0033]将所述目标字段加入采集结果列表。
[0034]作为优选实施例,所述获取所述分解任务的源码,通过无界面浏览器实现。
[0035]作为优选实施例,所述遍历执行所述操作指令列表中的操作指令,通过无界面浏览器调用对应操作指令的脚本实现。
[0036]第二方面,一种可配置的网页数据采集装置,包括:
[0037]采集任务配置模块,用于创建采集任务的配置信息,所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;
[0038]采集任务分解模块,用于基于所述采集目标页面配置,根据所述采集任务包含的页面地址的数量将所述采集任务分解成与所述页面地址数量对应的分解任务;
[0039]网页数据采集模块:用于基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。
[0040]第三方面,一种电子设备,包括:
[0041]一个或多个处理器;
[0042]存储装置,其上存储有一个或多个程序;
[0043]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的任一种可配置的网页数据采集方法。
[0044]第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面所述的任一种可配置的网页数据采集方法。
[0045]相比于现有技术,本专利技术具有如下有益效果:
[0046]通过采集目标页面配置将采集任务按获取页面地址的数量分解为多个任务,并根据模拟浏览器手工操作的采集规则设置了一套关于网页列表、行、元素和属性的匹配规则,在采集交互复杂的网页数据时,可以不用额外的开发就能采集到所有数据(包含需要点击跳转等复杂操作才能采集到的关联数据),极大的减少了人工开发工作量。
附图说明
[0047]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可配置的网页数据采集方法,包括:创建采集任务的配置信息;所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;采集任务分解步骤:基于所述采集目标页面配置,将所述采集任务按所述采集任务包含的页面地址的数量分解成对应的分解任务;基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。2.根据权利要求1所述的一种可配置的网页数据采集方法,其特征在于:所述采集任务分解步骤,包括:获取所述配置信息中的采集目标页面配置;分解步骤:根据所述采集任务是否为分页模式的判断结果,选择不同的方式获取所述采集任务中所有不重复的页面地址,并将所述页面地址作为分解任务加入到分解任务列表。3.根据权利要求2所述的一种可配置的网页数据采集方法,其特征在于:在所述分解步骤之前,还包括:判断所述采集任务是否已分解,若是则结束所述采集任务分解步骤,否则执行所述分解步骤;在所述分解步骤之后,还包括:将所述采集任务的状态标记为已分解。4.根据权利要求2所述的一种可配置的网页数据采集方法,其特征在于:所述分解步骤,包括:判断所述采集任务是否为分页模式,若是则从所述采集目标页面配置中获取URL、起始页码和结束页码,从所述起始页码至所述结束页码依次替换所述URL的占位符以生成若干目标链接,并将所述目标链接作为分解任务加入分解任务列表;否则从所述采集目标页面配置中获取目标地址、匹配规则及抓取层级,根据目标地址获取网页内容,按正则表达式获取符合所述匹配规则的目标链接,直到匹配不到链接或达到抓取层级;将获取的所述目标链接作为分解任务加入分解任务列表;对所述目标链接进行去重处理并入库。5.根据权利要求1所述的一种可配置的网页数据采集方法,其特征在于:所述基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库,包括如下步骤:获取所述分解任务的源码,并将所述源码封装成网页文档对象;根据所述列表匹配规则,从所述网页文档对象中获取列表文档对象;根据所述行匹配规则,从所述列表文档对象中...

【专利技术属性】
技术研发人员:姚辉
申请(专利权)人:重庆紫光华山智安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1