一种可配置的网页数据采集方法、装置、设备及介质制造方法及图纸

技术编号:37701186 阅读:36 留言:0更新日期:2023-06-01 23:45
本发明专利技术提供了一种可配置的网页数据采集方法,包括:创建采集任务的配置信息;所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;基于所述采集目标页面配置,将所述采集任务按所述采集任务包含的页面地址的数量分解成对应的分解任务;基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。本发明专利技术还公开了一种可配置的网页数据采集装置、电子设备及计算机可读介质。本发明专利技术解决了现有技术中网页数据采集方法不够便利、通用的问题,可有效提高数据采集的效率,显著减少开发工作量。显著减少开发工作量。显著减少开发工作量。

【技术实现步骤摘要】
一种可配置的网页数据采集方法、装置、设备及介质


[0001]本专利技术属于互联网数据采集
,具体涉及一种可配置的网页数据采集方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]大数据时代,各行各业越来越依赖互联网信息。数据采集,数据挖掘应用越来越广泛。而网页数据采集就是其中很重要的一种数据来源方式。例如采集招投标网站的招标信息,电商网站的商品信息等。
[0003]目前,常见的网页数据采集方法有两类:
[0004]第一类只能针对某一网站或部分类型的网站进行采集,例如电商网站信息采集,这种采集方式可以获取比较全面的信息,但是仅仅适用于特定的网站。
[0005]第二类通过配置指定网页数据抽取规则,可以灵活匹配到简单网页的数据。但是对于复杂的页面,通常需要额外的开发来处理。情况一就是需要额外操作后才出现的数据(例如点击链接跳转,点击TAB选项卡,下滑页面翻页等等),情况二就是关联的数据分布在不同的页面,例如采集商品信息,商品价格和用户评价分散在两个不同的页面,虽然可以针对这两类页面分别采集数据,但是建立这两个数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种可配置的网页数据采集方法,包括:创建采集任务的配置信息;所述配置信息包括采集目标页面配置、列表匹配规则、行匹配规则以及采集数据字段配置;采集任务分解步骤:基于所述采集目标页面配置,将所述采集任务按所述采集任务包含的页面地址的数量分解成对应的分解任务;基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库。2.根据权利要求1所述的一种可配置的网页数据采集方法,其特征在于:所述采集任务分解步骤,包括:获取所述配置信息中的采集目标页面配置;分解步骤:根据所述采集任务是否为分页模式的判断结果,选择不同的方式获取所述采集任务中所有不重复的页面地址,并将所述页面地址作为分解任务加入到分解任务列表。3.根据权利要求2所述的一种可配置的网页数据采集方法,其特征在于:在所述分解步骤之前,还包括:判断所述采集任务是否已分解,若是则结束所述采集任务分解步骤,否则执行所述分解步骤;在所述分解步骤之后,还包括:将所述采集任务的状态标记为已分解。4.根据权利要求2所述的一种可配置的网页数据采集方法,其特征在于:所述分解步骤,包括:判断所述采集任务是否为分页模式,若是则从所述采集目标页面配置中获取URL、起始页码和结束页码,从所述起始页码至所述结束页码依次替换所述URL的占位符以生成若干目标链接,并将所述目标链接作为分解任务加入分解任务列表;否则从所述采集目标页面配置中获取目标地址、匹配规则及抓取层级,根据目标地址获取网页内容,按正则表达式获取符合所述匹配规则的目标链接,直到匹配不到链接或达到抓取层级;将获取的所述目标链接作为分解任务加入分解任务列表;对所述目标链接进行去重处理并入库。5.根据权利要求1所述的一种可配置的网页数据采集方法,其特征在于:所述基于所述列表匹配规则、行匹配规则以及采集数据字段配置,将所述分解任务对应的页面地址的数据采集并入库,包括如下步骤:获取所述分解任务的源码,并将所述源码封装成网页文档对象;根据所述列表匹配规则,从所述网页文档对象中获取列表文档对象;根据所述行匹配规则,从所述列表文档对象中...

【专利技术属性】
技术研发人员:姚辉
申请(专利权)人:重庆紫光华山智安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1