数据采集方法、装置、设备及介质制造方法及图纸

技术编号:33779628 阅读:25 留言:0更新日期:2022-06-12 14:33
本申请涉及互联网应用技术领域,具体公开了一种数据采集方法、装置、设备及介质,该数据采集方法通过响应用户发送的目标网址,显示目标网址对应的目标页面;接收用户对目标页面中可采集数据执行的选取操作,得到目标采集数据项;基于目标页面中目标采集数据项需要的输入参数,获取目标页面中目标采集数据项对应的依赖页面;其中,依赖页面存在输入参数;基于依赖页面生成数据采集任务,根据数据采集任务进行数据采集。使用户仅需进行简单的选取操作即可完成数据采集任务的自动生成,由此用户无需具备专业的网络数据采集知识即可生成并定义数据采集任务,通过该数据采集任务从网站中采集数据,提高了数据采集的效率以及通用性。提高了数据采集的效率以及通用性。提高了数据采集的效率以及通用性。

【技术实现步骤摘要】
数据采集方法、装置、设备及介质


[0001]本申请涉及互联网应用
,具体而言,涉及一种数据采集方法、装置、设备及介质。

技术介绍

[0002]随着互联网技术的蓬勃发展,各种内容平台层出不穷,海量内容呈指数级增长。以往人们通过内容平台中信息浏览的进行获得所关注网页信息的方式,随着内容平台的增多以及海量内容的不断增长而不再适用,如何高效获得所关注的网页信息,成为当前亟待解决的问题。
[0003]网页信息获取的现有实现,一方面是借助于各大内容平台中内容的逐一浏览实现,另一方面则是搜索的发起不断获取得到来自各大内容平台的网页信息搜索结果,进而以此来较为快速的获得网页信息。但是,无论何种实现方式,都需要人工介入进行搜索浏览筛选,无法自动快速获得关注的各类网页信息,也无法实现众多类别的网页信息高效获取,依赖于人工完成的网页信息获取,不具备通用性。
[0004]综上所述,面向于诸多内容平台以及指数级增长的海量内容,亟待解决网页信息获取中由于依赖于人工,而不具备高效性以及通用性的缺陷。

技术实现思路

[0005]为解决上述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,所述方法包括:响应用户发送的目标网址,显示所述目标网址对应的目标页面;其中,所述目标页面包括可采集数据;接收所述用户对所述目标页面中可采集数据执行的选取操作,得到目标采集数据项;基于所述目标页面中目标采集数据项需要的输入参数,获取所述目标页面中所述目标采集数据项对应的依赖页面;其中,所述依赖页面存在所述输入参数;基于所述依赖页面生成数据采集任务,根据所述数据采集任务进行数据采集。2.根据权利要求1所述的方法,其特征在于,所述接收所述用户对所述目标页面中可采集数据执行的选取操作,得到目标采集数据项,包括:接收所述用户对所述目标页面中可采集数据执行的至少两次选取操作,得到第一选取数据以及第二选取数据;分别获取所述第一选取数据以及所述第二选取数据的数据项标识;若所述第一选取数据以及所述第二选取数据的数据项标识相同,则将所述数据项标识作为目标采集数据项。3.根据权利要求2所述的方法,其特征在于,所述基于所述依赖页面生成数据采集任务,包括:若所述第一选取数据以及所述第二选取数据的数据项标识相同,则获取所述第一选取数据的第一数据提取步骤,以及所述第二选取数据的第二数据提取步骤;基于所述第一数据提取步骤以及所述第二数据提取步骤得到所述目标采集数据项的目标数据提取步骤;基于所述目标数据提取步骤以及所述依赖页面生成所述数据采集任务。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一数据提取步骤以及所述第二数据提取步骤得到所述目标采集数据项的目标数据提取步骤,包括:基于所述第一数据提取步骤以及所述第二数据提取步骤中包含的相同的子步骤,生成所述目标采集数据项的目标数据提取步骤。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标页面中目标采集数据项需要的输入参数,获取所述目标页面中所述目标采集数据项对应的依赖页面,包括:基于所述目标页面中目标采集数据项需要的输入参数,获取与所述目标页面关联的...

【专利技术属性】
技术研发人员:刘建华
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1