数据抓取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35104516 阅读:12 留言:0更新日期:2022-10-01 17:13
本公开提供了一种数据抓取方法、装置、电子设备和存储介质,涉及数据处理领域,具体为云计算和大数据领域。具体实现方案为:获取数据抓取配置信息,并解析得到应用标识和元素指向信息;根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。本公开实施例可以提高数据抓取精准性以及降低数据抓取成本。数据抓取成本。数据抓取成本。

【技术实现步骤摘要】
数据抓取方法、装置、电子设备和存储介质


[0001]本公开涉及数据处理领域,具体为云计算和大数据领域,具体涉及一种数据抓取方法、装置、电子设备和存储介质。

技术介绍

[0002]当今电子移动设备成为用户访问互联网,数据交互的主要载体和入口。
[0003]电子移动设备的数据抓取技术在大型数据存储、数据挖掘、网络取证、信息聚合和网页快照等领域有非常普遍的应用。

技术实现思路

[0004]本公开提供了一种数据抓取方法、装置、电子设备和存储介质。
[0005]根据本公开的一方面,提供了一种数据抓取方法,应用于客户端,包括:
[0006]获取数据抓取配置信息,并解析得到应用标识和元素指向信息;
[0007]根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;
[0008]对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。
[0009]根据本公开的另一方面,提供了一种数据抓取方法,应用于服务器,包括:
[0010]获取待更新信息对应的目标应用,以及目标元素;
[0011]获取所述目标应用的应用标识和所述目标应用的元素指向信息,并查询所述目标元素对应的元素指向信息;
[0012]根据所述目标应用的应用标识和所述目标元素对应的元素指向信息,生成数据抓取配置信息,并下发至所述客户端中,以使所述客户端根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,以及对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。
[0013]根据本公开的一方面,提供了一种数据抓取装置,配置于客户端,包括:
[0014]元素指向信息获取模块,用于获取数据抓取配置信息,并解析得到应用标识和元素指向信息;
[0015]应用展示页面生成模块,用于根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;
[0016]页面数据抓取模块,用于对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。
[0017]根据本公开的另一方面,提供了一种数据抓取装置,配置于服务器,包括:
[0018]抓取元素确定模块,用于获取待更新信息对应的目标应用,以及目标元素;
[0019]元素指向信息查询模块,用于获取所述目标应用的应用标识和所述目标应用的元素指向信息,并查询所述目标元素对应的元素指向信息;
[0020]配置信息下发模块,用于根据所述目标应用的应用标识和所述目标元素对应的元素指向信息,生成数据抓取配置信息,并下发至所述客户端中,以使所述客户端根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,以及对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。
[0021]根据本公开的另一方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与所述至少一个处理器通信连接的存储器;其中,
[0024]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所述的数据抓取方法。
[0025]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所述的数据抓取方法。
[0026]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所述的数据抓取方法。
[0027]本公开实施例可以提高数据抓取精准性以及降低数据抓取成本。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是根据本公开实施例公开的一种数据抓取方法的流程图;
[0031]图2是根据本公开实施例公开的另一种数据抓取方法的流程图;
[0032]图3是根据本公开实施例公开的另一种数据抓取方法的流程图;
[0033]图4是根据本公开实施例公开的一种数据抓取方法的场景图;
[0034]图5是根据本公开实施例公开的另一种数据抓取方法的场景图;
[0035]图6是根据本公开实施例公开的数据抓取方法适配的系统的结构示意图;
[0036]图7是根据本公开实施例公开的数据抓取方法适配的系统的应用场景图;
[0037]图8是根据本公开实施例公开的一种数据抓取装置的结构图;
[0038]图9是根据本公开实施例公开的另一种数据抓取装置的结构图;
[0039]图10是用来实现本公开实施例的数据抓取方法的电子设备的框图。
具体实施方式
[0040]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0041]图1是根据本公开实施例公开的一种数据抓取方法的流程图,本实施例可以适用于在客户端运行目标应用,并对目标应用展示的页面上的元素的内容数据进行抓取的情
况。本实施例方法可以由数据抓取装置来执行,该装置可采用软件和/或硬件的方式实现,并具体配置于具有一定数据运算能力的电子设备中,该电子设备可以是客户端设备,客户端设备具体是移动终端,例如手机、平板电脑、车载终端和台式电脑中的手机模拟机等。
[0042]S101,获取数据抓取配置信息,并解析得到应用标识和元素指向信息。
[0043]数据抓取配置信息用于客户端运行目标应用,并获取目标应用的展示页面中元素的内容数据。数据抓取配置信息可以指定目标应用和展示页面等,数据抓取配置信息还可以精准指定展示页面的元素等。数据抓取配置信息可以包括应用标识和元素指向信息。
[0044]其中,应用标识用于标识应用,并区分不同应用。元素指向信息与应用标识对应,用于在应用标识对应的目标应用中加载出目标元素,从而获取目标元素的内容数据。元素指向信息可以是指指向元素的信息,可以理解为能够在展示页面中加载出目标元素有关的信息。元素指向信息可以包括下述至少一项:目标元素所属的展示页面的指向信息、目标元素在展示页面中的位置和目标元素的标识信息等。其中,展示页面的指向信息可以是指生成该展示页面的路径,例如,展示页面为目标应用的首页,展示页面的指向信息可以为初始值,例如为空;又如,展示页面为首页的子页面,该展示页面的指向信息可以包括首页中跳转到该展示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抓取方法,应用于客户端,包括:获取数据抓取配置信息,并解析得到应用标识和元素指向信息;根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。2.根据权利要求1所述的方法,其中,所述根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,包括:根据所述元素指向信息中目标元素所属页面信息,模拟用户操作控制所述应用标识对应的目标应用,生成初始展示页面;根据所述元素指向信息所指向的目标元素,确定所述初始展示页面的滑动结束位置;模拟用户操作在所述初始展示页面上滑动至所述滑动结束位置,生成目标展示页面。3.根据权利要求2所述的方法,其中,所述滑动结束位置包括所述目标元素的显示位置或页面底部。4.根据权利要求1所述的方法,其中,所述对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据,包括:对所述目标展示页面进行解析,得到解析数据;在所述元素指向信息对应的目标元素为子元素的情况下,在所述解析数据中查询所述目标元素对应的父元素的内容数据;根据所述父元素的页面布局类型,确定所述目标元素与所述父元素包括的其他子元素之间的位置关系;在所述父元素的内容数据中,根据所述位置关系,查询所述目标元素对应的内容数据。5.一种数据抓取方法,应用于服务器,包括:获取待更新信息对应的目标应用,以及目标元素;获取所述目标应用的应用标识和所述目标应用的元素指向信息,并查询所述目标元素对应的元素指向信息;根据所述目标应用的应用标识和所述目标元素对应的元素指向信息,生成数据抓取配置信息,并下发至所述客户端中,以使所述客户端根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,以及对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。6.根据权利要求5所述的方法,其中,所述获取所述目标应用的元素指向信息,包括:遍历目标应用的展示页面;对所述展示页面进行解析,得到至少一个页面元素的标识信息和指向信息;在检测到所述页面元素为父元素的情况下,获取所述父元素对应的至少一组相同的标识信息,并确定所述父元素包括的子元素对应的组,其中,所述父元素包括的子元素的标识信息相同;将所述对应的组中标识信息,确定为所述父元素包括的子元素的标识信息;根据所述父元素的页面布局类型,确定各所述子元素在所述父元素的展示区域中的位置关系;根据所述子元素对应的组包括的标识信息的数量、所述位置关系、所述父元素的指向
信息和所述父元素的页面尺寸,确定各所述子元素的指向信息;将各所述页面元素的标识信息、各所述页面元素的指向信息、各所述子元素的标识信息和各所述子元素的指向信息,确定为所述目标应用的元素指向信息。7.根据权利要求5所述的方法,还包括:接收所述客户端发送的所述目标元素的内容数据,并将所述目标元素的内容数据发送至数据更新方,以使所述数据更新方根据所述目标元素的内容数据更新本地数据库;其中,所述待更新信息通过接收所述数据更新方发送的数据更新任务中提取。8.一种数据抓取装置,配置于客户端,包括:元素指向信息获取模块,用于获取数据抓取配置信息,并解析得到应用标识和元素指向信息;应用展示页面生成模块,用于根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;页面数据抓取模块,用于对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。9.根据权利要求8所述的装置,其中,所述应用展示页面生成模块,包括:初始展示页面生成单元,用于根据所述元素指向信息中目标元素所属页面信息,模拟用户操作控制所述应用标识对应的目...

【专利技术属性】
技术研发人员:王鹏郭彪
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1