【技术实现步骤摘要】
数据抓取方法、装置、电子设备和存储介质
[0001]本公开涉及数据处理领域,具体为云计算和大数据领域,具体涉及一种数据抓取方法、装置、电子设备和存储介质。
技术介绍
[0002]当今电子移动设备成为用户访问互联网,数据交互的主要载体和入口。
[0003]电子移动设备的数据抓取技术在大型数据存储、数据挖掘、网络取证、信息聚合和网页快照等领域有非常普遍的应用。
技术实现思路
[0004]本公开提供了一种数据抓取方法、装置、电子设备和存储介质。
[0005]根据本公开的一方面,提供了一种数据抓取方法,应用于客户端,包括:
[0006]获取数据抓取配置信息,并解析得到应用标识和元素指向信息;
[0007]根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;
[0008]对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。
[0009]根据本公开的另一方面,提供了一种数据抓取方法,应用于服务器,包括:
[0010]获取待更新信息对应的目标应用,以及目标元素;
[0011]获取所述目标应用的应用标识和所述目标应用的元素指向信息,并查询所述目标元素对应的元素指向信息;
[0012]根据所述目标应用的应用标识和所述目标元素对应的元素指向信息,生成数据抓取配置信息,并下发至所述客户端中,以使所述客户端根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,以及对所述目 ...
【技术保护点】
【技术特征摘要】
1.一种数据抓取方法,应用于客户端,包括:获取数据抓取配置信息,并解析得到应用标识和元素指向信息;根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。2.根据权利要求1所述的方法,其中,所述根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,包括:根据所述元素指向信息中目标元素所属页面信息,模拟用户操作控制所述应用标识对应的目标应用,生成初始展示页面;根据所述元素指向信息所指向的目标元素,确定所述初始展示页面的滑动结束位置;模拟用户操作在所述初始展示页面上滑动至所述滑动结束位置,生成目标展示页面。3.根据权利要求2所述的方法,其中,所述滑动结束位置包括所述目标元素的显示位置或页面底部。4.根据权利要求1所述的方法,其中,所述对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据,包括:对所述目标展示页面进行解析,得到解析数据;在所述元素指向信息对应的目标元素为子元素的情况下,在所述解析数据中查询所述目标元素对应的父元素的内容数据;根据所述父元素的页面布局类型,确定所述目标元素与所述父元素包括的其他子元素之间的位置关系;在所述父元素的内容数据中,根据所述位置关系,查询所述目标元素对应的内容数据。5.一种数据抓取方法,应用于服务器,包括:获取待更新信息对应的目标应用,以及目标元素;获取所述目标应用的应用标识和所述目标应用的元素指向信息,并查询所述目标元素对应的元素指向信息;根据所述目标应用的应用标识和所述目标元素对应的元素指向信息,生成数据抓取配置信息,并下发至所述客户端中,以使所述客户端根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面,以及对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。6.根据权利要求5所述的方法,其中,所述获取所述目标应用的元素指向信息,包括:遍历目标应用的展示页面;对所述展示页面进行解析,得到至少一个页面元素的标识信息和指向信息;在检测到所述页面元素为父元素的情况下,获取所述父元素对应的至少一组相同的标识信息,并确定所述父元素包括的子元素对应的组,其中,所述父元素包括的子元素的标识信息相同;将所述对应的组中标识信息,确定为所述父元素包括的子元素的标识信息;根据所述父元素的页面布局类型,确定各所述子元素在所述父元素的展示区域中的位置关系;根据所述子元素对应的组包括的标识信息的数量、所述位置关系、所述父元素的指向
信息和所述父元素的页面尺寸,确定各所述子元素的指向信息;将各所述页面元素的标识信息、各所述页面元素的指向信息、各所述子元素的标识信息和各所述子元素的指向信息,确定为所述目标应用的元素指向信息。7.根据权利要求5所述的方法,还包括:接收所述客户端发送的所述目标元素的内容数据,并将所述目标元素的内容数据发送至数据更新方,以使所述数据更新方根据所述目标元素的内容数据更新本地数据库;其中,所述待更新信息通过接收所述数据更新方发送的数据更新任务中提取。8.一种数据抓取装置,配置于客户端,包括:元素指向信息获取模块,用于获取数据抓取配置信息,并解析得到应用标识和元素指向信息;应用展示页面生成模块,用于根据所述元素指向信息,模拟用户操作控制所述应用标识对应的目标应用,生成目标展示页面;页面数据抓取模块,用于对所述目标展示页面进行解析,得到所述元素指向信息对应的目标元素的内容数据。9.根据权利要求8所述的装置,其中,所述应用展示页面生成模块,包括:初始展示页面生成单元,用于根据所述元素指向信息中目标元素所属页面信息,模拟用户操作控制所述应用标识对应的目...
【专利技术属性】
技术研发人员:王鹏,郭彪,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。