数据采集方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32123764 阅读:22 留言:0更新日期:2022-01-29 19:11
本申请公开了一种数据采集方法、装置、存储介质及电子设备,涉及互联网技术领域,该方法包括:当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码;接收所述云端返回的字符串形式的所述爬虫代码;将所述爬虫代码转换为匹配目标网页的脚本代码块;将所述脚本代码块注入所述目标网页中进行数据采集。本申请有效避免网页规则变动时导致的数据采集失效问题,提升数据采集可靠性。数据采集可靠性。数据采集可靠性。

【技术实现步骤摘要】
数据采集方法、装置、存储介质及电子设备


[0001]本申请涉及互联网
,具体涉及一种数据采集方法、装置、存储介质及电子设备。

技术介绍

[0002]在以Android移动端为例的设备端中通常具有通过合法的爬虫代码抓取采集网页中数据的需求,通常通过制定对应网页的爬取规则的爬虫代码进行注入而采集数据,如果相应网页做了更新等,则需要更新相应的爬虫代码。
[0003]常规处理方案中,在设备端将爬虫代码内置于应用(app)内,如果应用对应的网页的网页规则变动,需要通过发布更新应用来更新爬虫代码,才能正常采集数据,否则数据采集失效,导致数据采集可靠性较低。

技术实现思路

[0004]本申请实施例提供一种方案,可以有效避免网页规则变动时导致的数据采集失效问题,提升数据采集可靠性。
[0005]为解决上述技术问题,本申请实施例提供以下技术方案:
[0006]根据本申请的一个实施例,一种数据采集方法,应用于目标应用,所述方法包括:当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据采集方法,其特征在于,应用于目标应用,包括:当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码;接收所述云端返回的字符串形式的所述爬虫代码;将所述爬虫代码转换为匹配目标网页的脚本代码块;将所述脚本代码块注入所述目标网页中进行数据采集。2.根据权利要求1所述的方法,其特征在于,所述向云端发送代码获取请求之前,所述方法还包括:获取所述目标网页中的网页规则变动信息;根据所述网页规则变动信息确定是否需要获取更新的爬虫代码;当确定需要获取更新的爬虫代码时,生成所述代码获取请求。3.根据权利要求1所述的方法,其特征在于,所述脚本代码块标定有特定标记;所述将所述脚本代码块注入所述目标网页中进行数据采集,包括:检测所述目标网页中是否存在所述特定标记对应的预设脚本代码块;当所述目标网页中不存在所述特定标记对应的预设脚本代码块时,将所述脚本代码块注入所述目标网页中进行数据采集。4.根据权利要求2所述的方法,其特征在于,所述生成所述代码获取请求,包括:获取所述目标应用对应的应用信息;生成携带所述应用信息的所述代码获取请求,所述应用信息用于所述云端确定所述目标应用匹配的所述爬虫代码。5.根据权利要求4所述的方法,其特征在于,所述获取所述目标应用对应的应用信息,包括:将所述目标网页中的网页规则变动信息发送至特定授权终端,以使得所述特定授权终端基于所...

【专利技术属性】
技术研发人员:张超炯
申请(专利权)人:深圳TCL新技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1