一种网络数据的爬取方法、装置、存储介质和终端设备制造方法及图纸

技术编号:21952575 阅读:38 留言:0更新日期:2019-08-24 17:46
本发明专利技术涉及计算机技术领域,提出一种网络数据的爬取方法、装置、存储介质和终端设备。该网络数据的爬取方法包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。上述过程能够自动唤起终端设备上安装的APP,并控制APP在各个显示页面之间跳转;在页面跳转的过程中,识别并提取每个页面控件包含的内容数据,从而获取到存于APP中的数据资源。

A crawling method, device, storage medium and terminal device for network data

【技术实现步骤摘要】
一种网络数据的爬取方法、装置、存储介质和终端设备
本专利技术涉及计算机
,尤其涉及一种网络数据的爬取方法、装置、存储介质和终端设备。
技术介绍
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直至满足一定的停止条件。可见,传统爬虫是基于URL爬取数据,然而现在大量的数据资源都存于APP中,传统爬虫无法爬取到这些数据资源。
技术实现思路
有鉴于此,本专利技术实施例提供了一种网络数据的爬取方法、装置、存储介质和终端设备,能够获取存于APP中的数据资源。本专利技术实施例的第一方面,提供了一种网络数据的爬取方法,包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。本专利技术实施例的第二方面,提供了一种网络数据的爬取装置,包括:APP唤起模块,用于在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;页面跳转控制模块,用于控制已唤起的APP依次跳转至其各个显示页面;控件识别模块,用于每跳转至一个显示页面,识别页面上包含的控件;数据提取模块,用于提取封装在所述控件中的内容数据;数据返回模块,用于将所述内容数据返回至所述服务器。本专利技术实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如本专利技术实施例的第一方面提出的网络数据的爬取方法的步骤。本专利技术实施例的第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如本专利技术实施例的第一方面提出的网络数据的爬取方法的步骤。本专利技术提出一种网络数据的爬取方法,包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。上述过程能够自动唤起终端设备上安装的APP,并控制APP在各个显示页面之间跳转;在页面跳转的过程中,识别并提取每个页面控件包含的内容数据,从而获取到存于APP中的数据资源。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种网络数据的爬取方法的第一个实施例的流程图;图2是本专利技术实施例提供的一种网络数据的爬取方法的第二个实施例的流程图;图3是本专利技术实施例提供的一种网络数据的爬取装置的一个实施例的结构图;图4是本专利技术实施例提供的一种终端设备的示意图。具体实施方式本专利技术实施例提供了一种网络数据的爬取方法、装置、存储介质和终端设备,能够获取存于APP中的数据资源。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术实施例中一种网络数据的爬取方法的第一个实施例包括:101、在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;本专利技术实施例的应用场景在于,服务器通过广播包含标识信息的数据抓取请求至各个线上的终端设备,以抓取各个终端设备安装的APP中的数据资源。某个终端设备在接收到服务器发送的数据抓取请求之后,唤起自身安装的与所述标识信息关联的APP。唤起APP即启动APP,具体的唤起APP的方法可参照现有技术的相关资料。进一步的,所述标识信息包含APP类型以及使用频度下限,所述唤起与所述标识信息关联的APP可以包括:(1)统计已安装的各个APP的使用频度;(2)唤起使用频度大于所述使用频度下限、且类型属于所述APP类型的APP。比如,可以在数据抓取请求的标识信息中设置APP类型为社交,使用频度下限为3次/周,则会唤起终端设备上已安装的使用频度大于3次/周的社交类型的APP。另外,该APP类型可以包含多个,即可同时抓取多种不同类型APP的数据资源。通过这样设置,服务器可以有针对性地抓取某些特定类型APP的数据资源,而且这些APP是使用频度较高的,包含的数据资源的价值较大。另外,当需要唤起的APP的数量超过一个时,可以按照一定的方式(比如随机)对各个要唤起的APP进行排序,然后按照排序依次唤起各个APP。具体的,首先唤起第一个APP,在提取到该APP包含的数据资源之后再唤起第二个APP,然后提取第二个APP包含的数据资源……以此类推,直至唤起最后一个APP。102、控制已唤起的APP依次跳转至其各个显示页面;在唤起与所述标识信息关联的APP之后,控制已唤起的APP依次跳转至其包含的各个显示页面。具体的,步骤102可以包括:(1)从预先构建的操作指令集中查找与所述已唤起的APP关联的操作指令;(2)执行查找到的操作指令,以控制所述已唤起的APP依次跳转至其各个显示页面。具体的,针对任意一个APP,可以预先构建一套足以跳转遍历该APP的所有显示页面的操作指令,每个APP均按照这种方式构建一套对应的操作指令,将各个APP对应的操作指令组成操作指令集,存储在指定的数据库中,即可以实现控制不同的APP执行页面跳转。比如,某个APP关联的操作指令为“点击页面按钮A、点击确定、点击返回主页面、点击页面按钮B…”,通过执行该操作指令可以遍历该APP的各个显示页面执行页面跳转。103、每跳转至一个显示页面,识别页面上包含的控件;在页面跳转的过程中,每跳转至一个显示页面,识别该页面上包含的控件。控件是指对数据和方法的封装,可以包括用户界面控件、图表控件、报表控件、表格控件、条形码控件、图像处理控件和文档处理控件等各种类型。具体的,对于一般的Android手机,可以设置-开发者选项-显示边界布局,这个功能打开后,系统就能自动识别出来所有的控件边界和内容;另外,也可以采用OCR识别或者图片识别的方式来识别显示页面包含的控件以及控件包含的内容。104、提取封装在所述控件中的内容数据;在识别出页面上包含的控件之后,提取封装在所述控件中的内容数据。比如,对于图表控件,提取图表控件中包含的文本数据;对于界面控件,提取界面控件中包含的图片或视频数据等。进一步的,在步骤104之后,还可以包括:(1)获取当前显示页面的页面路径;(2)构建所述内容数据和所述页面路径之间的对应关系。也即,每跳转至一个显示页面,在提取出该显示页面的内容数据之后,构建该内容数据和该显示本文档来自技高网...

【技术保护点】
1.一种网络数据的爬取方法,其特征在于,包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。

【技术特征摘要】
1.一种网络数据的爬取方法,其特征在于,包括:在接收到服务器发送的包含标识信息的数据抓取请求之后,唤起与所述标识信息关联的APP;控制已唤起的APP依次跳转至其各个显示页面;每跳转至一个显示页面,识别页面上包含的控件;提取封装在所述控件中的内容数据;将所述内容数据返回至所述服务器。2.根据权利要求1所述的网络数据的爬取方法,其特征在于,所述标识信息包含APP类型以及使用频度下限,所述唤起与所述标识信息关联的APP包括:统计已安装的各个APP的使用频度;唤起使用频度大于所述使用频度下限、且类型属于所述APP类型的APP。3.根据权利要求1所述的网络数据的爬取方法,其特征在于,所述控制已唤起的APP依次跳转至其各个显示页面包括:从预先构建的操作指令集中查找与所述已唤起的APP关联的操作指令;执行查找到的操作指令,以控制所述已唤起的APP依次跳转至其各个显示页面。4.根据权利要求1所述的网络数据的爬取方法,其特征在于,所述识别页面上包含的控件包括:使用AndroidSDK中提供的uiautomatorviewer工具获取当前显示页面的控件元素;根据获取到的控件元素确定当前显示页面上包含的各个控件以及控件类型。5.根据权利要求4所述的网络数据的爬取方法,其特征在于,所述提取封装在所述控件中的内容数据包括:从识别出的控件中选取控件类型符合预设条件的目标控件;使用图片识别的方式提取所述目标控件包含的图片内容数据;使用OCR识别的方式提取所述目标控件包含的文本内容数据。6.根据权利要求1至5中任一项所述的网络数据的爬取方法,其特征在于,在提取封装在所述控件...

【专利技术属性】
技术研发人员:廖盼盼
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1