当前位置: 首页 > 专利查询>清华大学专利>正文

一种移动应用内容获取方法及装置制造方法及图纸

技术编号:19425027 阅读:19 留言:0更新日期:2018-11-14 10:35
本发明专利技术公开了一种移动应用内容获取方法及装置,该方法包括:接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据移动APP结构确定内容爬取算法;基于所述内容爬取算法获取所述移动APP显示层数据;当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。通过本发明专利技术解决了移动应用内容获取的问题。

【技术实现步骤摘要】
一种移动应用内容获取方法及装置
本专利技术涉及移动互联网
,特别是涉及一种移动应用内容获取方法及装置。
技术介绍
随着移动互联网技术的发展,移动互联网已经渗入到人们日常生活的方方面面,已经成为普通大众获取资讯信息的主要渠道之一。移动互联网上的资讯内容也在人们的日常生活中发挥了很重要的影响,因此,移动互联网也会被某些不法分子利用,以传播淫秽色情、暴力或者反动信息,以从中谋取或者达到某些不可告人的目的。从此看来,一个健康向上的移动互联网络环境将对社会产生巨大的积极正面的影响。到位的网络监管将需要一套成熟可靠的移动互联网内容监管技术,即移动互联网内容的获取及检测技术。现有的网络内容获取技术主要通过网络爬虫实现,爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容镜像。首先以某些网站作为种子URL(UniformResourceLocator,统一资源定位符),并将这些URL放入待抓取URL队列。然后从待抓取URL队列中获取待抓取的URL,解析DNS,并且得到HTML协议访问的主机的IP地址,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已经抓取URL队列。最后分析已经抓取URL队列中的URL,分析其中的其它URL,并且将URL放入待抓取URL队列,从而进入下一个循环。可见,现有的网络内容获取方法通常是基于互联网网页内容进行的采集,并未实现对移动互联网的内容获取。由于移动互联网与传统互联网的不同,例如:移动互联网设备多样、移动互联网APP种类多、移动互联网使用行为与之不同,这些不同均导致了传统互联网内容获取方法对移动互联网的不适应,所以目前需要一种能够实现对移动互联网应用内容获取的方法。
技术实现思路
针对于上述问题,本专利技术提供一种移动应用内容获取方法及装置,解决了移动应用内容获取的问题。为了实现上述目的,本专利技术实施例提供了如下技术方案:一种移动应用内容获取方法,该方法包括:接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据移动APP结构确定内容爬取算法;基于所述内容爬取算法获取所述移动APP显示层数据;当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。优选地,所述根据移动APP结构确定内容爬取算法,包括:确定所述移动APP的类型;根据所述移动APP的类型和所述移动APP的结构确定遍历参数;基于所述遍历参数设计内容爬取算法。优选地,所述基于所述内容爬取算法获取所述移动APP显示层数据,包括:当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。优选地,还包括:基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;对所述检测数据进行解析得到待获取的移动应用内容。优选地,还包括:基于所述预设数据库中的数据对移动互联网内容进行监控。一种移动应用内容获取装置,包括:接收模块,用于接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;确定模块,用于根据移动APP结构确定内容爬取算法;获取模块,用于基于所述内容爬取算法获取所述移动APP显示层数据;保存模块,用于当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。优选地,所述确定模块包括:第一确定单元,用于确定所述移动APP的类型;第二确定单元,用于根据所述移动APP的类型和所述移动APP的结构确定遍历参数;设计单元,用于基于所述遍历参数设计内容爬取算法。优选地,所述获取模块包括:文字获取单元,用于当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;图片获取单元,用于当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。优选地,还包括:网络层监测单元,用于基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;内容获取单元,用于对所述检测数据进行解析得到待获取的移动应用内容。优选地,还包括:监测模块,用于基于所述预设数据库中的数据对移动互联网内容进行监控。相较于现有技术,本专利技术在接收移动应用内容获取任务后,分析移动APP结构确定内容爬取算法,根据该算法获取了显示层数据,并将获取数据进行存储为后续访问数据也提供了便利的访问地址,本专利技术能够结合移动互联网特点,并根据移动APP结构设计内容爬取算法,而基于该爬取算法获得移动应用内容更加符合移动互联网的内容获取要求,进而解决了移动应用内容获取的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种移动应用内容获取方法的流程示意图;图2为本专利技术实施例提供的一种移动应用程序的内容爬取系统的框架示意图;图3为本专利技术实施例提供的一种移动应用内容获取装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。本专利技术实施例提供了一种移动应用内容获取方法,参见图1,该方法可以包括以下步骤:S11、接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据本专利技术提供的一种移动应用内容获取方法,在实际应用场景中通常是测试设备接收任务控制器发送的移动应用内容获取任务,其中,任务控制器负责测试设备的状态监控同时发送内容获取任务。相应的,测试设备即为实体手机或虚拟机,在该内容获取任务中包括了要获取内容的载体即移动APP,因为由于移动APP的种类不同,所以结构会不同,所以需要明确待获取的移动APP才能保证后续的内容获取的准确性。S12、根据移动APP结构确定内容爬取算法;要根据移动APP的结构,设计内容爬取算法,因为不同的结构爬取算法会不同,但是同一类APP的内容爬取算法基本一致,因此内容爬取算法的复用性也很高,例如,新闻门户APP(具体形式如常见的手机APP头条、腾讯新闻、网易新闻等等)拥有相似的结构设计,可以使用同一套算法而无需单独设计。在对内容爬取算法的设计过程中是以移动APP的结构为基础本文档来自技高网
...

【技术保护点】
1.一种移动应用内容获取方法,其特征在于,该方法包括:接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据移动APP结构确定内容爬取算法;基于所述内容爬取算法获取所述移动APP显示层数据;当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。

【技术特征摘要】
1.一种移动应用内容获取方法,其特征在于,该方法包括:接收移动应用内容获取任务,其中,所述移动应用内容获取任务中包括待获取内容的移动APP;根据移动APP结构确定内容爬取算法;基于所述内容爬取算法获取所述移动APP显示层数据;当获取的所述移动APP显示层数据满足预设需求时,将获取的数据保存至预设数据库。2.根据权利要求1所述的方法,其特征在于,所述根据移动APP结构确定内容爬取算法,包括:确定所述移动APP的类型;根据所述移动APP的类型和所述移动APP的结构确定遍历参数;基于所述遍历参数设计内容爬取算法。3.根据权利要求1所述的方法,其特征在于,所述基于所述内容爬取算法获取所述移动APP显示层数据,包括:当获取所述移动APP显示层数据为文字时,基于所述内容爬取算法获取所述文字对应控件的属性信息,并根据所述属性信息获取所述移动APP显示层数据;当获取所述移动APP显示层数据为图片时,基于所述内容爬取算法对所述移动APP显示层像素点信息进行截取,得到所述APP显示层数据。4.根据权利要求1所述的方法,其特征在于,还包括:基于所述内容爬取算法对所述移动APP的网络层数据进行监测,得到监测数据;对所述检测数据进行解析得到待获取的移动应用内容。5.根据权利要求1所述的方法,其特征在于,还包括:基于所述预设数据库中的数据对移动互联网内容进行监控。6.一种移动应用内容获取装置,其特征在于,包括:接收模块,用...

【专利技术属性】
技术研发人员:尹浩王威
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1