应用上、下线数据统计方法及装置制造方法及图纸

技术编号:18444906 阅读:26 留言:0更新日期:2018-07-14 10:22
本发明专利技术属于应用数据统计技术领域,具体涉及一种应用上、下线数据统计方法及装置,可实现判断应用是否在线及应用上、下线的情况。本发明专利技术提供的应用上、下线数据统计方法,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。本发明专利技术提供的应用上、下线数据统计方法及装置,利用爬虫技术重复爬取地址数据表中的应用地址,统计应用商店中一段时间内(例如某天、某周、某月)应用的在线、上线、下线情况。

Data statistics method and device for application of upper and lower line

The invention belongs to the field of applied data statistics technology, and specifically relates to a statistical method and device for the application of upper and lower line data. It can be used to determine whether the application is online, and the application and the downline are applied. The data statistics method of the application and down line provided by the invention includes: using the crawler technology to access the application address in the existing address data table, obtaining the query state returned by the server, and statistics the online application and the downline application in the current time period according to the state of the query, and deleting the address data table. The application that has been downline. The application and downline data statistics method and device provided by the invention are used to crawl the application address in the address data table by crawling technology, and to count the online, on-line and offline applications of the application in a period of application (such as a day, a week, a month).

【技术实现步骤摘要】
应用上、下线数据统计方法及装置
本专利技术涉及应用数据统计
,具体涉及一种应用上、下线数据统计方法及装置。
技术介绍
移动应用程序监测,主要是通过爬虫技术爬取应用商店的具体信息、应用详细信息、每个应用的下载量等等,对应用市场中的应用进行统计,为产业支撑、决策提供可靠的信息。由于各个应用的更新换代很频繁,每天都有新的应用上线,也有大量的应用下线,应用的版本也会不断更新,而现有的应用统计方法都是累计统计的数据,因此,无法对已经下线的应用或更新版本的应用进行统计,无法获知当前在线的应用还有多少,更无法获知在某段时间内上线/下线的应用有多少。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的应用上、下线数据统计方法及装置,利用爬虫技术重复爬取地址数据表中的应用地址,统计应用商店中一段时间内应用的在线、上线、下线情况。第一方面,本专利技术提供的一种应用上、下线数据统计方法,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。优选地,所述根据所述查询状态统计当前时间段内在线的应用和已下线的应用,包括:若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中;遍历完所述地址数据表后,遍历新建的错误数据表,在遍历错误数据表的过程中,针对查询状态为访问失败或跳转的情况,则继续建立新的错误数据表存储访问失败或跳转的应用地址,直到达到预设条件,若还有访问失败的应用地址,则认为应用已下线,将已下线的应用地址移入下线数据表中。优选地,所述预设条件为遍历次数达到次数阈值或遍历时间达到时间阈值。优选地,还包括:若所述查询状态为跳转,且通过跳转后的网页地址能够爬取到应用的信息,则将跳转的目标地址添加到所述地址数据表中。优选地,还包括:若所述查询状态为成功,则解析所述服务器返回的报文,根据报文内容判断应用的版本是否更新,统计当前时间段内应用的版本更新情况。第二方面,本专利技术提供的一种应用上、下线数据统计装置,包括:数据爬取模块,用于利用爬虫技术对已有地址数据表中的应用地址进行访问;应用统计模块,用于获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。优选地,所述应用统计模块具体用于:若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中;遍历完所述地址数据表后,遍历新建的错误数据表,在遍历错误数据表的过程中,针对查询状态为访问失败或跳转的情况,则继续建立新的错误数据表存储访问失败或跳转的应用地址,直到达到预设条件,若还有访问失败的应用地址,则认为应用已下线,将已下线的应用地址移入下线数据表中。优选地,所述预设条件为遍历次数达到次数阈值或遍历时间达到时间阈值。优选地,所述应用统计模块还用于:若所述查询状态为跳转,且通过跳转后的网页地址能够爬取到应用的信息,则将跳转的目标地址添加到所述地址数据表中。优选地,所述应用统计模块还用于:若所述查询状态为成功,则解析所述服务器返回的报文,根据报文内容判断应用的版本是否更新,统计当前时间段内应用的版本更新情况。附图说明图1为本专利技术实施例所提供的应用上、下线数据统计方法的流程图;图2为本专利技术实施例所提供的应用上、下线数据统计装置的结构框图。具体实施方式下面将结合附图对本专利技术技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,因此只是作为示例,而不能以此来限制本专利技术的保护范围。需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本专利技术所属领域技术人员所理解的通常意义。如图1所示,本实施例提供了一种应用上、下线数据统计方法,包括:步骤S1,利用爬虫技术对已有地址数据表中的应用地址进行访问。其中,地址数据表用来存储在线应用的应用地址。应用地址指应用所在的网页地址,即应用的URL。步骤S2,获取服务器返回的查询状态,根据查询状态统计当前时间段内在线的应用和已下线的应用,删除地址数据表中已下线的应用。其中,查询状态是根据服务器返回的返回码得到的,表1给出了部分返回码,本实施例根据返回码的含义对返回码进行了归纳整理:返回码是“200”则查询状态为成功,表示应用在线;返回码是“302”、“303”等,查询状态为跳转,表示应用可能还在线,但应用地址已经发生变化;返回码是“400”、“401”等,则查询状态为访问失败;返回码是“304”表示无变化,不作处理;对于其它的返回码,有可能是有可能是网络超时、服务器超时、丢包等网络问题引起的,也有可能是应用已下线,则查询状态为访问失败。表1本实施例提供的应用上、下线数据统计方法,利用爬虫技术重复爬取地址数据表中的应用地址,统计应用商店中一段时间内(例如某天、某周、某月)应用的在线、上线、下线情况。在重新爬取应用数据的过程中,网络超时、拥塞、故障等问题,都会导致无法爬取到应用的信息。一般针对爬取过程中出现错误数据的解决方法是对错误数进行重复爬取,但是网络问题很难在短时间内解决,由于重复爬取的时间间隔很短,再次爬取的数据仍是错误数据,这种方式降低了爬取效率,还可能加重网络、服务器拥塞程度。为了提高爬取应用信息的效率,提高统计数据的准确度,步骤S2的优选方式包括:步骤S21,若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中。比如:若服务器返回的查询码为400、401、404、410、5##(具体见表1)的时候,对应的查询状态为访问失败,则将对应的应用地址放入新建的错误数据表,以便对访问失败的应用地址进行再次爬取,避免是网络引起的无法获取数据;若服务器返回的查询码为3##(具体见表1)时,将跳转后的网页地址(应用新的URL)放入新建的错误数据表,以便对地址发生变动的应用进行数据爬取。其中,若服务器返回的查询码为408,表示服务器等候请求超时,则立刻重爬。步骤S22,遍历完地址数据表后,遍历新建的错误数据表;在遍历错误数据表的过程中,对查询状态为访问失败或跳转的情况,继续建立新的错误数据表存储访问失败或跳转的应用地址;重复建立新的错误数据表直到达到预设条件,若还有访问失败的应用地址,则认为应用已下线,将已下线的应用地址移入下线数据表中。其中,预设条件为遍历次数达到次数阈值或遍历时间达到时间阈值,预设条件是为了防止出现遍历过程无法结束的情况。步骤S23,删除地址数据表中已下线的应用,根据下线数据表中统计得到当前时间段内应用的下线情况,根据地址数据表得到当前时间段内应用的在线情况。步骤S2的优选方式,总是在遍历完错误数据表后,创建新的错误数据表容纳访问失败的应用地址,针对新的错误数据表执行遍历。一方面,避免因网络、服务器拥塞等问题引起无法爬取到应用地址,导致统计数据错误;另一方面,避免短时间内对同一地址重复爬取,导致始终获取到的是错误数据,有利于提高爬取效率。当应用地址发生变化时,服务器会返回跳转的页面,此时查询状态为跳转,若通过跳转后的本文档来自技高网...

【技术保护点】
1.一种应用上、下线数据统计方法,其特征在于,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。

【技术特征摘要】
1.一种应用上、下线数据统计方法,其特征在于,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。2.根据权利要求1所述的方法,其特征在于,所述根据所述查询状态统计当前时间段内在线的应用和已下线的应用,包括:若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中;遍历完所述地址数据表后,遍历新建的错误数据表,在遍历错误数据表的过程中,针对查询状态为访问失败或跳转的情况,继续建立新的错误数据表存储访问失败或跳转的应用地址,直到达到预设条件,若还有访问失败的应用地址,则认为应用已下线,将已下线的应用地址移入下线数据表中。3.根据权利要求2所述的方法,其特征在于,所述预设条件为遍历次数达到次数阈值或遍历时间达到时间阈值。4.根据权利要求1所述的方法,其特征在于,还包括:若所述查询状态为跳转,且通过跳转后的网页地址能够爬取到应用的信息,则将跳转的目标地址添加到所述地址数据表中。5.根据权利要求1所述的方法,其特征在于,还包括:若所述查询状态为成功,则解析所述服务器返回的报文,根据报文内容判断应用的版本是否更新,统计当前时间段内应用的版本更新情况。6.一种应用上...

【专利技术属性】
技术研发人员:王洪岭康明吉秦娇路博王跃乔亲旺于慧文
申请(专利权)人:广州泰尔智信科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1