The invention belongs to the field of applied data statistics technology, and specifically relates to a statistical method and device for the application of upper and lower line data. It can be used to determine whether the application is online, and the application and the downline are applied. The data statistics method of the application and down line provided by the invention includes: using the crawler technology to access the application address in the existing address data table, obtaining the query state returned by the server, and statistics the online application and the downline application in the current time period according to the state of the query, and deleting the address data table. The application that has been downline. The application and downline data statistics method and device provided by the invention are used to crawl the application address in the address data table by crawling technology, and to count the online, on-line and offline applications of the application in a period of application (such as a day, a week, a month).
【技术实现步骤摘要】
应用上、下线数据统计方法及装置
本专利技术涉及应用数据统计
,具体涉及一种应用上、下线数据统计方法及装置。
技术介绍
移动应用程序监测,主要是通过爬虫技术爬取应用商店的具体信息、应用详细信息、每个应用的下载量等等,对应用市场中的应用进行统计,为产业支撑、决策提供可靠的信息。由于各个应用的更新换代很频繁,每天都有新的应用上线,也有大量的应用下线,应用的版本也会不断更新,而现有的应用统计方法都是累计统计的数据,因此,无法对已经下线的应用或更新版本的应用进行统计,无法获知当前在线的应用还有多少,更无法获知在某段时间内上线/下线的应用有多少。
技术实现思路
针对现有技术中的缺陷,本专利技术提供的应用上、下线数据统计方法及装置,利用爬虫技术重复爬取地址数据表中的应用地址,统计应用商店中一段时间内应用的在线、上线、下线情况。第一方面,本专利技术提供的一种应用上、下线数据统计方法,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。优选地,所述根据所述查询状态统计当前时间段内在线的应用和已下线的应用,包括:若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中;遍历完所述地址数据表后,遍历新建的错误数据表,在遍历错误数据表的过程中,针对查询状态为访问失败或跳转的情况,则继续建立新的错误数据表存储访问失败或跳转的应用地址,直到达到预设条件,若还有访问失败的应用地址,则认为应用已 ...
【技术保护点】
1.一种应用上、下线数据统计方法,其特征在于,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。
【技术特征摘要】
1.一种应用上、下线数据统计方法,其特征在于,包括:利用爬虫技术对已有地址数据表中的应用地址进行访问;获取服务器返回的查询状态,根据所述查询状态统计当前时间段内在线的应用和已下线的应用,删除所述地址数据表中已下线的应用。2.根据权利要求1所述的方法,其特征在于,所述根据所述查询状态统计当前时间段内在线的应用和已下线的应用,包括:若查询状态为访问失败,则将访问失败的应用地址放入新建的错误数据表中;若查询状态为跳转,则将跳转后的网页地址放入新建的错误数据表中;遍历完所述地址数据表后,遍历新建的错误数据表,在遍历错误数据表的过程中,针对查询状态为访问失败或跳转的情况,继续建立新的错误数据表存储访问失败或跳转的应用地址,直到达到预设条件,若还有访问失败的应用地址,则认为应用已下线,将已下线的应用地址移入下线数据表中。3.根据权利要求2所述的方法,其特征在于,所述预设条件为遍历次数达到次数阈值或遍历时间达到时间阈值。4.根据权利要求1所述的方法,其特征在于,还包括:若所述查询状态为跳转,且通过跳转后的网页地址能够爬取到应用的信息,则将跳转的目标地址添加到所述地址数据表中。5.根据权利要求1所述的方法,其特征在于,还包括:若所述查询状态为成功,则解析所述服务器返回的报文,根据报文内容判断应用的版本是否更新,统计当前时间段内应用的版本更新情况。6.一种应用上...
【专利技术属性】
技术研发人员:王洪岭,康明吉,秦娇,路博,王跃,乔亲旺,于慧文,
申请(专利权)人:广州泰尔智信科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。