一种APP识别方法及系统技术方案

技术编号:18621204 阅读:17 留言:0更新日期:2018-08-08 00:19
本发明专利技术实施例公开了一种APP识别方法及系统,所述方法包括:所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接;所述系统根据所述APP下载链接,下载APP压缩包;所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系;所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP,解决了用户APP识别中存在的效率低下、自动化难度大、识别不全面等问题。

A method and system for APP recognition

The embodiment of the invention discloses a APP identification method and system. The method includes: the system carries out information crawling on the APP download site according to the preset way and obtains the APP download link; the system downloads the APP compression packet according to the APP downloading link; the system uses the decompile mode to analyze the APP compression package. To obtain the URL data within the APP and to establish a APP_URL correspondence between the APP and the URL data within the APP; the system receives the user data containing the URL request information, and identifies the corresponding user data according to the URL request information in the user's data and the APP_URL correspondence between the APP and the URL data within the APP. It solves the problems of low efficiency, automation and inaccuracy in user APP identification.

【技术实现步骤摘要】
一种APP识别方法及系统
本专利技术涉及大数据领域,尤其涉及一种APP识别方法及系统。
技术介绍
随着智能手机软硬件和互联网技术的进步,移动互联网以其方便快捷,随时随地接入互联网的优势得到了快速的发展。作为最大的手机运营商,中国移动掌握了海量的用户上网数据,通过用户上网数据识别手机用户的手机应用(APP,Application),可以用于分析用户上网行为、精准营销等领域,因此,具有一定的理论研究和实际应用价值。当前识别APP的主要采用的方式为:通过人工方式进行APP抓包分析,得到APP中的统一资源定位器(URL,UniformResourseLocator)数据,在得到精确URL数据之后,排除不可识别部分,对可识别的URL建立APP_URL数据库,当解析深度数据包检测(DPI,Deeppacketinspection)数据时,将用户数据中包含的URL请求信息与APP_URL数据库比对,识别用户所使用的APP。虽然现有技术通过大量的人工审核,可以较为精确的确定用户数据中部分URL所对应的手机APP,但是,人工方式识别APP存在着效率低下、自动化难度大、识别不全面等缺点,对于移动互联网中APP的海量数据来说是杯水车薪。
技术实现思路
为解决上述技术问题,本专利技术实施例期望提供一种APP识别方法及系统,解决用户APP识别中存在的效率低下、自动化难度大、识别不全面等问题。本专利技术的技术方案是这样实现的:第一方面,本专利技术实施例提供了一种APP识别方法,所述方法用于一种APP识别系统,所述方法包括:所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接;所述系统根据所述APP下载链接,下载APP压缩包;所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系;所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP。在上述方案中,所述按照预设方式进行信息爬取,具体按照:一级分类定义、二级分类爬取、列表信息爬取及详情信息爬取进行信息爬取。进一步地,所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接,具体包括:所述系统获取APP下载网站,将APP下载网站页面地址作为信息爬取的输入信息;所述系统按照预设方式将APP网站页面地址中的应用进行分类;所述系统请求具体应用分类时,获取所述具体应用分类的所有APP;所述系统请求所述具体应用分类的所有APP中的具体APP详情页时,获取所述具体APP详情页的APP下载链接。在上述方案中,所述反编译方式采用Java提供的解压缩工具Java.util.zip,将APP安装包中的文件解析为字符码流。在上述方案中,所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系,具体包括:所述系统采用反编译方式对APP压缩包进行解析,获取APP压缩包解析后的字符码流;所述系统建立用于匹配APP内部的URL数据的正则表达式,将所述正则表达式与所述字符码流进行逐行匹配;当所述正则表达式与所述字符码流匹配成功时,所述系统将与所述正则表达式匹配成功的字符码流作为APP内部的URL数据;所述系统建立APP与APP内部的URL数据之间的APP_URL对应关系。在上述方案中,所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP,具体包括:所述系统接收包含URL请求信息的用户数据,对接收到的用户数据进行解析,获取用户数据中的URL请求信息;当用户数据中的URL请求信息与所述APP与APP内部的URL数据之间的APP_URL对应关系中的URL数据匹配时,所述系统根据匹配的URL数据识别所述用户数据对应的APP。在上述方案中,当系统获取了多组APP与APP内部的URL数据之间的APP_URL对应关系时,若多组APP与APP内部的URL数据之间的APP_URL对应关系中存在同一个URL数据与多个APP对应,所述方法还包括:所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行数据清理。进一步地,所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行数据清理,具体包括:所述系统统计多组APP与APP内部的URL数据之间的APP_URL对应关系中URL数据相同的APP_URL对应关系;所述系统将URL数据相同的任意两个APP都要通过字符串匹配方法去后缀,获取去后缀的两个APP;所述系统查询所述去后缀的两个APP的最小字串,获得最小字串长度;所述系统查询去后缀的两个APP的名称中字符串较短的APP,获取字符串较短的APP名称长度;所述系统将所述最小字串长度与所述字符串较短的APP名称长度的比值作为相似度;当所述相似度小于系统预设阈值时,所述系统将所述两个APP与URL数据之间的对应关系采用去后缀的两个APP的名称中字符串较短的APP与URL数据之间的APP_URL对应关系代替两个APP与URL数据对应关系。在上述方案中,当系统获取了多组APP与APP内部的URL数据之间的APP_URL对应关系时,若多组APP与APP内部的URL数据之间的APP_URL对应关系中存在同一个APP与多个URL数据对应,所述方法还包括:所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行外链排除。进一步地,所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行外链排除,具体包括:所述系统统计多组APP与APP内部的URL数据之间的APP_URL对应关系中APP相同的APP_URL对应关系;当所述系统查询APP与APP内部的URL数据之间的APP_URL对应关系中存在APP开放接口时,通过所述APP开放接口对应的APP接口请求获取所述APP接口请求对应的URL数据;所述系统将所述APP接口请求对应的URL数据进行排除。第二方面,本专利技术实施例提供了一种APP识别系统,所述系统包括:获取模块、下载模块、解析模块及识别模块;其中,所述获取模块,用于对APP下载网站按照预设方式进行信息爬取,获取APP下载链接;所述下载模块,用于根据所述APP下载链接,下载APP压缩包;所述解析模块,用于采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系;所述识别模块,用于接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP。在上述方案中,所述按照预设方式进行信息爬取,具体按照:一级分类定义、二级分类爬取、列表信息爬取及详情信息爬取进行信息爬取。进一步地,所述获取模块,具体用于,获取APP下载网站,将APP下载网站页面地址作为信息爬取的输入信息;以及,按照预设方式将A本文档来自技高网...

【技术保护点】
1.一种APP识别方法,其特征在于,所述方法用于一种APP识别系统,所述方法包括:所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接;所述系统根据所述APP下载链接,下载APP压缩包;所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系;所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP。

【技术特征摘要】
1.一种APP识别方法,其特征在于,所述方法用于一种APP识别系统,所述方法包括:所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接;所述系统根据所述APP下载链接,下载APP压缩包;所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系;所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP。2.根据权利要求1所述的方法,其特征在于,所述按照预设方式进行信息爬取,具体按照:一级分类定义、二级分类爬取、列表信息爬取及详情信息爬取进行信息爬取。3.根据权利要求2所述的方法,其特征在于,所述系统对APP下载网站按照预设方式进行信息爬取,获取APP下载链接,具体包括:所述系统获取APP下载网站,将APP下载网站页面地址作为信息爬取的输入信息;所述系统按照预设方式将APP网站页面地址中的应用进行分类;所述系统请求具体应用分类时,获取所述具体应用分类的所有APP;所述系统请求所述具体应用分类的所有APP中的具体APP详情页时,获取所述具体APP详情页的APP下载链接。4.根据权利要求1所述的方法,其特征在于,所述反编译方式采用Java提供的解压缩工具Java.util.zip,将APP安装包中的文件解析为字符码流。5.根据权利要求1所述的方法,其特征在于,所述系统采用反编译方式对APP压缩包进行解析,获取APP内部的URL数据,并建立APP与APP内部的URL数据之间的APP_URL对应关系,具体包括:所述系统采用反编译方式对APP压缩包进行解析,获取APP压缩包解析后的字符码流;所述系统建立用于匹配APP内部的URL数据的正则表达式,将所述正则表达式与所述字符码流进行逐行匹配;当所述正则表达式与所述字符码流匹配成功时,所述系统将与所述正则表达式匹配成功的字符码流作为APP内部的URL数据;所述系统建立APP与APP内部的URL数据之间的APP_URL对应关系。6.根据权利要求1所述的方法,其特征在于,所述系统接收包含URL请求信息的用户数据,根据用户数据中的URL请求信息及所述APP与APP内部的URL数据之间的APP_URL对应关系,识别所述用户数据对应的APP,具体包括:所述系统接收包含URL请求信息的用户数据,对接收到的用户数据进行解析,获取用户数据中的URL请求信息;当用户数据中的URL请求信息与所述APP与APP内部的URL数据之间的APP_URL对应关系中的URL数据匹配时,所述系统根据匹配的URL数据识别所述用户数据对应的APP。7.根据权利要求1所述的方法,其特征在于,当系统获取了多组APP与APP内部的URL数据之间的APP_URL对应关系时,若多组APP与APP内部的URL数据之间的APP_URL对应关系中存在同一个URL数据与多个APP对应,所述方法还包括:所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行数据清理。8.根据权利要求7所述的方法,其特征在于,所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行数据清理,具体包括:所述系统统计多组APP与APP内部的URL数据之间的APP_URL对应关系中URL数据相同的APP_URL对应关系;所述系统将URL数据相同的任意两个APP都要通过字符串匹配方法去后缀,获取去后缀的两个APP;所述系统查询所述去后缀的两个APP的最小字串,获得最小字串长度;所述系统查询去后缀的两个APP的名称中字符串较短的APP,获取字符串较短的APP名称长度;所述系统将所述最小字串长度与所述字符串较短的APP名称长度的比值作为相似度;当所述相似度小于系统预设阈值时,所述系统将所述两个APP与URL数据之间的对应关系采用去后缀的两个APP的名称中字符串较短的APP与URL数据之间的APP_URL对应关系代替两个APP与URL数据对应关系。9.根据权利要求1所述的方法,其特征在于,当系统获取了多组APP与APP内部的URL数据之间的APP_URL对应关系时,若多组APP与APP内部的URL数据之间的APP_URL对应关系中存在同一个APP与多个URL数据对应,所述方法还包括:所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行外链排除。10.根据权利要求9所述的方法,其特征在于,所述系统对获取的多组APP与APP内部的URL数据之间的APP_URL对应关系进行外链排除,具体包括:所述系统统计多组APP与APP内部的URL数据之间的APP_URL对应关系中APP相同的APP_URL对应关系;当所述系统查询AP...

【专利技术属性】
技术研发人员:楼弘庞夫星许鑫伶许大虎杜建雄李晓平梅铮
申请(专利权)人:中移杭州信息技术有限公司中国移动通信集团公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1