一种获取APP业务特征库的方法及相应的装置制造方法及图纸

技术编号:22135346 阅读:45 留言:0更新日期:2019-09-18 09:03
本发明专利技术公开了一种获取APP业务特征库的方法及相应的装置,该方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析APP安装包、现网业务数据和模拟业务数据,得到各自所属的APP名称,生成学习数据集;对现网业务数据和模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将业务特征树与学习数据集进行特征匹配,确定业务特征树中的各个业务特征所属的APP名称,生成业务特征库。本发明专利技术的现网业务数据具有一定的复杂性,可以消除数据盲区,保证了识别率;从多特征维度构造业务特征库,能够有效识别辨识度较低的业务数据,提高了特征识别的精准性,能够有效解决人力。

A Method of Obtaining APP Business Feature Base and Its Corresponding Device

【技术实现步骤摘要】
一种获取APP业务特征库的方法及相应的装置
本专利技术属于大数据领域,更具体地,涉及一种获取APP业务特征库的方法及相应的装置。
技术介绍
近几年来,计算机技术迅猛发展,大数据和机器学习等热门领域更是精彩纷呈。在互联网方面,用户画像、精准营销成为产业热词,而这一系列技术的基础就是有标签的数据。对于DPI(DeepPacketInspection,简写为DPI)产品来说,业务流量就是数据,怎样合理的利用好业务数据是DPI产品的重中之重。在这需求之中:APP(Application,简写为APP)业务识别正是分析处理基础数据的关键技术。现有技术中,关于APP特征识别存在几种不同的方案,例如,申请号为CN201710453676.X的专利,公开了一种APP识别规则的获取方法及装置,该专利只采集了本地一段时间内模拟产生的业务特征数据,具有一定数据盲区,且采用分词的方式采集特征,特征值具有单一性,没有使用复合特征,不能满足DPI识别的要求。申请号为CN201810346473.5的专利,公开了一种APP流量自动识别模型构建方法,该专利虽然顾及到了本地模拟抓包数据集,但是由于模拟抓包数据集中不包含基于IOS的业务数据,且IOS应用和安卓应用的服务具有一定的隔离性,该专利无法做到双系统的特征均识别到位,覆盖面较窄。申请号为CN201610994224.8的专利,公开了一种APP识别方法及系统,该专利只对安装包内的URL进行了分析,识别力度较弱,很容易产生特征盲区,造成共有特征被认定为私有特征。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种获取APP业务特征库的方法及相应的装置,其目的在于,本专利技术中的现网业务数据具有一定的复杂性,解决了本地抓包的模拟数据的局限性和单一性,可以消除数据盲区,保证了识别率;而且,结合APP安装包、现网业务数据和模拟业务数据,可以得到复合特征,进而从多特征维度构造业务特征库,能够有效识别辨识度较低的业务数据,提高了特征识别的精准性,能够有效解决人力。为实现上述目的,按照本专利技术的一个方面,提供了一种获取APP业务特征库的方法,所述APP业务特征库用于识别用户数据所属的APP名称,所述方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集;对所述现网业务数据和所述模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将所述业务特征树与所述学习数据集进行特征匹配,确定所述业务特征树中的各个业务特征所属的APP名称,并将所述业务特征树中的各个业务特征与各自所属的APP名称建立映射关系,生成业务特征库。优选地,所述学习数据集包括第一标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;解析所述APP安装包,得到所述APP安装包内所包含的URL数据,将所述URL数据与其所属的APP名称建立映射关系,得到第一标签数据集,将所述第一标签数据集添加至所述学习数据集中。优选地,所述获取APP安装包、现网业务数据和模拟业务数据包括:触发模拟器安装所述APP安装包,并遍历APP的功能;在APP运行期间,采用抓包工具获取APP业务流量,其中,每一所述APP业务流量与其所属的APP安装包一一对应;将所述APP业务流量按照预设的格式进行存储,得到模拟业务数据,其中,每一所述模拟业务数据与其所属的APP安装包一一对应。优选地,所述学习数据集包括第二标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;将所述模拟业务数据与其所属的APP名称建立映射关系,得到第二标签数据集,将所述第二标签数据集添加至所述学习数据集中。优选地,所述获取APP安装包、现网业务数据和模拟业务数据包括:在实际网络环境中,搜集用户使用各类APP时所产生的数据,得到现网业务数据。优选地,所述学习数据集包括第三标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;解析所述APP安装包,得到所述APP安装包的包名,其中,所述包名中包含所述APP安装包对应的APP标识,将所述包名与其所属的APP名称建立映射关系;解析所述现网业务数据,得到所述现网业务数据中的UA数据,其中,所述UA数据中包含产生所述现网业务数据的APP的APP标识;采用字符串相似性判断算法,对所述包名和所述UA数据进行识别,当所述包名内的APP标识与所述UA数据中的APP标识相同时,所述UA数据所属的APP名称与所述包名所属的APP名称相同,得到所述现网业务数据所属的APP名称;将所述现网业务数据与其所属的APP名称建立映射关系,得到第三标签数据集,将所述第三标签数据集添加至所述学习数据集中。优选地,所述APP安装包具体包括基于安卓系统的apk包和基于IOS系统的ipa包;所述解析所述APP安装包,得到所述APP安装包的包名包括:识别所述APP安装包所适用的系统类型;当所述APP安装包为基于安卓系统的apk包时,从AndroidManifest文件中提取APP安装包的包名;当所述APP安装包为基于IOS系统的ipa包时,从PropertyList文件中提取APP安装包的包名。优选地,所述学习数据集包括第二标签数据集和第三标签数据集;所述模拟业务数据是模拟器在安装所述APP安装包后,遍历APP功能时所产生的数据,其中,所述模拟业务数据中包含模拟器的设备号,所述现网业务数据是实际网络环境下,用户使用各类APP时所产生的数据;所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:获取所述模拟业务数据中重复率高于第一预设阈值的特征项,将所述特征项遍历所述现网业务数据;若所述特征项在所述现网业务数据中的出现率不大于第二预设阈值,则将所述特征项标记为模拟器的设备号,并本文档来自技高网...

【技术保护点】
1.一种获取APP业务特征库的方法,其特征在于,所述APP业务特征库用于识别用户数据所属的APP名称,所述方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集;对所述现网业务数据和所述模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将所述业务特征树与所述学习数据集进行特征匹配,确定所述业务特征树中的各个业务特征所属的APP名称,并将所述业务特征树中的各个业务特征与各自所属的APP名称建立映射关系,生成业务特征库。

【技术特征摘要】
1.一种获取APP业务特征库的方法,其特征在于,所述APP业务特征库用于识别用户数据所属的APP名称,所述方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集;对所述现网业务数据和所述模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将所述业务特征树与所述学习数据集进行特征匹配,确定所述业务特征树中的各个业务特征所属的APP名称,并将所述业务特征树中的各个业务特征与各自所属的APP名称建立映射关系,生成业务特征库。2.根据权利要求1所述的方法,其特征在于,所述学习数据集包括第一标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;解析所述APP安装包,得到所述APP安装包内所包含的URL数据,将所述URL数据与其所属的APP名称建立映射关系,得到第一标签数据集,将所述第一标签数据集添加至所述学习数据集中。3.根据权利要求1所述的方法,其特征在于,所述获取APP安装包、现网业务数据和模拟业务数据包括:触发模拟器安装所述APP安装包,并遍历APP的功能;在APP运行期间,采用抓包工具获取APP业务流量,其中,每一所述APP业务流量与其所属的APP安装包一一对应;将所述APP业务流量按照预设的格式进行存储,得到模拟业务数据,其中,每一所述模拟业务数据与其所属的APP安装包一一对应。4.根据权利要求3所述的方法,其特征在于,所述学习数据集包括第二标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;将所述模拟业务数据与其所属的APP名称建立映射关系,得到第二标签数据集,将所述第二标签数据集添加至所述学习数据集中。5.根据权利要求1所述的方法,其特征在于,所述获取APP安装包、现网业务数据和模拟业务数据包括:在实际网络环境中,搜集用户使用各类APP时所产生的数据,得到现网业务数据。6.根据权利要求5所述的方法,其特征在于,所述学习数据集包括第三标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名...

【专利技术属性】
技术研发人员:杨琨叶志钢张本军
申请(专利权)人:武汉绿色网络信息服务有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1