【技术实现步骤摘要】
一种获取APP业务特征库的方法及相应的装置
本专利技术属于大数据领域,更具体地,涉及一种获取APP业务特征库的方法及相应的装置。
技术介绍
近几年来,计算机技术迅猛发展,大数据和机器学习等热门领域更是精彩纷呈。在互联网方面,用户画像、精准营销成为产业热词,而这一系列技术的基础就是有标签的数据。对于DPI(DeepPacketInspection,简写为DPI)产品来说,业务流量就是数据,怎样合理的利用好业务数据是DPI产品的重中之重。在这需求之中:APP(Application,简写为APP)业务识别正是分析处理基础数据的关键技术。现有技术中,关于APP特征识别存在几种不同的方案,例如,申请号为CN201710453676.X的专利,公开了一种APP识别规则的获取方法及装置,该专利只采集了本地一段时间内模拟产生的业务特征数据,具有一定数据盲区,且采用分词的方式采集特征,特征值具有单一性,没有使用复合特征,不能满足DPI识别的要求。申请号为CN201810346473.5的专利,公开了一种APP流量自动识别模型构建方法,该专利虽然顾及到了本地模拟抓包数据集,但是由于模拟抓包数据集中不包含基于IOS的业务数据,且IOS应用和安卓应用的服务具有一定的隔离性,该专利无法做到双系统的特征均识别到位,覆盖面较窄。申请号为CN201610994224.8的专利,公开了一种APP识别方法及系统,该专利只对安装包内的URL进行了分析,识别力度较弱,很容易产生特征盲区,造成共有特征被认定为私有特征。鉴于此,克服该现有技术所存在的缺陷是本
亟待解决的问题。
技术实现思路
针对 ...
【技术保护点】
1.一种获取APP业务特征库的方法,其特征在于,所述APP业务特征库用于识别用户数据所属的APP名称,所述方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集;对所述现网业务数据和所述模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将所述业务特征树与所述学习数据集进行特征匹配,确定所述业务特征树中的各个业务特征所属的APP名称,并将所述业务特征树中的各个业务特征与各自所属的APP名称建立映射关系,生成业务特征库。
【技术特征摘要】
1.一种获取APP业务特征库的方法,其特征在于,所述APP业务特征库用于识别用户数据所属的APP名称,所述方法包括:获取APP安装包、现网业务数据和模拟业务数据;分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集;对所述现网业务数据和所述模拟业务数据进行特征提取,得到包含至少一个业务特征的业务特征树;将所述业务特征树与所述学习数据集进行特征匹配,确定所述业务特征树中的各个业务特征所属的APP名称,并将所述业务特征树中的各个业务特征与各自所属的APP名称建立映射关系,生成业务特征库。2.根据权利要求1所述的方法,其特征在于,所述学习数据集包括第一标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;解析所述APP安装包,得到所述APP安装包内所包含的URL数据,将所述URL数据与其所属的APP名称建立映射关系,得到第一标签数据集,将所述第一标签数据集添加至所述学习数据集中。3.根据权利要求1所述的方法,其特征在于,所述获取APP安装包、现网业务数据和模拟业务数据包括:触发模拟器安装所述APP安装包,并遍历APP的功能;在APP运行期间,采用抓包工具获取APP业务流量,其中,每一所述APP业务流量与其所属的APP安装包一一对应;将所述APP业务流量按照预设的格式进行存储,得到模拟业务数据,其中,每一所述模拟业务数据与其所属的APP安装包一一对应。4.根据权利要求3所述的方法,其特征在于,所述学习数据集包括第二标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名称,或,解析所述APP安装包得到所述APP安装包所属的APP名称;将所述模拟业务数据与其所属的APP名称建立映射关系,得到第二标签数据集,将所述第二标签数据集添加至所述学习数据集中。5.根据权利要求1所述的方法,其特征在于,所述获取APP安装包、现网业务数据和模拟业务数据包括:在实际网络环境中,搜集用户使用各类APP时所产生的数据,得到现网业务数据。6.根据权利要求5所述的方法,其特征在于,所述学习数据集包括第三标签数据集,所述分别解析所述APP安装包、所述现网业务数据和所述模拟业务数据,得到各自所属的APP名称,并将所述APP安装包、所述现网业务数据和所述模拟业务数据与各自所属的APP名称建立映射关系,生成学习数据集包括:在获取所述APP安装包的过程中,从应用市场中爬取所述APP安装包所属的APP名...
【专利技术属性】
技术研发人员:杨琨,叶志钢,张本军,
申请(专利权)人:武汉绿色网络信息服务有限责任公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。