建立安装包识别模型的方法、识别安装包的方法及装置制造方法及图纸

技术编号:19778839 阅读:30 留言:0更新日期:2018-12-15 11:29
本发明专利技术涉及数据处理技术领域,尤其涉及建立安装包识别模型的方法、识别安装包的方法及装置,包括:获取多个样本安装包,所述多个样本安装包中包括合法安装包和非法安装包,所述合法安装包为以用户的安装需求为前提所生成的安装包,所述非法安装包为不是以用户的安装需求为前提所生成的安装包;分别从每个所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息;对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型。本发明专利技术提高了对于非法安装包的识别效率。

【技术实现步骤摘要】
建立安装包识别模型的方法、识别安装包的方法及装置
本专利技术涉及数据处理
,尤其涉及建立安装包识别模型的方法、识别安装包的方法及装置。
技术介绍
随着安卓智能设备的普及,越来越多的黑产作者转移阵地到安卓移动平台,导致安卓平台下的恶意安装包呈井喷式的爆发。恶意安装包是一类特殊的安卓程序,它们通常通过诱导安装和渠道预装等方式,在用户不知晓也未授权的情况下安装到用户的设备系统中,从而对用户的设备系统进行攻击,导致用户造成损失。恶意安装包对用户造成的影响可以包括资费消耗、隐私窃取、恶意扣费、远程控制及恶意广告等。在现有技术中,对于恶意安装包的识别往往依靠病毒分析师人工分析处理,因此,存在识别效率低的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的建立安装包识别模型的方法、识别安装包的方法及装置。依据本专利技术的第一个方面,提供了一种建立安装包识别模型的方法,所述方法包括:获取多个样本安装包,所述多个样本安装包中包括合法安装包和非法安装包,所述合法安装包为以用户的安装需求为前提所生成的安装包,所述非法安装包为不是以用户的安装需求为前提所生成的安装包;分别从每个所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息;对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型。优选的,所述非法安装包包括恶意安装包和/或广告安装包。优选的,当所述非法安装包包括所述恶意安装包和所述广告安装包时,所述对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型,包括:对提取出的所有样本安装包特征信息进行模型训练,分别建立用于识别所述恶意安装包的恶意安装包识别模型和用于识别所述广告安装包的广告安装包识别模型。优选的,所述对提取出的所有样本安装包特征信息进行模型训练,包括:对提取出的所有样本安装包特征信息进行基于向量机、基于决策树或基于深度学习的模型训练。优选的,从所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息,包括:对所述样本安装包进行解压缩,获得用于运行所述样本安装包的关键文件;从所述关键文件中提取出文件特征;对所述文件特征进行降维处理,获得用于表征所述样本安装包的特征的样本安装包特征向量。优选的,所述关键文件包括classes.dex、resources.arsc、AndroidManifest.xml和MANIFEST.MF中的至少一种文件。依据本专利技术的第二个方面,提供了一种识别安装包的方法,所述方法包括:获取目标安装包;从所述目标安装包中提取出用于表征所述目标安装包的特征的目标安装包特征信息;将所述目标安装包特征信息输入至非法安装包识别模型,根据所述非法安装包识别模型输出的识别结果确定所述目标安装包的类型;其中,所述非法安装包识别模型为基于本专利技术的第一个方面中任一方法步骤所获得的非法安装包识别模型。优选的,当所述非法安装包识别模型包括恶意安装包识别模型和广告安装包识别模型,所述将所述目标安装包特征信息输入至非法安装包识别模型,根据所述非法安装包识别模型输出的识别结果确定所述目标安装包的类型,包括:将所述目标安装包特征信息输入至恶意安装包识别模型,获得所述恶意安装包识别模型输出的第一识别结果;若所述第一识别结果为所述目标安装包是恶意安装包,则确定所述目标安装包的类型为恶意安装包;若所述第一识别结果为所述目标安装包不是恶意安装包,则将所述目标安装包特征信息输入至广告安装包识别模型,获得所述广告安装包识别模型输出的第二识别结果;若所述第二识别结果为所述目标安装包是广告安装包,则确定所述目标安装包为广告安装包;若所述第二识别结果为所述目标安装包不是广告安装包,则确定所述目标安装包为合法安装包。依据本专利技术的第三个方面,提供了一种建立安装包识别模型的装置,所述装置包括:第一获取模块,用于获取多个样本安装包,所述多个样本安装包中包括合法安装包和非法安装包,所述合法安装包为以用户的安装需求为前提所生成的安装包,所述非法安装包为不是以用户的安装需求为前提所生成的安装包;第二提取模块,用于分别从每个所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息;建立模块,用于对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型。优选的,所述非法安装包包括恶意安装包和/或广告安装包。优选的,当所述非法安装包包括所述恶意安装包和所述广告安装包时,所述建立模块,具体用于:对提取出的所有样本安装包特征信息进行模型训练,分别建立用于识别所述恶意安装包的恶意安装包识别模型和用于识别所述广告安装包的广告安装包识别模型。优选的,所述建立模块,具体用于:对提取出的所有样本安装包特征信息进行基于向量机、基于决策树或基于深度学习的模型训练。优选的,所述第一提取模块,包括:解压缩单元,用于对所述样本安装包进行解压缩,获得用于运行所述样本安装包的关键文件;提取单元,用于从所述关键文件中提取出文件特征;降维单元,用于对所述文件特征进行降维处理,获得用于表征所述样本安装包的特征的样本安装包特征向量。优选的,所述关键文件包括classes.dex、resources.arsc、AndroidManifest.xml和MANIFEST.MF中的至少一种文件。依据本专利技术的第四个方面,提供了一种识别安装包的装置,所述装置包括:第二获取模块,用于获取目标安装包;第二提取模块,用于从所述目标安装包中提取出用于表征所述目标安装包的特征的目标安装包特征信息;确定模块,用于将所述目标安装包特征信息输入至非法安装包识别模型,根据所述非法安装包识别模型输出的识别结果确定所述目标安装包的类型;其中,所述非法安装包识别模型为基于基于本专利技术的第一个方面中任一方法步骤所获得的非法安装包识别模型。优选的,当所述非法安装包识别模型包括恶意安装包识别模型和广告安装包识别模型,所述确定模块,包括:第一获得单元,用于将所述目标安装包特征信息输入至恶意安装包识别模型,获得所述恶意安装包识别模型输出的第一识别结果;第一确定单元,用于若所述第一识别结果为所述目标安装包是恶意安装包,则确定所述目标安装包的类型为恶意安装包;第二获得单元,用于若所述第一识别结果为所述目标安装包不是恶意安装包,则将所述目标安装包特征信息输入至广告安装包识别模型,获得所述广告安装包识别模型输出的第二识别结果;第二确定单元,用于若所述第二识别结果为所述目标安装包是广告安装包,则确定所述目标安装包为广告安装包;第三确定单元,若所述第二识别结果为所述目标安装包不是广告安装包,则确定所述目标安装包为合法安装包。依据本专利技术的第五个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术的第一方面或第二方面中任一方法步骤。依据本专利技术的第六个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如本专利技术的第一方面或第二方面中任一方法步骤。根据本专利技术的建立安装包识别模型的方法及装置,首先,通过获取包括合法安装包和非法安装包的多个本文档来自技高网...

【技术保护点】
1.一种建立安装包识别模型的方法,其特征在于,所述方法包括:获取多个样本安装包,所述多个样本安装包中包括合法安装包和非法安装包,所述合法安装包为以用户的安装需求为前提所生成的安装包,所述非法安装包为不是以用户的安装需求为前提所生成的安装包;分别从每个所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息;对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型。

【技术特征摘要】
1.一种建立安装包识别模型的方法,其特征在于,所述方法包括:获取多个样本安装包,所述多个样本安装包中包括合法安装包和非法安装包,所述合法安装包为以用户的安装需求为前提所生成的安装包,所述非法安装包为不是以用户的安装需求为前提所生成的安装包;分别从每个所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息;对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型。2.如权利要求1所述的建立安装包识别模型的方法,其特征在于,所述非法安装包包括恶意安装包和/或广告安装包。3.如权利要求2所述的建立安装包识别模型的方法,其特征在于,当所述非法安装包包括所述恶意安装包和所述广告安装包时,所述对提取出的所有样本安装包特征信息进行模型训练,建立用于识别所述非法安装包的非法安装包识别模型,包括:对提取出的所有样本安装包特征信息进行模型训练,分别建立用于识别所述恶意安装包的恶意安装包识别模型和用于识别所述广告安装包的广告安装包识别模型。4.如权利要求1所述的建立安装包识别模型的方法,其特征在于,所述对提取出的所有样本安装包特征信息进行模型训练,包括:对提取出的所有样本安装包特征信息进行基于向量机、基于决策树或基于深度学习的模型训练。5.如权利要求1所述的建立安装包识别模型的方法,其特征在于,从所述样本安装包中提取出用于表征所述样本安装包的特征的样本安装包特征信息,包括:对所述样本安装包进行解压缩,获得用于运行所述样本安装包的关键文件;从所述关键文件中提取出文件特征;对所述文件特征进行降维处理,获得用于表征所述样本安装包的特征的样本安装包特征向量。6.一种识别安装包的方法,其特征在于,所述方法包括:获取目标安装包;从所述目标安装包中提...

【专利技术属性】
技术研发人员:陈宇龙华元彬
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1