一种基于稀疏表示和模型融合的Android Malware分类方法技术

技术编号：20655257 阅读：57 留言：0更新日期：2019-03-23 06:54

本发明专利技术公布了一种基于稀疏表示和模型融合的Android Malware安卓恶意软件的分类方法，通过采用稀疏表示的方法，表示安卓恶意程序Android Malware的行为特征；再采用Stacking模型融合方法进行分类预测，由此提升模型预测性能。本发明专利技术方法对从程序中提取的原始特征进行了稀疏表示，获得恶意程序更加本质的特征；模型的拟合可在基础模型之上，从而实现更加高泛化能力的模型，提高安卓恶意软件分类的精确程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于稀疏表示和模型融合的AndroidMalware分类方法
本专利技术属于信息安全
，涉及恶意软件检测技术，尤其涉及一种基于稀疏表示和模型融合的AndroidMalware(Androidmalicioussoftwar，安卓恶意软件)分类方法。
技术介绍
在移动安全领域，Android系统由于其普及性和开放性，成为了众多黑客攻击的对象，Android恶意软件成为Android系统面临的巨大威胁。2017年，根据Newzoo的报告，全球安卓手机用户达到了23亿。2017年，根据腾讯的报告，感染安卓手机病毒用户数达到了1.88亿。如此众多安卓手机用户和手机病毒，单靠人工检测显得身单力薄。能够自动地进行恶意程序分类检测这一问题已经迫在眉睫。用机器学习的方法，通过对安卓恶意程序特征(行为特征)的学习，可以让机器学习模型自动对恶意程序进行分类。但是，现有机器学习技术检测恶意代码，主要是将提取的特征直接输入单个模型训练，实际的检测效果十分有限。
技术实现思路
为了克服上述现有技术的不足，本专利技术提供一种基于稀疏表示和模型融合的AndroidMalware(Androidmalicioussoftwar，安卓恶意软件)分类方法，通过采用机器学习方法，高效、准确地对安卓恶意程序进行分类，使得恶意程序识别接近自动化，能够更好地解决现实中对于安卓恶意程序分类的需求。为方便起见，本专利技术中定义以下术语简称及相应的全称：RF：RandomForest，随机森林；ET：ExtremelyRandomizedTrees，极端随机树；AB：AdaBoost；GBDT：Gr...

【技术保护点】
1.一种基于稀疏表示和模型融合的安卓恶意程序Android Malware分类方法，通过采用稀疏表示的方法，表示安卓恶意程序Android Malware的行为特征；再采用Stacking模型融合方法进行分类预测，由此提升模型预测性能；包括如下步骤：A.提取安卓恶意程序的行为特征；执行如下操作：A1.下载并安装QEMU模拟器；A2.针对安卓恶意程序的数据集，在QEMU模型器上运行数据集中的每一个安卓恶意程序，对其系统调用的API进行检测；A3.得到API时序调用序列及相关信息，标记病毒类型并存入病毒库；B.稀疏表示API时序调用序列数据，作为恶意程序的行为特征；具体执行如下操作：B1.设置F是n*p的恶意程序行为特征的矩阵，其中，n表示恶意程序的数量，p表示从恶意程序中提取出行为特征的维度；B2.使用K‑SVD算法进行训练学习，目标函数为下式：D,X＝argmin{||X||0}；s.t.||F‑D*X||2≤ε其中，D是从数据集中学习得到的字典集；X是数据集的稀疏表示；ε是重构特征矩阵是允许误差的最大值；B3.经过学习得到恶意程序行为特征矩阵的稀疏表示X；C.模型的Stacking融...

【技术特征摘要】
1.一种基于稀疏表示和模型融合的安卓恶意程序AndroidMalware分类方法，通过采用稀疏表示的方法，表示安卓恶意程序AndroidMalware的行为特征；再采用Stacking模型融合方法进行分类预测，由此提升模型预测性能；包括如下步骤：A.提取安卓恶意程序的行为特征；执行如下操作：A1.下载并安装QEMU模拟器；A2.针对安卓恶意程序的数据集，在QEMU模型器上运行数据集中的每一个安卓恶意程序，对其系统调用的API进行检测；A3.得到API时序调用序列及相关信息，标记病毒类型并存入病毒库；B.稀疏表示API时序调用序列数据，作为恶意程序的行为特征；具体执行如下操作：B1.设置F是n*p的恶意程序行为特征的矩阵，其中，n表示恶意程序的数量，p表示从恶意程序中提取出行为特征的维度；B2.使用K-SVD算法进行训练学习，目标函数为下式：D,X＝argmin{||X||0}；s.t.||F-D*X||2≤ε其中，D是从数据集中学习得到的字典集；X是数据集的稀疏表示；ε是重构特征矩阵是允许误差的最大值；B3.经过学习得到恶意程序行为特征矩阵的稀疏表示X；C.模型的Stacking融合,执行如下操作：C1.选择{RF，ET，AB，GBDT}作为第一层的基础模型，对X做出预测并输出每个类对应的概率；C2.将XgB...

【专利技术属性】
技术研发人员：文伟平，胡浩然，汪子龙，
申请(专利权)人：北京大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人