当前位置: 首页 > 专利查询>广州大学专利>正文

恶意软件识别方法、装置及存储介质制造方法及图纸

技术编号:24800620 阅读:69 留言:0更新日期:2020-07-07 21:13
本发明专利技术涉及软件安全技术领域,公开了一种恶意软件识别方法、装置及存储介质,该恶意软件识别方法包括以下步骤:提取样本软件执行序列特征;其中,所述样本软件执行序列特征包括API特征、PID特征以及RET特征;利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型;其中,所述GCForest模型包括级联森林模块,且所述GCForest模型的最终预测结果由最终决策学习器输出;使用训练后的GCForest模型对恶意软件进行识别。本发明专利技术提供的恶意软件识别方法、装置及存储介质,能够提高对恶意软件的识别准确率。

【技术实现步骤摘要】
恶意软件识别方法、装置及存储介质
本专利技术涉及软件安全
,特别是涉及一种恶意软件识别方法、装置及存储介质。
技术介绍
随着网络的普及与发展,人类已进入信息化时代。但是,与此同时,随着网络攻击技术的发展,特别是计算机病毒、计算机蠕虫、特洛伊木马等为代表的恶意代码对网络和信息系统带来的安全问题已经成为关系国家安全、军事安全和社会安全的重大问题,软件安全研究也成为了当前计算机研究的一个重要课题。其中,恶意软件识别是判断计算机软件安全性的一种方法,是软件安全研究的一个关键部分。在现有技术中,主要使用深度神经网络算法来完成恶意软件识别任务,通过对恶意样本的分析,恶意软件文件可以通过转换算法转换为图像数据集和文本序列数据集,从而应用在图像和文本任务中表现出色的深度学习模型,例如CNN(ConvolutionalNeuralNetwork,卷积神经网络)、GRU(GatedRecurrentUnit,门控循环单元)等。而基于森林的传统机器学习算法在数据分类任务中取得了较好的效果,其中,XGBoost(eXtremeGradientBoosti本文档来自技高网...

【技术保护点】
1.一种恶意软件识别方法,其特征在于,包括:/n提取样本软件执行序列特征;其中,所述样本软件执行序列特征包括API特征、PID特征以及RET特征;/n利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型;其中,所述GCForest模型包括级联森林模块,且所述GCForest模型的最终预测结果由最终决策学习器输出;/n使用训练后的GCForest模型对恶意软件进行识别。/n

【技术特征摘要】
1.一种恶意软件识别方法,其特征在于,包括:
提取样本软件执行序列特征;其中,所述样本软件执行序列特征包括API特征、PID特征以及RET特征;
利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型;其中,所述GCForest模型包括级联森林模块,且所述GCForest模型的最终预测结果由最终决策学习器输出;
使用训练后的GCForest模型对恶意软件进行识别。


2.根据权利要求1所述的恶意软件识别方法,其特征在于,所述提取样本软件执行序列特征,具体为:
抓取所述样本软件的xml文件中的api_name、call_pid、ret_value;
根据所述api_name、所述call_pid、所述ret_value使用规则匹配和频数统计提取所述样本软件的所述API特征、所述PID特征以及所述RET特征。


3.根据权利要求2所述的恶意软件识别方法,其特征在于,所述根据所述api_name、所述call_pid、所述ret_value使用规则匹配和频数统计提取所述样本软件的所述API特征、所述PID特征以及所述RET特征,具体为:
当所述样本软件的api_name中包含第一字符串时,确定所述样本软件的所述API特征的值为1,否则为0;其中,所述第一字符串为恶意软件的api_name中的任一字符串;
当所述样本软件的call_pid中包含第二字符串时,确定所述样本软件的所述PID特征的值为所述第二字符串出现的频数;其中,所述第二字符串为恶意软件的call_pid中的任一字符串;
当所述样本软件的ret_value中包含第三字符串时,确定所述样本软件的所述RET特征的值为所述第三字符串出现的频数;其中,所述第三字符串为恶意软件的ret_value中的任一字符串。


4.根据权利要求1所述的恶意软件识别方法,其特征在于,所述利用所述API特征、所述PID特征以及所述RET特征训练GCForest模型,具体为:
S21:将提取到的所述API特征、所述PID特征以及所述RET特征的结果合并规范为第一特征向量,并分为训练集和交叉验证集,将所述训练集送入所述GCForest模型,训练所述GCForest模型的第一森林层的基学习器以及最终决策学习器;
S22:将所述第一森林层和所述最终决策学习器进行连接以得到第一GCForest模型,并使用所述第一GCForest模型对所述交叉验证集进行预测,将预测结果与预设的标签对比验证,计算第一准确率;
S23:将上一森林层输出的类概率向量与所述训练集的第一特征向量进行连接,得到新的特征向量作为下一森林层的输入,使用所述新的特征向量训练下一森林层,并连接所述最终决策学习器得到新的GCForest模型,并使用所述新的GCForest模型对所述交叉验证集进行预测,将预测结果与所述预设的标签对比验证,计算当前准确率;
S24:若当前准确率大于前一森林层的准确率,则更新当前最高准确率及所述当前最高准确率对应的森林层,并重复步骤S23;
S25:当准确率不再提升时,停止训练,将准确率最高的森林层与所述最终决策学习器进行连接以得到所述训练后的GCForest模型。


5.根据权利要求4所述的恶意软件识别方法,其特征在于,所述GCForest模型的任一森林层的基学习器至少由以下算法之一构成:随机森林、极端随机树、极端梯度提升、轻量级梯度提升机、类别提升、逻辑回归。


6.一种恶意软件...

【专利技术属性】
技术研发人员:张九经李树栋吴晓波韩伟红方滨兴田志宏殷丽华顾钊铨仇晶王乐李默涵唐可可
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1