恶意程序的检测方法及装置、存储介质、电子设备制造方法及图纸

技术编号:27742735 阅读:26 留言:0更新日期:2021-03-19 13:36
本发明专利技术公开了一种恶意程序的检测方法及装置、存储介质、电子设备,属于人工智能领域。其中,该方法包括:在沙箱中模拟运行待检测的程序文件;提取所述程序文件被模拟运行后的指令序列特征;根据所述指令序列特征在检测模型中检测所述程序文件的恶意度,其中,所述恶意度用于表征所述程序文件为恶意程序的概率值。通过本发明专利技术,解决了相关技术中恶意程序的识别效率低的技术问题,提高了恶意程序的识别率和准确率。

【技术实现步骤摘要】
恶意程序的检测方法及装置、存储介质、电子设备
本专利技术涉及人工智能领域,具体而言,涉及一种恶意程序的检测方法及装置、存储介质、电子设备。
技术介绍
相关技术中,恶意软件是一种被设计用来对目标计算机造成破坏或者占用目标计算机资源的软件,传统的恶意软件包括蠕虫、木马等,这些恶意软件严重侵犯用户合法权益,甚至将为用户及他人带来巨大的经济或其他形式的利益损失。近年来随着虚拟货币进入大众视野,挖矿类的恶意程序也开始大量涌现,黑客通过入侵恶意挖矿程序获取巨额收益。当前恶意软件的检测技术主要有特征码检测、行为检测和启发式检测等,配合使用机器学习可以在一定程度上提高泛化能力,提升恶意样本的识别率。相关技术中,采用内容结合特征码进行恶意软件识别,内容结合特征码就是传统的病毒引擎的原理,基于内容的静态分析法,病毒样本不需要实际执行起来。安全人员直接打开文件查看二进制码或者反汇编后来分析源代码都属于这一类方法。需要依赖安全人员给出精准匹配的特征码,匹配迅速,但是就如常见的杀毒引擎一样,需要定期更新病毒库,需要较高的时间成本和人力成本。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种恶意程序的检测方法及装置、存储介质、电子设备。根据本申请实施例的一个方面,提供了一种恶意程序的检测方法,包括:在沙箱中模拟运行待检测的程序文件;提取所述程序文件被模拟运行后的指令序列特征;根据所述指令序列特征在检测模型中检测所述程序文件的恶意度,其中,所述恶意度用于表征所述程序文件为恶意程序的概率值。进一步,在根据所述指令序列特征在检测模型中检测所述程序文件的程序类型之前,所述方法包括:对样本数据进行频逆向文件频率TFIDF变换,得到所述样本数据的TFIDF特征,并获取所述样本数据的统计特征;采用朴素贝叶斯逻辑回归NBLR模型和轻度梯度提升机LightGBM模型构建初始模型,其中,所述初始模型包括NBLR初始模型和LightGBM初始模型;基于所述TFIDF特征和所述统计特征训练所述初始模型,得到所述检测模型。进一步,基于所述TFIDF特征和所述统计特征训练所述初始模型包括:采用所述TFIDF特征训练所述NBLR初始模型,得到NBLR模型和NBLR概率特征,其中,所述NBLR概率特征用于表征所述NBLR模型在训练过程中国输出的预测值;采用所述TFIDF特征,所述统计特征以及所述NBLR概率特征训练所述LightGBM初始模型,得到LightGBM模型。进一步,采用所述TFIDF特征训练所述NBLR初始模型,得到NBLR模型和NBLR概率特征包括:将所述样本数据分为N份,其中,N为大于1的整数;采用N个训练周期训练所述NBLR初始模型,得到所述NBLR模型和NBLR概率特征,其中,在每个训练周期中,在所述N份样本数据中选择第i份样本数据作为预测数据,剩下的样本数据为训练数据迭代训练上一训练周期的模型结果,i为1-N的整数。进一步,在基于所述TFIDF特征和所述统计特征训练所述初始模型之前,所述方法还包括:根据卡方检验的校验结果对多个TFIDF特征进行排序;在所述多个TFIDF特征的序列中筛选前若干个TFIDF特征。进一步,根据所述指令序列特征在检测模型中检测所述程序文件的恶意度包括:根据所述指令序列特征在检测模型中输出多个程序概率值,其中,每个程序概率值对应一种恶意程序类型;在所述多个程序概率值中选择最高的指定程序概率值作为所述程序文件的恶意度。进一步,提取所述程序文件被模拟运行后的指令序列特征包括:提取所述程序文件被模拟运行后的应用程序接口API指令序列;对所述API指令序列词频逆向文件频率TFIDF模型变换,得到所述指令序列特征,其中,所述指令序列特征包括:所述程序文件调用的API的标识信息,机器调用API的线程编号,线程中API调用的顺序编号。根据本申请实施例的另一个方面,还提供了一种恶意程序的检测装置,包括:运行模块,用于在沙箱中模拟运行待检测的程序文件;提取模块,用于提取所述程序文件被模拟运行后的指令序列特征;检测模块,用于根据所述指令序列特征在检测模型中检测所述程序文件的恶意度,其中,所述恶意度用于表征所述程序文件为恶意程序的概率值。进一步,所述装置包括:变换模块,用于在所述检测模块根据所述指令序列特征在检测模型中检测所述程序文件的程序类型之前,对样本数据进行频逆向文件频率TFIDF变换,得到所述样本数据的TFIDF特征,并获取所述样本数据的统计特征;构建模块,用于采用朴素贝叶斯逻辑回归NBLR模型和轻度梯度提升机LightGBM模型构建初始模型,其中,所述初始模型包括NBLR初始模型和LightGBM初始模型;训练模块,用于基于所述TFIDF特征和所述统计特征训练所述初始模型,得到所述检测模型。进一步,所述训练模块包括:第一训练单元,用于采用所述TFIDF特征训练所述NBLR初始模型,得到NBLR模型和NBLR概率特征,其中,所述NBLR概率特征用于表征所述NBLR模型在训练过程中国输出的预测值;第二训练单元,用于采用所述TFIDF特征,所述统计特征以及所述NBLR概率特征训练所述LightGBM初始模型,得到LightGBM模型。进一步,所述第一训练单元包括:拆分子单元,用于将所述样本数据分为N份,其中,N为大于1的整数;训练子单元,用于采用N个训练周期训练所述NBLR初始模型,得到所述NBLR模型和NBLR概率特征,其中,在每个训练周期中,在所述N份样本数据中选择第i份样本数据作为预测数据,剩下的样本数据为训练数据迭代训练上一训练周期的模型结果,i为1-N的整数。进一步,所述装置还包括:排序模块,用于在所述训练模块基于所述TFIDF特征和所述统计特征训练所述初始模型之前,根据卡方检验的校验结果对多个TFIDF特征进行排序;筛选模块,用于在所述多个TFIDF特征的序列中筛选前若干个TFIDF特征。进一步,所述检测模块包括:输出单元,用于根据所述指令序列特征在检测模型中输出多个程序概率值,其中,每个程序概率值对应一种恶意程序类型;选择单元,用于在所述多个程序概率值中选择最高的指定程序概率值作为所述程序文件的恶意度。进一步,所述提取模块包括:提取单元,用于提取所述程序文件被模拟运行后的应用程序接口API指令序列;变换单元,用于对所述API指令序列词频逆向文件频率TFIDF模型变换,得到所述指令序列特征,其中,所述指令序列特征包括:所述程序文件调用的API的标识信息,机器调用API的线程编号,线程中API调用的顺序编号。根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。本申请实本文档来自技高网...

【技术保护点】
1.一种恶意程序的检测方法,其特征在于,包括:/n在沙箱中模拟运行待检测的程序文件;/n提取所述程序文件被模拟运行后的指令序列特征;/n根据所述指令序列特征在检测模型中检测所述程序文件的恶意度,其中,所述恶意度用于表征所述程序文件为恶意程序的概率值。/n

【技术特征摘要】
1.一种恶意程序的检测方法,其特征在于,包括:
在沙箱中模拟运行待检测的程序文件;
提取所述程序文件被模拟运行后的指令序列特征;
根据所述指令序列特征在检测模型中检测所述程序文件的恶意度,其中,所述恶意度用于表征所述程序文件为恶意程序的概率值。


2.根据权利要求1所述的方法,其特征在于,在根据所述指令序列特征在检测模型中检测所述程序文件的程序类型之前,所述方法还包括:
对样本数据进行频逆向文件频率TFIDF变换,得到所述样本数据的TFIDF特征,并获取所述样本数据的统计特征;
采用朴素贝叶斯逻辑回归NBLR模型和轻度梯度提升机LightGBM模型构建初始模型,其中,所述初始模型包括NBLR初始模型和LightGBM初始模型;
基于所述TFIDF特征和所述统计特征训练所述初始模型,得到所述检测模型。


3.根据权利要求2所述的方法,其特征在于,基于所述TFIDF特征和所述统计特征训练所述初始模型包括:
采用所述TFIDF特征训练所述NBLR初始模型,得到NBLR模型和NBLR概率特征,其中,所述NBLR概率特征用于表征所述NBLR模型在训练过程中国输出的预测值;
采用所述TFIDF特征,所述统计特征以及所述NBLR概率特征训练所述LightGBM初始模型,得到LightGBM模型。


4.根据权利要求3所述的方法,其特征在于,采用所述TFIDF特征训练所述NBLR初始模型,得到NBLR模型和NBLR概率特征包括:
将所述样本数据分为N份,其中,N为大于1的整数;
采用N个训练周期训练所述NBLR初始模型,得到所述NBLR模型和NBLR概率特征,其中,在每个训练周期中,在所述N份样本数据中选择第i份样本数据作为预测数据,剩下的样本数据为训练数据迭代训练上一训练周期的模型结果,i为1-N的整数。


5.根据权利要求...

【专利技术属性】
技术研发人员:楼马晶
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1