当前位置: 首页 > 专利查询>重庆大学专利>正文

基于集成分类的病毒检测方法技术

技术编号:7115378 阅读:359 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于集成分类的病毒检测方法,属于网络安全技术领域。该病毒检测方法由特征提取和集成分类两大模块,其中特征提取采用静态特征提取方法提取病毒的指令序列特征,构成特征集,并选择该特征集中信息增益最大的n个指令序列特征作为优化特征集。集成分类将人工神经网络引入到集成分类算法的构建中,结合AdaBoost算法提出一种新的模式分类器(GRAB)实现对病毒的检测,以达到有效地提高检测准确率,尤其是精确检测未知病毒的目的。通过本发明专利技术,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。

【技术实现步骤摘要】

本专利技术涉及一种病毒检测方法,尤其是一种。
技术介绍
随着计算机网络尤其是互联网技术的飞速发展,网络成为人类社会最重要的组成部分,是20世纪最杰出的研究成果。而在网络互连程度日益扩大的同时,网络安全问题变得极其重要。所有网络安全事件中,计算机病毒的入侵占有最大比例。病毒数量不断增多, 传播日趋广泛,给全球带来了巨大的经济损失。传统的防病毒技术只能在病毒造成损害之后,通过分析病毒样本、提取特征码、更新病毒特征库来检测病毒。然而,当未知病毒或已知病毒的一个新的变体出现且造成损害之后,该病毒又将被重新分析,以更新特征库中的特征信息。该检测方法具有不可避免的滞后性,病毒的检测技术总是落后于新型病毒的出现。急需能够识别未知病毒的智能检测方法,达到将病毒危害降低到最小的目的。现有的防病毒技术大多以特征码比对的方法检测计算机病毒,这种检测方法先提取已知病毒样本的特征,并将其特征数据添加到病毒特征库,在病毒检测时通过在病毒特征库中搜索,查找是否存在与之相匹配的病毒特征来发现病毒,其缺点是只能用于检测已知病毒,而对新型及未知的病毒无能为力。近年来许多研究显示运用机器学习可有效地检测未知的恶意代码,其缺点是错误率过高。
技术实现思路
本专利技术的目的是提供一种,其可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒。本专利技术采用的技术方案是这样的本专利技术提供一种,其包括以下步骤51、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集, 按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的Π个指令序列特征作为优化特征集;52、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列、,其中各训练数据的期望分类结果表示为、下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列中各组训练数据的权重均初始化为兑 = i ,其>m中ACi)表示第1轮训练后第i组训练数据的权重,i=l,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;53、弱分类器预测获得预测序列采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列b,设定所述预测序列的表示函数为g力),其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,gi(0表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;求取预测误差和 A 如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果与期望分类结果K不相等,即如果&(O*乃则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列;的预测误差和,即& =ΣΑ(0 ,其中马《表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1 < t < τ,τ为大于1的整数;54、计算预测序列权重A根据所述预测序列的预测误差和力计算所述预测序列的权重 A = ,其中1彡t彡τ,τ为大于1的整数;atI S155、获得第t轮训练后第t组弱分类器函数;56、判断t^ T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7 ;57、根据所述预测序列Si的权重巧调整第t+Ι轮训练数据序列中各组训练数据的权重 DtJf),调整公式为jO m=,其中n m表示所述训练数据序列经第t+i轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且乓是归一化因子,为常数;其后重复执行所述步骤S3 S6 ;58、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器FTF = Signl^at ^ JigtiOt)];Ul59、对待检样本按照步骤Sl进行特征提取,根据强分类器F对所述待检样本进行识别, 输出检测结果。所述步骤Sl中采用一种改进的N-Gram方法作为静态特征提取方法,提取已知病毒的指令序列特征,该改进的N-Gram方法由以下步骤组成510、将已知病毒和正常程序文件反汇编,获得反汇编指令代码形式的样本文件,去除所有操作数和无关信息;511、结合N-Gram方法提取各已知病毒和正常程序的指令序列特征,且向指令序列特征的各特征段均赋予唯一的特征id ; 512、根据特征id和特征段出现的频率信息,生成与所述样本文件对应的特征向量,以表征所述样本文件的特征信息,并且由所述样本文件的特征向量构成特征集。在所述步骤Sll中N-Gram方法采用固定长度为N的N-Gram窗口对去除操作数和无关信息的样本文件滑动分割,所述N-Gram窗口每次滑动一个单位长度,由此获得所述指令序列特征的特征段,其中各特征段的长度为N。 综上所述,由于采用了上述技术方案,本专利技术的有益效果是1、采用静态特征提取方法提取指令序列特征,相比于提取其他静态特征,指令序列特征更能突显病毒文件的在其内容性和行为性两方面的特点,在表征同族变形病毒有显著优势,比二进制机器码有更好的语义特性,较Windows API calls以及其他动态特征有更高的样本覆盖率,也能更有效率地进行特征提取以及生成特征签名,并且相比于动态特征提取方法,采用静态特征提取方法不仅可以对非可执行病毒程序进行分析,而且其时间开销较2、将GRNN神经网络引入分类算法的构建中,结合AdaBoost算法提出基于集成分类算法GRAB,其取代了单一的分类算法,可以更加有效地区分病毒和正常程序,并且可以精确地检测出未知病毒;3、静态特征提取方法中选用一种改进的N-Gram方法,在提取指令序列特征之前去除所有的操作数和无关信息,以少量的原始数据获取更多的有效信息,使提取的指令序列特征在表征病毒文件内容与程序行为方面都具有更高的敏锐度;4、由于诸如N-Gram方法等静态特征提取方法,提取获得的指令序列特征中存在大量不相关或冗余的特征,这使得检测变得越来越困难,本专利技术采用基于信息增益的特征选取方法对指令序列特征进行优化,从而提高了检测的精度和效率。附图说明本专利技术将通过例子并参照附图的方式说明,其中 图1是本专利技术的模型示意图2是基于N-Gram的特征提取过程的示意图; 图3是GRAB集成分类模型的示意图; 图4是基于GRAB集成分类方法的流程图。具体实施例方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。本专利技术将 GRNN (Generalization regression neural network,广义回归神经网络)神经网络引入到分类算法的构建中,结合AdaBoost算法提出一种GRABCGeneralization Regression neural network based AdaBoost ,广义回归神经网络 AdaBoost)分类模型,在此基础上提出一种智能病毒检测系统CEVDS (Classifier Ensembles本文档来自技高网...

【技术保护点】
1.一种基于集成分类的病毒检测方法,其特征在于:由以下步骤组成:S1、采用静态特征提取方法提取各已知病毒和正常程序的指令序列特征,构成特征集,按照所述特征集中各指令序列特征的信息增益大小对所述特征集排序,选择所述特征集中信息增益最大的n个指令序列特征作为优化特征集;S2、以所述优化特征集为训练集,从所述训练集中随机选择m组训练数据作为训练数据序列,其中各训练数据的期望分类结果表示为,下标i表示训练数据在所述训练数据序列中的位置,将所述训练数据序列中各组训练数据的权重均初始化为,其中表示第1轮训练后第i组训练数据的权重,i=1,……,m,m为大于1的整数,并且根据输入输出维数确定GRNN弱分类器的结构,初始化SPREAD参数,其中所述输入维数由所述优化特征集的维数确定;S3、弱分类器预测获得预测序列:采用所述训练数据序列训练t个GRNN弱分类器并预测所述训练数据序列的输出,获得预测序列,设定所述预测序列的表示函数为,其中下标t表示训练的轮数,i表示训练数据在所述训练数据序列中的位置,表示所述训练数据序列经第t轮训练后第i组训练数据的预测分类结果;求取预测误差和:如果所述训练数据序列经t轮训练后第i组训练数据的预测分类结果与期望分类结果不相等,即如果则表示两者存在误差,将所有存在误差的训练数据的权重相加即获得所述预测序列的预测误差和,即,其中表示所述训练数据序列经第t轮训练后第i组训练数据的权重,且1≤t≤T,T为大于1的整数;S4、计算预测序列的权重:根据所述预测序列的预测误差和计算所述预测序列的权重:,其中1≤t≤T,T为大于1的整数;S5、获得第t轮训练后第t组弱分类器函数;S6、判断t≥T是否成立,如果成立则执行步骤S8,如果不成立则执行步骤S7;S7、根据所述预测序列的权重调整第t+1轮训练数据序列中各组训练数据的权重,调整公式为:,其中表示所述训练数据序列经第t+1轮训练后第i组训练数据的权重,exp[]表示以自然对数e为底的指数函数,且是归一化因子,为常数;其后重复执行所述步骤S3~S6;S8、根据各轮训练获得的T组弱分类器函数,由所述T组弱分类器组合获得强分类器F:;S9、对待检样本按照步骤S1进行特征提取,根据强分类器F对所述待检样本进行识别,输出检测结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:唐朝伟张雪臻杨磊严鸣时豪李超群
申请(专利权)人:重庆大学
类型:发明
国别省市:85

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1