The invention discloses a method for efficient malware variant recognition algorithm, first of all to enter the classifier program behavior analysis a preprocessing based on time series analysis, the processing results can be ensured for malicious software, the error rate is 0; but not convicted of malicious programs before entering the classifier make further judgment. Although a judgement process is added, the efficiency of the whole system can be improved by filtering out those programs with significant malicious behaviors and reducing the workload of classifiers. The present invention is the use of SimHash, the characteristics of high efficiency, but also make use of LCS to skip a lot of noise characteristics in time series, while still retaining the original data in detail, experiments show that the designed algorithm can detect malware variants to meet the expected objectives, analysis algorithms have better performance than time series the traditional.
【技术实现步骤摘要】
一种针对恶意软件变种的高效识别算法
本专利技术属于信息安全
,涉及一种针对恶意软件变种的高效识别算法。
技术介绍
在信息安全领域,对计算机恶意行为的自动分析是一个重要研究领域,同时也是一个相当有难度的问题。如果自动分析能够做到实用化,将大大提升人们对抗恶意软件的效率。目前的分析技术大多数是基于机器学习的。但是,传统的机器学习算法需要相当多的样本进行训练,换言之,其算法设计的前提假设是样本数目无穷大,而且数据的规律性很强。而在我们的实际工作中,在恶意行为检测领域获取的数据很难满足这一要求,因此自动分类的准确性还不尽如人意。另一方面,目前常用的分类算法不仅训练时间长,而且在实际使用中,分类时间也比较长。在做大规模的在线自动分析时,其性能也将成为瓶颈。为了部分解决这一问题,我们引入了时间序列分析技术。虽然时间序列技术在恶意行为分析领域中的应用研究取得了一些进展,但暂时还达不到实用效果。我们认为主要是因为以下几个原因:(1)传统的分类算法过于复杂,时空开销大,不适用于在线实时分析这样对性能要求高的场合。(2)分类的准确性不如人工分类,暂达不到实用要求。比如KNN算法 ...
【技术保护点】
一种针对恶意软件变种的高效识别算法,其特征在于,输入:恶意行为时间序列T={T1,T2,……,Tm}和待匹配的行为时间序列S={S1,S2,……,Sn};输出:LCS(Tm,Sn)的长度,LCS(Ti,Sj)的长度用len(i,j)来表示;(1)初始化,L(i,0)=0,L(0,j)=0,0≤i≤m‑1,0≤j≤n‑1;令i←1;(2)分别计算S1,S2,……,Sn的SimHash值;(3)分别计算T1,T2,……,Tm中不含通配符元素的SimHash值;(4)j←1;(5)如果Ti含有通配符,则按照算法5.3根据Sj进行特例化处理,然后计算Ti的SimHash值;(6)如 ...
【技术特征摘要】
1.一种针对恶意软件变种的高效识别算法,其特征在于,输入:恶意行为时间序列T={T1,T2,……,Tm}和待匹配的行为时间序列S={S1,S2,……,Sn};输出:LCS(Tm,Sn)的长度,LCS(Ti,Sj)的长度用len(i,j)来表示;(1)初始化,L(i,0)=0,L(0,j)=0,0≤i≤m-1,0≤j≤n-1;令i←1;(2)分别计算S1,S2,……,Sn的SimHash值;(3)分别计算T1,T2,……,Tm中不含通配符元素的SimHash值;(4)j←1;(5)如果Ti含有通配符,则按照算法5.3根据Sj进行特例化处理,然后计算Ti的SimHash值;(6)如果SimEqual(Ti,Sj)=1,则len(i,j)=len(i-1,j-1)+1,然后转(9);(7)如果len(i-1,j)≥len(i,j-1)则len(i,j)=len(i-1,j),然后转(9);(8)len(i,j)=len(i,j-1);(9)j←j+1,如果j<n则转(5);否则转(10);(10)i←i+1,如果i≤m则转(4);否则转(11);(11)返回len(m,n)。2.根据权利要求1所述的针对恶意软件变种的高效识别算法,其特征在于,所述算法求出待判断的行为序列S与恶意行为序列T的最长公共子串的长度len(S,T),按照以下公式计算S对于T的相似度:其中|T|表示T的长度,Similar(S,T)的值一定介于[0,1]之间,越接近1,表示S与T之间的相似度越高。3.根据权利要求1所述的针对恶意软件变种的高效识别算法,其特征在于,当S与T的相似度超过该阈值时,即断定S是T的变种;利用实验将阈值从1开始逐步往下调整,到第一次出现误判时,将该阈值定为底线。4.根据权利要求3所述的针对恶意软件变种的高效识别算法,其特征在于,所述阈值的确定方法通过实验系统实现,所述实验系统中的数据分为两部分:一部分是恶意行为序列模板库,该库由手工分析建成,由国家计算机病毒应急处理中心发布的恶意软件:包括熊猫烧香、灰鸽子、代理木马、AV终结者、U盘杀手、Ha...
【专利技术属性】
技术研发人员:刘新,李亭葳,朱林琴,楚尚武,雷海武,张辉,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。