当前位置: 首页 > 专利查询>东华大学专利>正文

一种基于局部熵的恶意代码可视化分析方法技术

技术编号:18668502 阅读:25 留言:0更新日期:2018-08-14 20:41
本发明专利技术涉及一种基于局部熵的恶意代码可视化分析方法,包括以下步骤:计算恶意代码局部熵,生成的熵值序列长度记为L,之后补充

A visual analysis method for malicious code based on local entropy

The invention relates to a malicious code visualization analysis method based on local entropy, which comprises the following steps: calculating the local entropy of malicious code, the length of the generated entropy value sequence is marked as L, and then supplementing.

【技术实现步骤摘要】
一种基于局部熵的恶意代码可视化分析方法
本专利技术涉及恶意代码可视化分析
,特别是涉及一种基于局部熵的恶意代码可视化分析方法。
技术介绍
恶意代码的编写者通常采用自动化的手段开发恶意代码变种,使其数量迅猛增长,极大的危害信息系统安全。自动化开发的方式往往会重复利用同族恶意代码的核心功能模块,且这些模块的相似性可以通过局部熵的形式反映出来,这为辨识恶意代码族提供了有利的依据。2015年,韩国汉阳大学的KyongSooHan等人提出了熵图的方法,该方法计算恶意代码中每256字节块的熵值,从而生成关于局部熵的直方图,之后运用直方图比较算法(StrelkovVV.Anewsimilaritymeasureforhistogramcomparisonanditsapplicationintimeseriesanalysis[J].PatternRecognitionLetters,2008,29(13):1768-1774.)来检测和分类恶意代码。如图1所示,恶意代码经局部熵计算生成熵直方图。在实施恶意代码分类的过程中,该方法将待比较的熵图以最大熵值作为熵图长度截取的对齐标准,同时兼顾两直方图间对应熵值相似度期望k1和对应最近局部极值相似度期望k2对整体相似度的影响,分别给予t1=0.7和t2=0.3的权重,以S=t1*k1+t2*k2计算两直方图之间的相似度。虽然HanKS,LimJH,KangB,etal.Malwareanalysisusingvisualizedimagesandentropygraphs[J].InternationalJournalofInformationSecurity,2015,14(1):1-14.的方法可以在视觉上呈现同族恶意代码拥有相似的熵图区域,但该方法在实施分类时存在以下问题。1、因熵图的长度受恶意代码文件大小的影响存在着差异,只能截取部分等长区域计算相似度,这使得用于分类的特征不完整;2、以最大熵值作为截取依据的直方图相似度算法无法将比较范围准确定位于相似功能模块所形成的局部熵区域,因此无法满足该方法的分类前提,即相似模块可以用于检测恶意变种。这些因素影响了该方法在恶意代码分类应用上的准确性。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于局部熵的恶意代码可视化分析方法,可用于恶意代码检测及分类。本专利技术解决其技术问题所采用的技术方案是:提供一种基于局部熵的恶意代码可视化分析方法,包括以下步骤:(1)计算恶意代码局部熵,生成的熵值序列长度记为L,之后补充个0熵值;(2)计算局部熵的djb2哈希值;(3)将djb2哈希值转换成RGB值;(4)基于RGB值序列生成关于局部熵的方图;(5)提取局部熵方图的Gist特征,并运用KNN分类算法实施分类验证。所述步骤(2)具体为:将所得的长度为的熵值序列,以字符形式分别计算每个熵值的djb2哈希值。所述步骤(3)中djb2哈希值为24个bit位,每8位一组计算,分别得到RGB三色通道的颜色值。所述步骤(4)具体为:将所得的RGB值序列按每行个像素点的自然顺序依次排列,生成的关于局部熵方图。有益效果由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:在视觉分析方面,本专利技术能从视觉感知上使所生成的同族恶意样本相似,而异族样本之间明显可区分;在演进分析方面,能通过局部熵反映出相似功能模块在熵方图上的位置变化,为待测样本是否归属某一族提供了依据;在交互分析方面,本专利技术不仅构建了安全分析人员与恶意样本之间的视觉通信,降低了人工分析的难度,还能以程序自动化的方式操作,进一步降低了对相关人员专业技术的要求;在检测分类方面,本专利技术提取图片的纹理特征作为分类依据,充分利用每个熵值,可使分类特征更全面、分类判定更准确;在时效性方面,本专利技术应用降维映射的方法能减少图片生成的时间开销,提高识别分类的效率。附图说明图1是现有技术中熵图方法示意图;图2是Trojan-Downloader.Win32.QQHelper类样本.gfk可视化后的示例图;图3是Trojan-Spy.Win32.WinSpy类样本.fq可视化后的示例图;图4是Trojan-Spy.Win32.WinSpy类样本.ou可视化后的示例图;图5是Trojan-Spy.Win32.WinSpy类样本.tz可视化后的示例图;图6是本专利技术的流程图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及一种基于局部熵的恶意代码可视化分析方法,如图6所示,先计算恶意代码的局部熵值,补充0熵值至整个熵值序列长度为某最小整数乘方;在此基础上,以字符形式计算各熵值的djb2哈希值;再将所得24位djb2哈希值转化为RGB颜色值,按自然顺序排列像素点以生成关于局部熵的方图。该方法将恶意代码降维至其熵值表示,大幅度减少了分析文件时的运算开销;同时,相似功能模块所形成的局部熵图案,便于研究同族恶意代码的演变规律;此外,该方法借助纹理分析方法,提取这些方图的Gist特征,并运用K-NearestNeighbor(KNN)分类算法实施分类验证,再次以降维的方式减少了分析时间成本,提高了判定分类的效率。下面通过具体的实施例对本专利技术进行详细说明。用于验证本专利技术分类正确率的样本是从VXHeavens官方网站下载的24类共计7162个以卡巴斯基命名规则命名的恶意样本。实施例1一种基于局部熵的恶意代码可视化分析方法,具体为:步骤1:与KyongSooHan等人提出的熵图方法一样,本专利技术也需计算恶意代码中每256字节块的熵值。不同的是,为后续步骤能生成局部熵方图,本专利技术需在生成的熵值序列后填充0熵值,以使最终的熵值序列长度可被开平方。以Trojan-Downloader.Win32.QQHelper类样本.gfk为例,该恶意代码文件大小为636471字节,熵序列依次为1.23619305365、0.730780826873、3.61392762918、……,长度为2487,补充13个0熵值,补充后长度为2500;步骤2:将上一步骤所得的熵值序列,以字符形式分别计算每个熵值的djb2哈希值,其十进制表示依次为2620223、9919006、12915980、……;步骤3:将上一步骤所得djb2哈希值序列转换为RGB颜色值,由于djb2哈希值为24个bit位,因此每8位一组计算,分别得到RGB三色通道的颜色值,依次为(39,251,63)、(151,90,30)、(197,21,12)、……;步骤4:上一步骤所得的颜色序列按每行50个像素点的自然顺序排列,生成50*50的方图,如图2所示。将全部7162个恶意样本转化成图片后,提取这些图片的Gist特征,应用KNN分类算法,对本专利技术所提的可视化方法进行了10次交叉验证,结果分别为0.9655、0.9571、0.9584、0.9597、0.9499、0.9665、0.9565、0.9761、0.9548、0.9773,因此本专利技术针对本文档来自技高网
...

【技术保护点】
1.一种基于局部熵的恶意代码可视化分析方法,其特征在于,包括以下步骤:(1)计算恶意代码局部熵,生成的熵值序列长度记为L,之后补充

【技术特征摘要】
1.一种基于局部熵的恶意代码可视化分析方法,其特征在于,包括以下步骤:(1)计算恶意代码局部熵,生成的熵值序列长度记为L,之后补充个0熵值;(2)计算局部熵的djb2哈希值;(3)将djb2哈希值转换成RGB值;(4)基于RGB值序列生成关于局部熵的方图;(5)提取局部熵方图的Gist特征,并运用KNN分类算法实施分类验证。2.根据权利要求1所述的基于局部熵的恶意代码可视化分析方法,其特征在于,所述步骤(2)具...

【专利技术属性】
技术研发人员:任卓君谢锐敏刘忠利陈光卢文科
申请(专利权)人:东华大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1