当前位置: 首页 > 专利查询>东华大学专利>正文

一种基于操作码频率的恶意代码可视化分析方法技术

技术编号:18668500 阅读:202 留言:0更新日期:2018-08-14 20:41
本发明专利技术涉及一种基于操作码频率的恶意代码可视化分析方法,包括以下步骤:提取恶意代码的操作码字符序列,将操作码字符序列转换为常数序列;对得到的常数序列进行归一化操作;将归一化后的常数序列转换成RGB值,得到RGB颜色序列;将RGB颜色序列按指定顺序重新排列后填充图片;根据得到的图片进行可视化分析。本发明专利技术能够提高分析效率,并适用于恶意样本的相似性比较。

A visual analysis method for malicious code based on operation code frequency

The present invention relates to a visual analysis method of malicious code based on opcode frequency, which includes the following steps: extracting opcode character sequence of malicious code, converting opcode character sequence into constant sequence, normalizing the obtained constant sequence, converting the normalized constant sequence into RGB value, and obtaining RG. B color sequence; the RGB color sequence is rearranged in a specified order and filled with images; visual analysis is performed according to the resulting images. The invention can improve the analysis efficiency and is suitable for the similarity comparison of malicious samples.

【技术实现步骤摘要】
一种基于操作码频率的恶意代码可视化分析方法
本专利技术涉及恶意代码分析
,特别是涉及一种基于操作码频率的恶意代码可视化分析方法。
技术介绍
恶意代码利用计算机系统漏洞能窃取、修改或破坏系统上的数据,甚至摧毁整个系统,是当前信息系统安全的最大威胁。因此,为了让安全分析人员快速鉴别新增可疑文件的性质,将可视化技术引入恶意代码分析领域,借助图像分类在人工智能领域的优势,解决恶意代码分类问题,是当前网络安全研究的前沿热点。2013年,韩国汉阳大学的KyongSooHan等人提出了图像矩阵的方法,该方法将恶意代码静态分析得到的二进制信息转换成图像矩阵上的RGB像素点,之后通过比较图像矩阵之间的相似度来识别、检测和分类恶意代码。如图1所示,恶意代码经反汇编软件(如IDAPro或OllyDbg)进行静态分析,可以提取到操作码指令;这些指令以基本块为单位分别进行SimHash和djb2哈希计算,以此得到该基本块映射于图像矩阵上像素点的坐标值和RGB颜色值。在实施恶意代码分类的过程中,该方法将图像矩阵划分为22n个区域,并随机选取其中2n个区域(该方法选取n=2)计算对应像素点之间基于向量角的距离,这些距离的平均值即为两个恶意代码样本之间的相似度。然而,HanKS,LimJH,ImEG.Malwareanalysismethodusingvisualizationofbinaryfiles[C].ResearchinAdaptiveandConvergentSystems.ACM,2013:317-321.的方法仅选取图像矩阵的部分区域计算相似度,且只分析了三类恶意代码族的9个样本,这使其在应用上缺乏普适性;同时,鉴于哈希值的唯一性,只有完全相同的基本块才能以相同的颜色出现在图像矩阵的同一位置,而实现相同恶意功能的基本块并不一定是由完全相同的操作码序列构成,这会导致实现相似功能的同族恶意代码所生成的图像矩阵在视觉感知上并不相似。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于操作码频率的恶意代码可视化分析方法,能够提高分析效率,并适用于恶意样本的相似性分析。本专利技术解决其技术问题所采用的技术方案是:提供一种基于操作码频率的恶意代码可视化分析方法,包括以下步骤:(1)提取恶意代码的操作码字符序列,将操作码字符序列转换为常数序列;(2)对得到的常数序列进行归一化操作;(3)将归一化后的常数序列转换成RGB值,得到RGB颜色序列;(4)将RGB颜色序列按指定顺序重新排列后填充图片;(5)根据得到的图片进行可视化分析。所述步骤(1)中将各操作码字符按对应关系转换成[0,253]之间的常数,得到常数序列。所述步骤(2)具体为将常数序列缩放至固定长度为216的常数序列。将原常数序列记为C[i],表示原序列中第i个常数值,i是[1,L]之间的整数,L为原常数序列的长度。按下述方式缩放至固定长度为216(即65536)的常数序列(记为C’[j],表示新序列中第j个常数值,j是[1,216]之间的整数),设缩放比为:r=L/216,如果则C’[j]=C[i]。所述步骤(3)中将常数序列中常数值C’[j]转换为RGB颜色值r(C’[j]),g(0),b(C’[j]),以此构成紫红色系明暗像素点。所述步骤(4)具体为:按12阶Gray曲线遍历RGB颜色空间的顺序排序所得的RGB序列;接着,再按8阶Gray曲线遍历256*256二维平面的顺序,用重新排序的RGB颜色值序列填充该二维区域,最终实现操作码序列到256*256像素图的转换。所述步骤(5)具体为提取图片的Gist特征,应用KNN分类算法对图片进行分析。有益效果由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术将不同文件大小的恶意样本统一为固定尺寸的方图,大幅度减少了分析大型文件时的运算开销;同时,相同操作码在图中以相同的颜色聚集所形成的区块图案,便于在操作码频率方面研究同族恶意代码的演进;此外,该方法借助纹理分析方法,提取这些方图的Gist特征,并运用K-NearestNeighbor(KNN)分类算法实施分类验证,以降维的方式减少了分析时间成本,提高了判定恶意样本属性的效率。本专利技术在异族分析方面,能从视觉效果上有效地区分各类恶意代码族;在同族分析方面,能通过同一操作码所构成的区块图案直观地发现该操作码在出现频率上的变化,为待定的可疑样本是否归属该族提供了依据;在人工分析方面,本专利技术构建了安全分析人员与恶意样本之间的视觉通信,可以降低人工分析二进制文件的难度;在自动分析方面,本专利技术能以程序自动化的方式实施分类操作,进一步降低了对分析人员业务水平和相关经验的要求。在时效性方面,本专利技术采用空间填充曲线实现图像的规范化处理,能减少图片生成的时间开销,提高特征提取的效率。附图说明图1是现有技术中的基于图像矩阵的分析方法示意图;图2是第5类样本Fnda3PuqJT6Ep5vjOWCk可视化后的示例图;图3是第2类样本7VE6hScuodxAvTp0Nrnk可视化后的示例图;图4是第2类样本8026Dh4VpfjPekaCgAYQ可视化后的示例图;图5是第2类样本DIrEPtygG8SeLJ5mvq2a可视化后的示例图;图6是本专利技术的流程图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及一种基于操作码频率的恶意代码可视化分析方法,如图6所示,包括以下步骤:提取恶意代码的操作码字符序列,将操作码字符序列转换为常数序列;对得到的常数序列进行归一化操作;将归一化后的常数序列转换成RGB值,得到RGB颜色序列;将RGB颜色序列按指定顺序重新排列后填充图片;根据得到的图片进行可视化分析。下面通过具体的实施例来进一步说明本专利技术。为体现本专利技术的普适性,用于验证本专利技术分类正确率的样本是微软恶意代码分类挑战赛(MicrosoftMalwareClassificationChallenge-BIG2015)官方公开的训练集,共计9个大类的10811个样本。实施例1一种基于操作码频率的恶意代码可视化分析方法,具体为:步骤1:提取恶意代码(第5类样本Fnda3PuqJT6Ep5vjOWCk)的操作码字符序列(PUSH-MOV-JMP-PUSH-INC-XOR-POP-INC-XOR-MOVZX),按对应关系D将各个操作码字符转换成常数序列(198-178-153-198-138-253-193-138-253-183……);设各操作码字符与常数之间的转换关系为D:('AAA',0),('AAD',1),('AAM',2),('AAS',3),('ADC',4),('ADD',5),('AND',6),('ARPL',7),('BOUND',8),('BSF',9),('BSR',10),('BSWAP',11),('BT',12),('BTC',13),('BTR',14),('BTS',15),('CALL',16),('CBW',17),('CDQ'本文档来自技高网
...

【技术保护点】
1.一种基于操作码频率的恶意代码可视化分析方法,其特征在于,包括以下步骤:(1)提取恶意代码的操作码字符序列,将操作码字符序列转换为常数序列;(2)对得到的常数序列进行归一化操作;(3)将归一化后的常数序列转换成RGB值,得到RGB颜色序列;(4)将RGB颜色序列按指定顺序重新排列后填充图片;(5)根据得到的图片进行可视化分析。

【技术特征摘要】
1.一种基于操作码频率的恶意代码可视化分析方法,其特征在于,包括以下步骤:(1)提取恶意代码的操作码字符序列,将操作码字符序列转换为常数序列;(2)对得到的常数序列进行归一化操作;(3)将归一化后的常数序列转换成RGB值,得到RGB颜色序列;(4)将RGB颜色序列按指定顺序重新排列后填充图片;(5)根据得到的图片进行可视化分析。2.根据权利要求1所述的基于操作码频率的恶意代码可视化分析方法,其特征在于,所述步骤(1)中将各操作码字符按对应关系转换成[0,253]之间的常数,得到常数序列。3.根据权利要求1所述的基于操作码频率的恶意代码可视化分析方法,其特征在于,所述步骤(2)具体为将常数序列缩放至固定长度为216的常数序列。4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:任卓君任佳杰王鹏辉鲍萍萍陈光卢文科
申请(专利权)人:东华大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1