一种识别文档代码的方法和装置制造方法及图纸

技术编号:15691351 阅读:439 留言:0更新日期:2017-06-24 04:29
本申请提出一种识别文档代码的方法和装置,涉及文档恶意代码分析领域,所述方法包括:对目标文档满足预设格式字节位置进行定位;对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;对所述执行结果进行特征提取,获得特征提取结果;根据所述特征提取结果,识别所述目标文档是否包含恶意代码。可以结合文件结构分析及恶意特征打分机制,快速定位代码,并且效果良好。

Method and device for identifying document code

The invention provides a method and a device for identifying code document, the document related malicious code analysis, the method includes: to meet the preset target document format byte position location; the format meets the preset byte start point to the end position of simulated CPU CPU instruction execution, execution of the obtained results; to perform feature extraction results are obtained according to the results of feature extraction; feature extraction results, whether the identification of the target document contains malicious code. You can combine file structure analysis and malicious feature scoring mechanism to quickly locate the code and achieve good results.

【技术实现步骤摘要】
一种识别文档代码的方法和装置
本专利技术涉及文档恶意代码分析领域,具体涉及一种识别文档代码的方法和装置。
技术介绍
基于文档型漏洞的恶意代码是入侵者通过各种方式将具有漏洞的文档先植入到用户计算机中,再引导用户进行打开操作,这样通过已设置好的漏洞利用代码shellcode进行恶意代码的释放或者下载。而这些恶意代码往往经过了入侵者的层层反信息安全产品操作:加壳、反虚拟机、免杀、驱动保护、条件执行等等各种保护。最重要的问题在于入侵者往往针对要入侵的用户或网络十分了解,目的性是窃取特定用户的信息,且进行长期潜伏,所以入侵者还会针对用户的固定信息安全产品进行单独的研究与免杀、绕过技术等处置,所以针对文档型漏洞的恶意代码查杀检测率几乎为零。目前,信息安全厂商针对文档型漏洞的自动化恶意文档识别方案,主要采用虚拟机沙盒分析的方法,其中,沙盒主要是指一个模拟的或者真实的操作系统环境,或者文件执行环境,这种方法首先要保证沙盒中存在文档能够正确执行的相关应用程序,相关技术对某些检测沙箱环境的恶意文档无法分析。一般主要用于概念性验证。
技术实现思路
本专利技术提供一种识别文档代码的方法和装置,解决了恶意文件的自动化分析的问题。为了实现上述专利技术目的,本专利技术采取的技术方案如下:一种识别文档代码的方法,包括:对目标文档满足预设格式字节位置进行定位;对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;对所述执行结果进行特征提取,获得特征提取结果;根据所述特征提取结果,识别所述目标文档是否包含恶意代码。可选地,所述对目标文档的满足预设格式字节位置进行定位,包括:对所述目标文档进行格式化解析,识别出所述目标文档的格式;根据识别出的所述目标文档的格式,在所述目标文档对应的位置进行恶意代码定位。可选地,对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行包括:从所述满足预设格式字节的起始位置开始,每次调整偏移量,逐次进行模拟CPU指令执行,获得执行结果,直到所述满足预设格式字节的结束位置。可选地,对所述执行结果进行特征提取,获得特征提取结果包括:逐一比较从所述执行结果提取出的特征是否符合预设的恶意代码特征,如果符合,则记录所述特征。可选地,根据所述特征提取结果给出分析结论包括:对特征提取获得的每个特征提取结果按照预设标准进行评分,根据特征提取获得的所有特征提取结果的评分结果与预设阈值进行比较,获得所述目标文档的满足预设格式字节是否为恶意代码的分析结论。本专利技术实施例还提供一种识别文档恶意代码的装置,包括:定位模块,设置为对目标文档的满足预设格式字节位置进行定位;指令模块,设置为对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;特征提取模块,设置为对所述执行结果进行特征提取,获得特征提取结果;分析模块,设置为根据所述特征提取结果,识别所述目标文档是否包含恶意代码。可选地,所述定位模块包括:格式识别模块,设置为对所述目标文档进行格式化解析,识别出所述目标文档的格式;根据所述格式识别模块识别出的所述目标文档的格式,在所述目标文档对应的位置进行恶意代码定位。可选地,所述指令模块对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行是指:从所述满足预设格式字节的起始位置开始,每次调整偏移量,逐次进行模拟CPU指令执行,获得执行结果,直到所述满足预设格式字节的结束位置。可选地,所述特征提取模块对所述执行结果进行特征提取,获得特征提取结果是指:逐一比较从所述执行结果提取出的特征是否符合预设的恶意代码特征,如果符合,则记录所述特征。可选地,所述分析模块根据所述特征提取结果给出分析结论是指:对特征提取获得的每个特征提取结果按照预设标准进行评分,根据特征提取获得的所有特征提取结果的评分结果与预设阈值进行比较,获得所述目标文档的满足预设格式字节是否为恶意代码的分析结论。本专利技术实施例还提供一种识别文档恶意代码的装置,包括存储器和处理器,所述存储器用于存储用于识别文档恶意代码的程序;所述用于识别文档恶意代码的程序在被所述处理器读取执行时,执行如下操作:对所述目标文档的满足预设格式字节位置进行定位;对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;对所述执行结果进行特征提取,获得特征提取结果;根据所述特征提取结果,识别所述目标文档是否包含恶意代码。本专利技术和现有技术相比,具有如下有益效果:本专利技术能够解决相关技术的恶意文档识别方法受限于环境的问题,可以分析任意x86平台的恶意文档,不受限于针对沙箱环境的检测。可以结合文件结构分析及恶意特征打分机制,快速定位代码,并且效果良好。附图说明图1为本专利技术实施例的识别文档代码的方法的流程图;图2为本专利技术实施例的识别文档代码的装置的结构示意图;图3为本专利技术实施例1的识别文档代码的任务的流程图。具体实施方式为使本专利技术的专利技术目的、技术方案和有益效果更加清楚明了,下面结合附图对本专利技术的实施例进行说明,需要说明的是,在不冲突的情况下,本申请中的实施例和实施例中的特征可以相互任意组合。如图1所示,本专利技术实施例提供一种识别文档代码的方法,包括:S101、对所述目标文档满足预设格式字节位置进行定位;S102、对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;S103、对所述执行结果进行特征提取,获得特征提取结果。S104、根据所述特征提取结果,识别所述目标文档是否包含恶意代码。本专利技术实施例的方法通过快速扫描文档中的字节,进行文件结构分析,定位可能产生恶意代码的位置,然后利用CPU指令执行的方式,把相关字节当成可执行指令执行。其中,本专利技术实施例中满足预设格式字节为包含漏洞的字节或者可能包含恶意代码的字节,如果能够执行,并且符合预定恶意特征,结束这一识别过程,否则跳过当前分析字节,继续分析。本专利技术实施例中进行中央处理器CPU指令执行分析指的是虚拟CPU执行指令。本专利技术实施例的方法与相关技术中沙盒识别技术相比,能够在x86平台上通过模拟CPU指令,然后提取指令执行结果,成本更小,而且在不需要额外设备,效率高,不易被恶意代码发现从而绕过。本专利技术实施例中,在所述方法之前可以包括:S100、对目标文档进行格式化解析,识别出所述目标文档的格式。其中,步骤S100对目标文档进行格式化解析,识别出所述目标文档的格式包括:利用预设模板识别所述目标文档的格式。本专利技术实施例中针对目标文档的格式识别,如果所述目标文档的格式无法识别,将所述目标文档标记为陌生文档。由于目前各类文档有自己的文件格式定义,如微软office系列、ADOBEPDF文件、ADOBEFLASH文件等,这些文件的格式是固定的,恶意代码一般保存在某个节或者某个字段中。本专利技术实施例利用预设的模块对已知文件格式进行分析,当识别出目标文档的格式时,可以在对应的固定的位置进行恶意代码定位,好处在于能够提高分析效率。而对于那些未知的文件格式(标记为陌生文档的目标文件),需要从头到尾进行扫描分析。S101对所述目标文档的满足预设格式字节位置进行定位包括:根据预设模板识别出的所述目标文档的格式,在所述目标文档对应的位置进行恶本文档来自技高网...
一种识别文档代码的方法和装置

【技术保护点】
一种识别文档代码的方法,其特征在于,包括:对目标文档满足预设格式字节位置进行定位;对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;对所述执行结果进行特征提取,获得特征提取结果;根据所述特征提取结果,识别所述目标文档是否包含恶意代码。

【技术特征摘要】
1.一种识别文档代码的方法,其特征在于,包括:对目标文档满足预设格式字节位置进行定位;对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;对所述执行结果进行特征提取,获得特征提取结果;根据所述特征提取结果,识别所述目标文档是否包含恶意代码。2.如权利要求1所述的方法,其特征在于,所述对目标文档的满足预设格式字节位置进行定位,包括:对所述目标文档进行格式化解析,识别出所述目标文档的格式;根据识别出的所述目标文档的格式,在所述目标文档对应的位置进行恶意代码定位。3.如权利要求1所述的方法,其特征在于:对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行包括:从所述满足预设格式字节的起始位置开始,每次调整偏移量,逐次进行模拟CPU指令执行,获得执行结果,直到所述满足预设格式字节的结束位置。4.如权利要求1所述的方法,其特征在于:对所述执行结果进行特征提取,获得特征提取结果包括:逐一比较从所述执行结果提取出的特征是否符合预设的恶意代码特征,如果符合,则记录所述特征。5.如权利要求1所述的方法,其特征在于:根据所述特征提取结果给出分析结论包括:对特征提取获得的每个特征提取结果按照预设标准进行评分,根据特征提取获得的所有特征提取结果的评分结果与预设阈值进行比较,获得所述目标文档的满足预设格式字节是否为恶意代码的分析结论。6.一种识别文档代码的装置,其特征在于,包括:定位模块,设置为对目标文档的满足预设格式字节位置进行定位;指令模块,设置为对所述满足预设格式字节的起始位置至结束位置进行模拟中央处理器CPU指令执行,获得执行结果;特征提取模块,设置为对所述执行结果进行特征提取,获得特...

【专利技术属性】
技术研发人员:王龙
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1