恶意Word文档检测方法和装置制造方法及图纸

技术编号:21300059 阅读:26 留言:0更新日期:2019-06-12 08:02
本发明专利技术实施例提供一种恶意Word文档检测方法和装置,所述方法包括:提取待检测的Word文档中的可疑代码及负载;根据恶意文档代码特征库对待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告。本发明专利技术实施例有针对性地提取Word文档中嵌入的恶意代码和恶意负载,可节省检测时间,且不受限于Word版本,对代码混淆攻击和未知类型的攻击也有很好的适应能力。

Malicious Word Document Detection Method and Device

The embodiment of the present invention provides a malicious Word document detection method and device, which includes: extracting suspicious codes and loads from the Word document to be detected; scanning and pattern matching suspicious codes and loads in the detected Word document according to the malicious document code feature library to obtain the feature vectors of the detected Word document; and characterizing the detected Word document. The feature vectors are input into the malicious document classification model to obtain the classification results of the malicious document classification model output. According to the classification results and the feature vectors of the Word document to be detected, the detection report of the Word document to be detected is generated. The embodiment of the invention can extract malicious code and malicious load embedded in Word document pertinently, save detection time, and is not limited to Word version, and has good adaptability to code obfuscation attacks and unknown types of attacks.

【技术实现步骤摘要】
恶意Word文档检测方法和装置
本专利技术实施例涉及网络安全
,更具体地,涉及一种恶意Word文档检测方法和装置。
技术介绍
OfficeWord办公软件一直被人们广泛使用,大多数使用者都认为Word文档是安全的,通常不采取任何预防措施。然而,近几年来,Word文档攻击已经成为了不法分子利用最频繁的攻击方式之一,攻击者通常向受害者发送带有恶意Word的附件,并借用社会工程手段诱导其点击附件,用户一旦打开附件,恶意文档中嵌入的恶意代码便会开始自动执行,给政府、企业和个人造成了无法估量的损失。目前针对Word文档攻击形式主要有以下几种:基于恶意宏攻击、基于恶意负载攻击以及漏洞利用。现有的Word文档检测方法也基于围绕这几种攻击形式进行检测,例如,检测嵌入Word文档的宏代码或Shell代码;或者,通过提取恶意负载来区分恶意文档并确定利用的漏洞类型,仅能对后缀名为.doc的Word文档进行检测;或者,通过扫描分析整个文档的结构,并利用主动学习框架进行判定,仅能分析后缀名为.docx的Word文档。上述各种现有的Word文档检测方法存在以下不足:检测的文档类型单一,检测不全面,检测耗时较长,没有对攻击行为进行分析,无法检测出新型攻击,且漏报率和误报率较高。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的恶意Word文档检测方法和装置。第一方面,本专利技术实施例提供一种恶意Word文档检测方法,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。第二方面,本专利技术实施例提供一种恶意Word文档检测装置,包括:代码提取模块,用于提取待检测的Word文档中的可疑代码及负载;特征获取模块,用于根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;分类模块,用于将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;输出模块,用于根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的恶意Word文档检测方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的恶意Word文档检测方法的步骤。本专利技术实施例提供的恶意Word文档检测方法和装置,不受限于Word版本,能够结合文档结构特性,有针对性地提取Word文档中嵌入的恶意代码和恶意负载,快速定位到可疑位置,可节省检测时间,对代码混淆攻击和未知类型的攻击有很好的适应能力,并尝试描述攻击者攻击行为,能够在保证高准确率的同时降低误报率和漏报率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的恶意Word文档检测方法的流程示意图;图2为本专利技术实施例提供的恶意Word文档检测装置的结构示意图;图3为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的恶意Word文档检测方法的流程示意图,如图所示,包括:步骤100、提取待检测的Word文档中的可疑代码及负载;恶意文档最终的目的都是执行攻击者精心准备好的恶意代码,因此,在本专利技术实施例中,首先提取待检测的Word文档中嵌入的可疑代码及负载,以快速定位到可疑位置。Word文档中嵌入的可疑代码包括宏代码、XML代码及其他有效代码等任何可能被嵌入恶意代码的位置,Word文档中嵌入的负载包括OLE文件。本专利技术实施例提取待检测的Word文档中的可疑代码及负载,可以实现对该Word文档的全面检测。值得说明的是,不管待检测的Word文档的类型是什么,都需提取待检测的Word文档中的可疑代码及负载,因此,本专利技术实施例提供的方法并不受限于Word文档的类型。步骤101、根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;具体地,根据预先构建的恶意文档代码特征库,对所提取出的待检测的Word文档中的可疑代码及负载进行分析,从而能够较全面地检测各种攻击类型的恶意文档并能较好地应对新型攻击。在本专利技术实施例中,恶意文档代码特征库是通过收集恶意代码的攻击行为特征来建立的。通过对所提取出的待检测的Word文档中的可疑代码及负载进行扫描分析,并与恶意文档代码特征库进行模式匹配,将匹配的结果进行向量化表达,即可获得所述待检测的Word文档的特征向量。步骤102、将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。具体地,恶意文档分类模型是预先训练好的用于根据待检测的Word文档的特征向量对待检测的Word文档进行分类的模型,分类结果为该待检测的Word文档为恶意Word文档或正常Word文档。利用大量恶意Word文档和正常Word文档作为样本,并提取Word文档样本的可疑代码及负载,根据恶意文档代码特征库对Word文档样本的可疑代码及负载进行扫描和模式匹配,获取Word文档样本的特征向量,将所提取出的Word文档样本的特征向量输入机器学习网络模型中,训练获得恶意文档分类模型。步骤103、根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;具体地,所述恶意文档分类模型输出的分类结果为所述待检测的Word文档为恶意文档或正常文档。若分类结果为恶意文档,则结合该待检测的Word文档的特征向量,可以找到所述待检测的Word文档对应的恶意特征,将对应的恶意特征进行形式化语言的描述,从而描述出具体的攻击行为,生成所述待检测的Word文本文档来自技高网...

【技术保护点】
1.一种恶意Word文档检测方法,其特征在于,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。

【技术特征摘要】
1.一种恶意Word文档检测方法,其特征在于,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。2.根据权利要求1所述的方法,其特征在于,所述提取待检测的Word文档中的可疑代码及负载的步骤,具体为:利用文件头判断待检测的Word文档的类型,并利用与类型相对应的解析方法对所述待检测的Word文档进行解析;根据解析结果提取所述待检测Word文档中的可疑代码及负载。3.根据权利要求1所述的方法,其特征在于,所述根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配的步骤之前,还包括:构建所述恶意文档代码特征库;其中,所述恶意文档代码特征库包括四个层次组成的多个特征,所述四个层次具体为:可疑关键字、编码方式、混淆方式和IOC。4.根据权利要求1所述的方法,其特征在于,训练所述恶意文档分类模型的步骤,具体为:获取大量恶意Word文档和正常Word文档,并为获取的每个Word文档打标签,构建Word文档样本库;提取所述Word文档样本库中每个Word文档样本的可疑代码及负载,并根据所述恶意文档代码特征库对所述每个Word文档样本的可疑代码及负载进行扫描和模式匹配,获取所述每个Word文档样本的特征向量;将所述每个Word文档样本的特征向量及对应的标签输入机器学习模型中进行训练,保存训练结束时所述机器学习模型的参数,获得恶意文档分类模型。5.根据权利要求2所述的方法,其特征在于,所述利用与类型相对应的解析方法对所述待检测的Word文档进行解析的步骤,具体为:若判断获知所述待检测的Word文档为2003版本,则按照复合文档对所述待检测的Word文档进行解析,获得所有目录directory;或者,若判断获知所述待检测...

【专利技术属性】
技术研发人员:喻民刘超夏彬姜建国李敏黄伟庆刘明奇
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1