The embodiment of the present invention provides a malicious Word document detection method and device, which includes: extracting suspicious codes and loads from the Word document to be detected; scanning and pattern matching suspicious codes and loads in the detected Word document according to the malicious document code feature library to obtain the feature vectors of the detected Word document; and characterizing the detected Word document. The feature vectors are input into the malicious document classification model to obtain the classification results of the malicious document classification model output. According to the classification results and the feature vectors of the Word document to be detected, the detection report of the Word document to be detected is generated. The embodiment of the invention can extract malicious code and malicious load embedded in Word document pertinently, save detection time, and is not limited to Word version, and has good adaptability to code obfuscation attacks and unknown types of attacks.
【技术实现步骤摘要】
恶意Word文档检测方法和装置
本专利技术实施例涉及网络安全
,更具体地,涉及一种恶意Word文档检测方法和装置。
技术介绍
OfficeWord办公软件一直被人们广泛使用,大多数使用者都认为Word文档是安全的,通常不采取任何预防措施。然而,近几年来,Word文档攻击已经成为了不法分子利用最频繁的攻击方式之一,攻击者通常向受害者发送带有恶意Word的附件,并借用社会工程手段诱导其点击附件,用户一旦打开附件,恶意文档中嵌入的恶意代码便会开始自动执行,给政府、企业和个人造成了无法估量的损失。目前针对Word文档攻击形式主要有以下几种:基于恶意宏攻击、基于恶意负载攻击以及漏洞利用。现有的Word文档检测方法也基于围绕这几种攻击形式进行检测,例如,检测嵌入Word文档的宏代码或Shell代码;或者,通过提取恶意负载来区分恶意文档并确定利用的漏洞类型,仅能对后缀名为.doc的Word文档进行检测;或者,通过扫描分析整个文档的结构,并利用主动学习框架进行判定,仅能分析后缀名为.docx的Word文档。上述各种现有的Word文档检测方法存在以下不足:检测的文档类型单一,检测不全面,检测耗时较长,没有对攻击行为进行分析,无法检测出新型攻击,且漏报率和误报率较高。
技术实现思路
本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的恶意Word文档检测方法和装置。第一方面,本专利技术实施例提供一种恶意Word文档检测方法,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式 ...
【技术保护点】
1.一种恶意Word文档检测方法,其特征在于,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。
【技术特征摘要】
1.一种恶意Word文档检测方法,其特征在于,包括:提取待检测的Word文档中的可疑代码及负载;根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配,获取所述待检测的Word文档的特征向量;将所述待检测的Word文档的特征向量输入至恶意文档分类模型中,获取所述恶意文档分类模型输出的分类结果;根据所述分类结果和所述待检测的Word文档的特征向量,生成所述待检测的Word文档的检测报告;其中,所述恶意文档分类模型是基于Word文档样本的特征向量和对应的分类标签进行训练获得的。2.根据权利要求1所述的方法,其特征在于,所述提取待检测的Word文档中的可疑代码及负载的步骤,具体为:利用文件头判断待检测的Word文档的类型,并利用与类型相对应的解析方法对所述待检测的Word文档进行解析;根据解析结果提取所述待检测Word文档中的可疑代码及负载。3.根据权利要求1所述的方法,其特征在于,所述根据预先构建的恶意文档代码特征库对所述待检测的Word文档中的可疑代码及负载进行扫描和模式匹配的步骤之前,还包括:构建所述恶意文档代码特征库;其中,所述恶意文档代码特征库包括四个层次组成的多个特征,所述四个层次具体为:可疑关键字、编码方式、混淆方式和IOC。4.根据权利要求1所述的方法,其特征在于,训练所述恶意文档分类模型的步骤,具体为:获取大量恶意Word文档和正常Word文档,并为获取的每个Word文档打标签,构建Word文档样本库;提取所述Word文档样本库中每个Word文档样本的可疑代码及负载,并根据所述恶意文档代码特征库对所述每个Word文档样本的可疑代码及负载进行扫描和模式匹配,获取所述每个Word文档样本的特征向量;将所述每个Word文档样本的特征向量及对应的标签输入机器学习模型中进行训练,保存训练结束时所述机器学习模型的参数,获得恶意文档分类模型。5.根据权利要求2所述的方法,其特征在于,所述利用与类型相对应的解析方法对所述待检测的Word文档进行解析的步骤,具体为:若判断获知所述待检测的Word文档为2003版本,则按照复合文档对所述待检测的Word文档进行解析,获得所有目录directory;或者,若判断获知所述待检测...
【专利技术属性】
技术研发人员:喻民,刘超,夏彬,姜建国,李敏,黄伟庆,刘明奇,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。