【技术实现步骤摘要】
一种恶意文档的静态特征提取方法及装置
[0001]本申请涉及安全检测
,具体而言,涉及一种恶意文档的静态特征提取方法及装置
。
技术介绍
[0002]Microsoft Office
是目前为止人们处理文字文档
、
表格
、
幻灯片等最常用的套件,
Word、Excel、PowerPoint
等经常作为日常工作软件默认配置在企业和个人计算机中
。
自
1990
年部署以来,
Office
历经两种复合技术
——OLE(Object Linking and Embedding)
和
OOXML(Office Open XML)
,涉及多种文档格式
(DOC/XLS/PPT
以及
DOCX/XLSX/PPTX)
,涵盖功能更加丰富,在办公学习场合通过邮件
、
网站
、
社交媒体软件等工具被频繁传播使用
。
因此,
Office
也成为了最常被黑客利用
、
数量最多的恶意文档,恶意宏病毒
、DDE
攻击
、
文档漏洞利用
、
嵌入恶意对象
、
嵌入恶意图片和链接等基于
Office
的攻击手段层出不穷
。
[0003]目前,包含
Office
文档在内的恶
【技术保护点】
【技术特征摘要】
1.
一种恶意文档的静态特征提取方法,其特征在于,包括:获取文档的原始静态数据;所述原始静态数据的类别包括宏语言代码
、
动态数据交换指令
、
对象组件
、
嵌入文件
、
外部链接
、
类标识符
、
重复程序对象和闪存插件中的至少一种;所述文档包括恶意或良性的标签;对每一类别的所述原始静态数据,进行恶意特征提取,获取恶意特征的特征名以及特征名对应的频次信息;对每一所述恶意特征,根据所述恶意特征的特征名
、
特征名对应的频次信息和对应文档的标签,利用信息增益算法,计算所述恶意特征的信息增益值;将所述信息增益值大于阈值的恶意特征,作为恶意文档的静态特征
。2.
如权利要求1所述的方法,其特征在于,所述获取文档的原始静态数据,包括:根据所述文档的格式,确定所述原始静态数据的存储路径;所述文档的格式包括
DOC、XLS、PPT、DOCX、XLSX
或
PPTX
;根据所述存储路径,获取所述原始静态数据
。3.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括宏语言代码;所述对每一类别的所述原始静态数据,进行恶意特征提取,包括:对所述宏语言代码中每一用于文档打开后自动执行的数据,提取关键字作为所述恶意特征的特征名;和
/
或,对所述宏语言代码中每一用于转移进程控制权给另一进程的数据,提取关键字作为所述恶意特征的特征名
。4.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括动态数据交换指令;所述对每一类别的所述原始静态数据,进行恶意特征提取,包括:对所述动态数据交换指令中与动态数据交换指令关键词黑名单相关的数据,提取关键字作为恶意特征的特征名;其中,所述动态数据交换指令关键词黑名单中的动态数据交换指令关键词包括以下关键词中的至少一个:指示打开命令脚本环境的关键词;指示具有命令提示符的关键词;指示具有可执行文件的关键词;指示具有隐藏内容的关键词;指示具有新的系统
/
网络
/
客户端的关键词;指示远程下载线程的关键词;指示不加载命令脚本环境配置文件,使用特定模式创建图形用户界面,并避免显示一个交互对话窗口的关键词;指示具有函数的关键词;指示远程下载文件的关键词;指示具有超文本标记语言应用的关键词;指示执行完命令后关闭命令窗口的关键词
。5.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括嵌入文件;所述对每一类别的...
【专利技术属性】
技术研发人员:胡洋,陈佳,徐晓,
申请(专利权)人:北京天融信网络安全技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。