一种恶意文档的静态特征提取方法及装置制造方法及图纸

技术编号:39870932 阅读:6 留言:0更新日期:2023-12-30 12:58
本申请提供一种恶意文档的静态特征提取方法及装置,获取的文档的原始静态数据的类别包括宏语言代码

【技术实现步骤摘要】
一种恶意文档的静态特征提取方法及装置


[0001]本申请涉及安全检测
,具体而言,涉及一种恶意文档的静态特征提取方法及装置


技术介绍

[0002]Microsoft Office
是目前为止人们处理文字文档

表格

幻灯片等最常用的套件,
Word、Excel、PowerPoint
等经常作为日常工作软件默认配置在企业和个人计算机中


1990
年部署以来,
Office
历经两种复合技术
——OLE(Object Linking and Embedding)

OOXML(Office Open XML)
,涉及多种文档格式
(DOC/XLS/PPT
以及
DOCX/XLSX/PPTX)
,涵盖功能更加丰富,在办公学习场合通过邮件

网站

社交媒体软件等工具被频繁传播使用

因此,
Office
也成为了最常被黑客利用

数量最多的恶意文档,恶意宏病毒
、DDE
攻击

文档漏洞利用

嵌入恶意对象

嵌入恶意图片和链接等基于
Office
的攻击手段层出不穷

[0003]目前,包含
Office
文档在内的恶意文档检测方法大体可以分为不执行文档的静态特征检测方法

在虚拟环境中执行文档的动态检测方法以及动静态结合的检测方法

其中静态检测相比动态检测可以在不实际执行样本的条件下,结合机器学习方法静态提取文档特征进行检测,实现速度更快

安全性更高的恶意检测,也更适合低成本大批量样本检测场景

但静态检测的难点也同样在于:如何在不执行文档或其中的恶意代码的前提下,全面提取并分析文档静态特征来锁定恶意来源,这也是静态检测研究一直关注的重点

[0004]但是现在的恶意文档攻击往往结合多种攻击手段,现有的静态特征检测方法存在特征提取不够全面深入的问题


技术实现思路

[0005]本申请实施例的目的在于提供一种恶意文档的静态特征提取方法及装置,用以解决现有的静态特征检测方法存在特征提取不够全面深入的问题

[0006]本申请实施例提供的一种恶意文档的静态特征提取方法,包括:
[0007]获取文档的原始静态数据;原始静态数据的类别包括宏语言代码

动态数据交换指令

对象组件

嵌入文件

外部链接

类标识符

重复程序对象和闪存插件中的至少一种;文档包括恶意或良性的标签;
[0008]对每一类别的原始静态数据,进行恶意特征提取,获取恶意特征的特征名以及特征名对应的频次信息;
[0009]对每一恶意特征,根据恶意特征的特征名

特征名对应的频次信息和对应文档的标签,利用信息增益算法,计算恶意特征的信息增益值;
[0010]将信息增益值大于阈值的恶意特征,作为恶意文档的静态特征

[0011]上述技术方案中,获取的文档的原始静态数据的类别包括宏语言代码

动态数据交换指令

对象组件

嵌入文件

外部链接

类标识符

重复程序对象和闪存插件,对每一类别的原始静态数据进行恶意特征提取,然后根据提取的所有恶意特征的信息增益值进行筛
选,从而得到恶意特征的列表

因此,本实施例从文档的多种静态特征中进行恶意特征提取,实现了全面深入的恶意文档静态特征提取,再根据信息增益算法进行特征选择,过滤无关特征和噪声,有效降低了特征冗余度

通过本实施例的特征提取方法得到样本的特征值列表,为后续的恶意文档检测提供了重要基础

[0012]在一些可选的实施方式中,获取文档的原始静态数据,包括:
[0013]根据文档的格式,确定原始静态数据的存储路径;文档的格式包括
DOC、XLS、PPT、DOCX、XLSX

PPTX

[0014]根据存储路径,获取原始静态数据

[0015]上述技术方案中,特征提取方法适用于
Office
文档的多种格式文档,包括
DOC、XLS、PPT、DOCX、XLSX

PPTX
等格式文档,根据文档的格式来确定所需获取的原始静态数据的存储路径,再根据存储路径来获取这些原始静态数据,从而实现了恶意
Office
文档多种格式的统一静态特征提取方法

[0016]在一些可选的实施方式中,原始静态数据包括宏语言代码;
[0017]对每一类别的原始静态数据,进行恶意特征提取,包括:
[0018]对宏语言代码中每一用于文档打开后自动执行的数据,提取关键字作为恶意特征的特征名;
[0019]和
/
或,对宏语言代码中每一用于转移进程控制权给另一进程的数据,提取关键字作为恶意特征的特征名

[0020]上述技术方案中,在对宏语言代码进行恶意特征提取时,根据宏语言代码关键字可以确定相关代码段的主要功能,例如用于文档打开后自动执行的第一关键字,以及用于转移进程控制权给另一进程的第二关键字

因此,本实施例对宏语言代码进行恶意特征提取,包括但不限于:
[0021]若宏语言代码中出现第一关键字,则将第一关键字作为一个恶意特征的特征名,并统计在所有宏语言代码中出现第一关键字的频次信息

[0022]若宏语言代码中出现第二关键字,则将第二关键字作为一个恶意特征的特征名,并统计在所有宏语言代码中出现第二关键字的频次信息

[0023]在一些可选的实施方式中,原始静态数据包括动态数据交换指令;
[0024]对每一类别的原始静态数据,进行恶意特征提取,包括:
[0025]对动态数据交换指令中与动态数据交换指令关键词黑名单相关的数据,提取关键字作为恶意特征的特征名;其中,动态数据交换指令关键词黑名单中的动态数据交换指令关键词包括以下关键词中的至少一个:
[0026]指示打开命令脚本环境的关键词;
[0027]指示具有命令提示符的关键词;
[0028]指示具有可执行文件的关键词;
[0029]指示具有隐藏内容的关键词;
[0030]指示具有新的系统
/
网络...

【技术保护点】

【技术特征摘要】
1.
一种恶意文档的静态特征提取方法,其特征在于,包括:获取文档的原始静态数据;所述原始静态数据的类别包括宏语言代码

动态数据交换指令

对象组件

嵌入文件

外部链接

类标识符

重复程序对象和闪存插件中的至少一种;所述文档包括恶意或良性的标签;对每一类别的所述原始静态数据,进行恶意特征提取,获取恶意特征的特征名以及特征名对应的频次信息;对每一所述恶意特征,根据所述恶意特征的特征名

特征名对应的频次信息和对应文档的标签,利用信息增益算法,计算所述恶意特征的信息增益值;将所述信息增益值大于阈值的恶意特征,作为恶意文档的静态特征
。2.
如权利要求1所述的方法,其特征在于,所述获取文档的原始静态数据,包括:根据所述文档的格式,确定所述原始静态数据的存储路径;所述文档的格式包括
DOC、XLS、PPT、DOCX、XLSX

PPTX
;根据所述存储路径,获取所述原始静态数据
。3.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括宏语言代码;所述对每一类别的所述原始静态数据,进行恶意特征提取,包括:对所述宏语言代码中每一用于文档打开后自动执行的数据,提取关键字作为所述恶意特征的特征名;和
/
或,对所述宏语言代码中每一用于转移进程控制权给另一进程的数据,提取关键字作为所述恶意特征的特征名
。4.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括动态数据交换指令;所述对每一类别的所述原始静态数据,进行恶意特征提取,包括:对所述动态数据交换指令中与动态数据交换指令关键词黑名单相关的数据,提取关键字作为恶意特征的特征名;其中,所述动态数据交换指令关键词黑名单中的动态数据交换指令关键词包括以下关键词中的至少一个:指示打开命令脚本环境的关键词;指示具有命令提示符的关键词;指示具有可执行文件的关键词;指示具有隐藏内容的关键词;指示具有新的系统
/
网络
/
客户端的关键词;指示远程下载线程的关键词;指示不加载命令脚本环境配置文件,使用特定模式创建图形用户界面,并避免显示一个交互对话窗口的关键词;指示具有函数的关键词;指示远程下载文件的关键词;指示具有超文本标记语言应用的关键词;指示执行完命令后关闭命令窗口的关键词
。5.
如权利要求1所述的方法,其特征在于,所述原始静态数据包括嵌入文件;所述对每一类别的...

【专利技术属性】
技术研发人员:胡洋陈佳徐晓
申请(专利权)人:北京天融信网络安全技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1