恶意PDF检测方法、系统、数据存储设备和检测程序技术方案

技术编号:19693222 阅读:49 留言:0更新日期:2018-12-08 11:32
本发明专利技术公开了一种恶意PDF检测方法、系统、数据存储设备和检测程序,属于信息安全技术领域;恶意PDF检测方法为:将待检PDF文件转换成字节序列,计算每个PDF件的信息熵;根据统计的恶意PDF文件和良性PDF文件的信息熵值的最大值、最小值和平均值以及经验值设置阈值α,将每个PDF文件的信息熵与阈值α比较,把信息熵高于α的PDF文件作为正常文件,把信息熵低于α的PDF文件作为可疑文件;利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;利用C5.0决策树算法进行分类。本发明专利技术能够解决检测范围小,模型检测时间消耗较高等问题。

【技术实现步骤摘要】
恶意PDF检测方法、系统、数据存储设备和检测程序
本专利技术应用于信息安全中的恶意PDF文件的检测领域。特别是涉及一种恶意PDF检测方法、系统、数据存储设备和检测程序。
技术介绍
便携式文件格式(PDF)是一种电子文档格式,由Adobe系统公司于1993年发布。由于PDF受欢迎程度高、结构灵活、功能多样,越来越多的网络犯罪分子通过PDF文件进行信息窃取、恶意敲诈等网络犯罪行为。并且近年来,对商业组织和政府机构的高级持续性威胁(APT)攻击时有发生,而恶意PDF文件是APT攻击的重要载体,通过执行嵌入在文件内部的恶意代码完成攻击过程。尽管软件供应商努力进行预防、解决,但PDF软件仍经常容易遭受零日攻击,特别是这种攻击利用PDF文件格式与第三方技术(如JavaScript或Flash),从而造成创建临时补丁变得越来越困难。另外,由于PDF文件的体系结构复杂,攻击者使用各种代码混淆技术,使防病毒软件很难提供针对新型恶意PDF文件检测。通过对恶意PDF文件的分析,针对现有的PDF漏洞,主要攻击方式是基于JavaScript的攻击和基于非JavaScript的攻击。基于JavaScript的攻击方式利用PDF阅读器的漏洞,将执行流程转移到嵌入的恶意JavaScript代码上。基于非JavaScript攻击主要利用许多PDF功能:如“/Launch”、“/GoTo”和“/URl”等,自动打开远程资源,增加互联网对客户端的威胁。目前大部分杀毒软件采用基于启发式或字符串匹配的方法进行查杀病毒,但这些方式无法有效地处理多态攻击的问题。为了解决该问题,最近的研究主要集中在两个方面:(1)利用PDF文件中嵌入的JavaScript,经过静态、动态分析提取其JavaScript特征,再经过机器学习进行分类。这类方法可应对基于恶意JavaScript的攻击,但易受到代码混淆的影响。(2)利用PDF文件的结构信息来检测恶意PDF文件,其特点是不分析其携带的攻击代码或漏洞,并且这种方法相对于JavaScript分析的优点在于它们能够检测到非JavaScript攻击,并且不会受代码混淆的影响。但是如何增强模型的健壮性是基于结构信息的恶意文件检测方法所面临的大挑战。基于以上方法进行恶意PDF文件检测,通常只能检测到基于单一方式的恶意攻击,并且模型时间消耗较高。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种恶意PDF检测方法、系统、数据存储设备和检测程序。为了达到上述目的,本专利技术的技术方案为:一种恶意PDF检测方法,至少包括如下步骤:步骤一、将待检PDF文件转换成字节序列,计算每个PDF件的信息熵;步骤二、根据统计的恶意PDF文件和良性PDF文件的信息熵值的最大值、最小值和平均值以及经验值设置阈值α,将每个PDF文件的信息熵与阈值α比较,把信息熵高于α的PDF文件作为正常文件,把信息熵低于α的PDF文件作为可疑文件;步骤三、利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;步骤四、利用C5.0决策树算法进行分类。进一步:上述步骤一具体为:首先用PDFParser将待检PDF文件转换成二进制字节文件,然后计算每个PDF文件的信息熵。进一步:上述步骤三具体为:首先利用Origami分析可疑文件的结构并搜索恶意特征和结构的一般特征,然后再分析可疑文件的JavaScript代码并搜索恶意特征。进一步:上述步骤四具体为:首先把每个PDF文件用一个向量表示,该向量由结构的一般特征、结构的动态特征和JavaScript特征组成;然后将向量、类别输入到C5.0决策树进行分类。本专利技术的另一目的为:提供一种恶意PDF检测系统,包括:信息熵计算模块,将待检PDF文件转换成字节序列,计算每个PDF件的信息熵;甄别模块、根据统计的恶意PDF文件和良性PDF文件的信息熵值的最大值、最小值和平均值以及经验值设置阈值α,将每个PDF文件的信息熵与阈值α比较,把信息熵高于α的PDF文件作为正常文件,把信息熵低于α的PDF文件作为可疑文件;分析模块、利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;分类模块、利用C5.0决策树算法进行分类。本专利技术的另一目的为:提供一种数据存储设备,包括指令,当其在计算机上运行时,使得计算机执行上述恶意PDF检测方法。本专利技术的另一目的为:提供一种实现上述恶意PDF检测方法的检测程序。本专利技术具有的优点和积极效果为:本专利技术将PDF文件的信息熵、javascript特征和结构特征相结合利用C5.0决策树算法进行分类,该方法具有较高的检测精度,并且大大减少了检测时间,增强了实用性。附图说明图1为本专利技术优选实施例的流程图;具体实施方式为能进一步了解本专利技术的
技术实现思路
、特点及功效,兹例举以下实施例,并配合附图详细说明如下:如图1所示,一种恶意PDF检测方法:包括下列步骤:步骤一、将数据集中的PDF文件转换成字节序列,计算每个PDF文件的信息熵;具体步骤如下:(1)首先用PDFParser将数据集中的PDF文件转换成二进制。(2)然后利用公式1计算文件的信息熵。其中,x代表文件;N代表文件转换成字节序列后不同字节的总数;i代表文件中第i个字节序列中的字节;pi表示字节i出现的概率。步骤二、将每个文件的信息熵与阈值α比较,把信息熵高于α的文件作为正常文件,把信息熵低于α的文件作为可疑文件;具体步骤如下:(1)根据多次试验模拟,设置信息熵阈值α为7.74。(2)把步骤一得到的信息熵H(x)和阈值α代入公式2,从而得到他们的差值。若差值大于0,则将该PDF文件作为可疑文件进行步骤三,否则作为正常文件输出。ΔH=α-H(x)(2)ΔH:阈值α与待测PDF文件的信息熵H(x)的差值。步骤三、利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;具体步骤如下:(1)首先利用Origami分析PDF文件的结构并搜索恶意特征和结构的一般特征。其中恶意特征包括’/JS','/JavaScript',‘/GoTo’,’GoToR’,’GoToE’,’openaction’,'/SubmitForm’);结构的一般特征包括文件的大小、间接对象的数量。(2)然后分析PDF文件的JavaScript代码并搜索恶意特征。恶意特征包括substring,fromCharCode,stringcount,document.Write,document.createElement,Eval,setTimeOut,eval_length,max_string。步骤四、选取C5.0决策树算法进行分类;具体步骤如下:(1)S是特征样本集合,包括结构特征集合S1和JavaScript特征集合S2。以结构特征为例,元数据类型变量C有K类,属于Ci类的样本数为freq(Ci,S1),利用公式3计算结构特征集合S1的信息熵Info(S1):其中,|S1|是结构特征集合S1中的元素个数。(2)特征属性T,有N类,利用公式4计算属性T的条件熵Info(T):其中,Ti是第i类特征属性。(3)利用公式5计算属性变量T的信息增益Gain(T):Gain(T)=Info(S1)-Info(T)(5)本文档来自技高网
...

【技术保护点】
1.一种恶意PDF检测方法,其特征在于:至少包括如下步骤:步骤一、将待检PDF文件转换成字节序列,计算每个PDF件的信息熵;步骤二、根据统计的恶意PDF文件和良性PDF文件的信息熵值的最大值、最小值和平均值以及经验值设置阈值α,将每个PDF文件的信息熵与阈值α比较,把信息熵高于α的PDF文件作为正常文件,把信息熵低于α的PDF文件作为可疑文件;步骤三、利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;步骤四、利用C5.0决策树算法进行分类。

【技术特征摘要】
1.一种恶意PDF检测方法,其特征在于:至少包括如下步骤:步骤一、将待检PDF文件转换成字节序列,计算每个PDF件的信息熵;步骤二、根据统计的恶意PDF文件和良性PDF文件的信息熵值的最大值、最小值和平均值以及经验值设置阈值α,将每个PDF文件的信息熵与阈值α比较,把信息熵高于α的PDF文件作为正常文件,把信息熵低于α的PDF文件作为可疑文件;步骤三、利用Origami分析提取可疑文件中常用于恶意攻击的JavaScript和结构特征;步骤四、利用C5.0决策树算法进行分类。2.根据权利要求1所述的恶意PDF检测方法,其特征在于:上述步骤一具体为:首先用PDFParser将待检PDF文件转换成二进制字节文件,然后计算每个PDF文件的信息熵。3.根据权利要求1所述的恶意PDF检测方法,其特征在于:上述步骤三具体为:首先利用Origami分析可疑文件的结构并搜索恶意特征和结构的一般特征,然后再分析可疑文件的JavaScript代码并搜索恶意特征。4.根据权利要求1所...

【专利技术属性】
技术研发人员:李国黄永健王静徐俊洁王鹏
申请(专利权)人:中国民航大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1