一种基于特征集聚的恶意PDF文档智能检测方法及系统技术方案

技术编号:31015638 阅读:17 留言:0更新日期:2021-11-30 02:56
本发明专利技术公开了一种基于特征集聚的恶意PDF文档智能检测方法及系统,包括:获取待检测的PDF文档;解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。优点:降低了特征的维度,减轻了深度学习模型的训练压力,提高了系统的高效性;根据输入文档的聚合特征,利用卷积神经网络模型对文档进行检测分类或是自动训练模型的参数,提高了系统的准确性和易用性。提高了系统的准确性和易用性。提高了系统的准确性和易用性。

【技术实现步骤摘要】
一种基于特征集聚的恶意PDF文档智能检测方法及系统


[0001]本专利技术涉及一种基于特征集聚的恶意PDF文档智能检测方法及系统,属于信息安全技


技术介绍

[0002]传统的恶意PDF文档检测方法主要基于签名识别和启发式规则匹配,优点是误报率低,但局限于对病毒库中已有的恶意样本进行检测,面对未知恶意文档反应迟缓,攻击者可以通过伪造新的恶意文档来绕过检测。
[0003]近年来,基于机器学习的恶意PDF文档检测技术被广泛使用。相比于传统签名匹配检测,它能够及时发现新型恶意文档且模型更新方便迅速。根据特征提取方式来分可以分为动态检测和静态检测。动态检测需要在虚拟环境中执行文档来获取动态特征,虽然能够深层次挖掘攻击者的意图,但是需要耗费大量的资源且效率比较低。而静态检测以其特征提取高效、成本低、泛化能力强的特点,被研究人员深入研究。同时为了更好的挖掘特征中的隐藏信息,深度学习的方法也被逐渐应用于该领域。
[0004]现有的恶意PDF文档检测方法技术的缺点包括:特征的泛化能力差,训练样本较少时,分类模型容易产生欠拟合,影响检测系统的性能;未经处理的原始特征易被攻击者进行反向模仿攻击,从而影响检测系统的检测率;特征空间维度较大,导致深度学习模型的训练效率比较低,依赖系统的配置。

技术实现思路

[0005]本专利技术所要解决的技术问题是克服现有技术的缺陷,提供一种基于特征集聚的恶意PDF文档检测方法,提高识别结果的准确性、高效性和易用性。
[0006]为解决上述技术问题,本专利技术提供一种基于特征集聚的恶意PDF文档智能检测方法,包括:
[0007]获取待检测的PDF文档;
[0008]解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
[0009]将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
[0010]进一步的,所述内容特征包括:
[0011]页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
[0012]进一步的,所述结构特征包括:
[0013]含JavaScript标签的结构路径占比、结构树高、结构路径总数。
[0014]进一步的,所述将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特
征,包括:
[0015]以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;
[0016]离差平方和ESS的计算公式如下:
[0017][0018]式中,x
i
表示第i个样本的特征值,n表示特征的总数;
[0019]合并成本C的计算公式如下:
[0020]C=ESS
x∪y

ESS
x

ESS
y
[0021]式中,ESS
x∪y
表示两个簇x和y合并后的离差平方和、ESS
x
、ESS
y
分别表示簇x和簇y的离差平方和。
[0022]进一步的,所述卷积神经网络模型的训练过程包括:
[0023]获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
[0024]对1D

CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D

CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。
[0025]一种基于特征集聚的恶意PDF文档检测系统,包括:
[0026]获取模块,用于获取待检测的PDF文档;
[0027]解析模块,用于解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;
[0028]学习检测模块,用于将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。
[0029]进一步的,所述内容特征包括:
[0030]页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。
[0031]进一步的,所述结构特征包括:
[0032]含JavaScript标签的结构路径占比、结构树高、结构路径总数。
[0033]进一步的,所述解析模块包括:
[0034]特征提取模块,用于从PDF文档中提取文档的内容特征和结构特征;
[0035]特征集聚模块,用于以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,
迭代直到得到所需数目的特征簇,得到文档的聚合特征;
[0036]离差平方和ESS的计算公式如下:
[0037][0038]式中,x
i
表示第i个样本的特征值,n表示特征的总数;
[0039]合并成本C的计算公式如下:
[0040]C=ESS
x∪y

ESS
x

ESS
y
[0041]式中,ESS
x∪y
表示两个簇x和y合并后的离差平方和、ESS
x
、ESS
y
分别表示簇x和簇y的离差平方和。
[0042]进一步的,所述学习检测模块包括训练模块,用于
[0043]获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;
[0044]对1D...

【技术保护点】

【技术特征摘要】
1.一种基于特征集聚的恶意PDF文档智能检测方法,其特征在于,包括:获取待检测的PDF文档;解析PDF文档,从PDF文档中提取文档的内容特征和结构特征,将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征;将聚合特征输入到获取预先训练好的卷积神经网络模型,若输出为1,则判定为恶意文档;若输出0,则判定为良性文档。2.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述内容特征包括:页数、是否被加密、是否含有JavaScript代码的标签、是否含有可自动执行动作的标签、是否使用了JBIG2压缩、执行动作的数量、是否包含嵌入文件、是否包含表单文件、文本颜色数目、编码种类。3.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述结构特征包括:含JavaScript标签的结构路径占比、结构树高、结构路径总数。4.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述将其合并后,以特征簇最小方差为目标进行特征集聚,得到聚合特征,包括:以提取得到的内容特征和结构特征作为聚类对象,使用层次聚类中的Ward方法评估两类特征间的潜在相似度,将每一个特征看作一类簇,以两个簇合并后其离差平方和的增量作为两个簇间合并成本C,合并成本C最小的两个簇生成新的簇,迭代直到得到所需数目的特征簇,得到文档的聚合特征;离差平方和ESS的计算公式如下:式中,x
i
表示第i个样本的特征值,n表示特征的总数;合并成本C的计算公式如下:式中,ESS
x∪y
表示两个簇x和y合并后的离差平方和、ESS
x
、ESS
y
分别表示簇x和簇y的离差平方和。5.根据权利要求1所述的基于特征集聚的恶意PDF文档智能检测方法,其特征在于,所述卷积神经网络模型的训练过程包括:获取已确定的若干恶意PDF文档和若干良性PDF文档,将每个恶意PDF文档和每个良性PDF文档分别进行内容特征和结构特征提取,将内容特征和结构特征合并后,以特征簇最小方差为目标利用Ward最小方差聚类方法进行特征集聚,得到聚合特征训练集,给定良性文档训练标签为0,恶意文档训练标签为1;对1D

CNN模型的网络各层的神经元权值进行初始化,输入聚合特征训练集中的一个训练数据,经过网络各层向前传播得到输出值,与已给定的标签进行比较,计算预测误差,将误差传回1D

CNN模型中,求得各层的误差,对权值进行更新,再重新输入一个训练数据向前传播,多次迭代后得到训练好的神经网络模型。6.一种基于特征集聚的恶意PDF文档检测系统,其特征在于,包括:
获取模块,用于获取待检测的PDF文档;解析模...

【专利技术属性】
技术研发人员:王金双俞远哲孙蒙邹霞
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1