一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法技术

技术编号:17780192 阅读:136 留言:0更新日期:2018-04-22 08:56
本发明专利技术公开了一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法,包括以下步骤:1)收集恶意PDF文档和正常PDF文档作为样本集;2)生成可检测恶意PDF文档的检测模型;3)检测待测PDF文档,步骤1收集恶意PDF文档和正常PDF文档作为样本集,步骤2定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码,采用TF‑IDF算法进行恶意PDF文档特征生成以及采用SVDD算法生成PDF恶意文档检测模型进和判别函数,步骤3实现了检测模型对待测PDF文档的判断,本发明专利技术能准确高效的对恶意PDF文档进行分析和检测,避免了恶意PDF文档对个人及公司的财产和隐私安全造成严重危害。

【技术实现步骤摘要】
一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法
本专利技术涉及计算机信息安全
,尤其涉及一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法。
技术介绍
便携式文档格式(PortableDocumentFormatPDF),是由AdobeSystems为了支持跨平台的网络信息发布与交互而设计的一种电子文件格式,PDF文档有许多特点:PDF是一种与计算机操作系统不相关的可移植文档格式,不会因操作系统环境的不同而影响文档的正常编辑及阅读;PDF同时支持内嵌字体信息、高压缩图片和矢量图形,还可包含超文本衔接、音频和动态多媒体信息,具有较高集成性。正是由于以上特点,PDF已成为保存文件资料的规范标准。随着PDF逐渐地流行和普及,PDF文档已成为恶意文档的重要载体,恶意文档,是指一种在正常文档中隐藏了具有恶意功能代码的文档,当用户在编辑或遍历文档时,隐藏的恶意代码就会利用系统中某个漏洞进行攻击,从而实现修改、窃取用户信息,监视用户操作行为,控制用户计算机系统等目的,由于PDF文档的通用性、易传播性以及其自身不断出现的0day型漏洞,使得PDF文档成为了最常见的恶意文档载体之一。据相关研究发现,基于JavaScript代码的恶意PDF文档已占所有恶意PDF文档总数的90%以上,该类恶意PDF文档利用JavaScript代码触发PDF文档的漏洞,从而导致缓冲区溢出并执行恶意PDF文档内的攻击载荷,最终实现攻击目的,自2008年AdobeReader的第一个严重漏洞被发现以来,每年针对各种不同漏洞的恶意PDF文档层出不穷,这类恶意PDF文档已对个人及公司的财产和隐私安全造成了严重危害,也对国家信息安全构成了巨大威胁,而目前没有专门的恶意PDF文档的检测方法,因此,需要提出一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,用于对恶意PDF文档进行分析和检测,确保PDF文档的安全。
技术实现思路
本专利技术解决的技术问题:提供一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,用以解决目前无专门的恶意PDF文档检测方法致使PDF文档易被JavaScript代码感染的问题本专利技术的技术方案:一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,包括以下步骤:步骤1:收集恶意PDF文档和正常PDF文档作为样本集;步骤2:生成可检测恶意PDF文档的检测模型;步骤3:检测待测PDF文档。步骤2所述的生成可检测恶意PDF文档的检测模型,还包括以下步骤:步骤2.1:定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码;步骤2.2:采用TF-IDF算法进行恶意PDF文档特征生成,得到至少一组特征单词,并统计特征单词的TF-IDF值;步骤2.3:采用PCA算法进行降维处理,得到一组能够代表样本中恶意PDF文档特征的向量集合;步骤2.4:采用SVDD算法生成可检测恶意PDF文档的检测模型及其判别函数。步骤3所述的检测待测PDF文档,还包括以下步骤:步骤3.1:定位并提取待测PDF文档所包含的JavaScript代码;步骤3.2:计算在特征生成阶段选取的至少一组特征单词在该待测文档JavaScript代码中的TF-IDF值,并以n维列向量y进行表示;步骤3.3:利用矩阵P对特征单词的向量y进行降维,计算得到k维列向量x;步骤3.4:将降维后的向量x输入至检测模型的判别函数中,计算该向量在高维空间内与分类模型最小超球体球心的距离;步骤3.5:判别函数判断文档是否为恶意PDF文档。步骤2.1所述的定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码,还包括以下步骤:步骤2.1.1:解析恶意PDF文档,获取Catalog字典;步骤2.1.2:依次检索Catalog字典中的AA字段、OpenAction字段、Page字段、Outline字段、AcroForm字段以及Names字段;步骤2.1.3:定位数据类型为“Rendition”或“JavaScript”的字典,并提取字典“/JS”关键字的内容。步骤2.2所述的采用TF-IDF算法进行恶意PDF文档特征生成,得到至少一组特征单词,并统计特征单词的TF-IDF值,还包括以下步骤:步骤2.2.1:判断样本中是否还存在未遍历的恶意PDF文档,若已遍历所有恶意PDF文档,结束统计TF-IDF值的流程,若还有未遍历所有恶意PDF文档,则进行步骤2.2.2;步骤2.2.2:计算未遍历的恶意PDF文档中JavaScript代码中所有单词的TF-IDF值;步骤2.2.3:统计任一个未遍历的恶意PDF文档的JavaScript代码中特定单词ti出现的次数;步骤2.2.4:统计包含特定单词ti的未遍历的恶意PDF文档数与样本集文档总数的比值关系;步骤2.2.5:计算在未遍历的恶意PDF文档中的特定单词ti的TF-IDF值;步骤2.2.6:判断是否遍历所有恶意PDF文档中所有的单词。步骤2.3所述的采用PCA算法进行降维处理,得到一组能够代表样本中恶意PDF文档特征的向量集合,还包括以下步骤:步骤2.3.1:统计样本集中的m个恶意PDF文档和每个恶意PDF文档中n个特征单词的TF-IDF值,组成n*m的矩阵C;步骤2.3.2:计算矩阵C的自相关矩阵X;步骤2.3.3:计算矩阵X的特征值集合,并按照从大到小进行排列;步骤2.3.4:选取矩阵X的前k(0<k<n)个特征值的特征向量作为行向量,由上至下构成一个k*n的矩阵P;步骤2.3.5:计算k*m的矩阵Z,计算式为Z=PC,C为n*m的矩阵,P为k*n的矩阵。步骤2.4所述的采用SVDD算法生成可检测恶意PDF文档的检测模型及其判别函数,包括以下步骤:步骤2.4.1:采用高斯核函数将降维后的恶意PDF文档特征集合{z1,z2,…,zk}映射至高维空间上;步骤2.4.2:计算能够包含数据样本的最小超球体的球心O及半径R;步骤2.4.3:建立检测模型并得到其判别函数。步骤3.3所述的利用矩阵P对特征单词的向量y进行降维,计算得到k维列向量x,计算式为式中P为k*n的矩阵,y为n维列向量。步骤2.3.2所述的计算矩阵C的自相关矩阵X,计算式为式中m统计样本集中的恶意PDF文档数量,A为矩阵C的行向量进行零均值化处理得到矩阵,AT为矩阵A的转置矩阵。步骤2.4.2所述的计算能够包含数据样本的最小超球体的球心O及半径R,计算式为:s.t.||φ(zi)-O||2≤R2+ξiv∈(0,1),ξi≥0(i=1,2,…,k)其中ξi为松弛因子,v为控制参数,k为用于训练的样本数,φ(zi)为核函数。本专利技术的有益效果:提供一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,通过步骤1收集一定量的恶意PDF文档和正常PDF文档作为样本集,步骤2通过定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码,采用TF-IDF算法进行恶意PDF文档特征生成,得到一系列特征单词,并统计特征单词的TF-IDF值以及采用SVDD算法生成可检测恶意PDF文档的检测模型及其判别函数,步骤3实现了检测模型对待测PDF文档进行判断,本专利技术能准确且高效的对恶意本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/55/201711334962.html" title="一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法原文来自X技术">基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法</a>

【技术保护点】
一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:包括以下步骤:步骤1:收集恶意PDF文档和正常PDF文档作为样本集;步骤2:生成可检测恶意PDF文档的检测模型;步骤3:检测待测PDF文档。

【技术特征摘要】
1.一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:包括以下步骤:步骤1:收集恶意PDF文档和正常PDF文档作为样本集;步骤2:生成可检测恶意PDF文档的检测模型;步骤3:检测待测PDF文档。2.根据权利要求1所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:步骤2所述的生成可检测恶意PDF文档的检测模型,还包括以下步骤:步骤2.1:定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码;步骤2.2:采用TF-IDF算法进行恶意PDF文档特征生成,得到至少一组特征单词,并统计特征单词的TF-IDF值;步骤2.3:采用PCA算法进行降维处理,得到一组能够代表样本中恶意PDF文档特征的向量集合;步骤2.4:采用SVDD算法生成可检测恶意PDF文档的检测模型及其判别函数。3.根据权利要求1所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:步骤3所述的检测待测PDF文档,还包括以下步骤:步骤3.1:定位并提取待测PDF文档所包含的JavaScript代码;步骤3.2:计算在特征生成阶段选取的至少一组特征单词在该待测文档JavaScript代码中的TF-IDF值,并以n维列向量y进行表示;步骤3.3:利用矩阵P对特征单词的向量y进行降维,计算得到k维列向量x;步骤3.4:将降维后的向量x输入至检测模型的判别函数中,计算该向量在高维空间内与分类模型最小超球体球心的距离;步骤3.5:判别函数判断文档是否为恶意PDF文档。4.根据权利要求2所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:步骤2.1所述的定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码,还包括以下步骤:步骤2.1.1:解析恶意PDF文档,获取Catalog字典;步骤2.1.2:依次检索Catalog字典中的AA字段、OpenAction字段、Page字段、Outline字段、AcroForm字段以及Names字段;步骤2.1.3:定位数据类型为“Rendition”或“JavaScript”的字典,并提取字典“/JS”关键字的内容。5.根据权利要求2所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法,其特征在于:步骤2.2所述的采用TF-IDF算法进行恶意PDF文档特征生成,得到至少一组特征单词,并统计特征单词的TF-IDF值,还包括以下步骤:步骤2.2.1:判断样本中是否还存在未遍历的恶意PDF文档,若已遍历所有恶意PDF文档,结束统计TF-IDF值的流程,若还有未遍历所有恶意PDF文档,则进行步骤2.2.2;步骤2.2.2:计算未遍历的恶意PDF文档中JavaScript代码中...

【专利技术属性】
技术研发人员:冯迪郑少波杨玉龙成建宏梁登辉陈泽瑞
申请(专利权)人:贵州航天计量测试技术研究所
类型:发明
国别省市:贵州,52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1