一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法技术

技术编号：17780192 阅读：136 留言：0更新日期：2018-04-22 08:56

本发明专利技术公开了一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法，包括以下步骤：1）收集恶意PDF文档和正常PDF文档作为样本集；2）生成可检测恶意PDF文档的检测模型；3）检测待测PDF文档，步骤1收集恶意PDF文档和正常PDF文档作为样本集，步骤2定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码，采用TF‑IDF算法进行恶意PDF文档特征生成以及采用SVDD算法生成PDF恶意文档检测模型进和判别函数，步骤3实现了检测模型对待测PDF文档的判断，本发明专利技术能准确高效的对恶意PDF文档进行分析和检测，避免了恶意PDF文档对个人及公司的财产和隐私安全造成严重危害。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法
本专利技术涉及计算机信息安全
，尤其涉及一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法。
技术介绍
便携式文档格式(PortableDocumentFormatPDF)，是由AdobeSystems为了支持跨平台的网络信息发布与交互而设计的一种电子文件格式，PDF文档有许多特点：PDF是一种与计算机操作系统不相关的可移植文档格式，不会因操作系统环境的不同而影响文档的正常编辑及阅读；PDF同时支持内嵌字体信息、高压缩图片和矢量图形，还可包含超文本衔接、音频和动态多媒体信息，具有较高集成性。正是由于以上特点，PDF已成为保存文件资料的规范标准。随着PDF逐渐地流行和普及，PDF文档已成为恶意文档的重要载体，恶意文档，是指一种在正常文档中隐藏了具有恶意功能代码的文档，当用户在编辑或遍历文档时，隐藏的恶意代码就会利用系统中某个漏洞进行攻击，从而实现修改、窃取用户信息，监视用户操作行为，控制用户计算机系统等目的，由于PDF文档的通用性、易传播性以及其自身不断出现的0day型漏洞，使得PDF文档成为了最常见的恶意文档载体之一。据相关研究发现，基于JavaScript代码的恶意PDF文档已占所有恶意PDF文档总数的90％以上，该类恶意PDF文档利用JavaScript代码触发PDF文档的漏洞，从而导致缓冲区溢出并执行恶意PDF文档内的攻击载荷，最终实现攻击目的，自2008年AdobeReader的第一个严重漏洞被发现以来，每年针对各种不同漏洞的恶意PDF文档层出不穷，这类恶意PDF文档...
一种<a href="http://www.xjishu.com/zhuanli/55/201711334962.html" title="一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法原文来自X技术">基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法</a>

【技术保护点】
一种基于TF‑IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：包括以下步骤：步骤1：收集恶意PDF文档和正常PDF文档作为样本集；步骤2：生成可检测恶意PDF文档的检测模型；步骤3：检测待测PDF文档。

【技术特征摘要】
1.一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：包括以下步骤：步骤1：收集恶意PDF文档和正常PDF文档作为样本集；步骤2：生成可检测恶意PDF文档的检测模型；步骤3：检测待测PDF文档。2.根据权利要求1所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：步骤2所述的生成可检测恶意PDF文档的检测模型，还包括以下步骤：步骤2.1：定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码；步骤2.2：采用TF-IDF算法进行恶意PDF文档特征生成，得到至少一组特征单词，并统计特征单词的TF-IDF值；步骤2.3：采用PCA算法进行降维处理，得到一组能够代表样本中恶意PDF文档特征的向量集合；步骤2.4：采用SVDD算法生成可检测恶意PDF文档的检测模型及其判别函数。3.根据权利要求1所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：步骤3所述的检测待测PDF文档，还包括以下步骤：步骤3.1：定位并提取待测PDF文档所包含的JavaScript代码；步骤3.2：计算在特征生成阶段选取的至少一组特征单词在该待测文档JavaScript代码中的TF-IDF值，并以n维列向量y进行表示；步骤3.3：利用矩阵P对特征单词的向量y进行降维，计算得到k维列向量x；步骤3.4：将降维后的向量x输入至检测模型的判别函数中，计算该向量在高维空间内与分类模型最小超球体球心的距离；步骤3.5：判别函数判断文档是否为恶意PDF文档。4.根据权利要求2所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：步骤2.1所述的定位并提取样本集中恶意PDF文档所包含的可疑JavaScript代码，还包括以下步骤：步骤2.1.1：解析恶意PDF文档，获取Catalog字典；步骤2.1.2：依次检索Catalog字典中的AA字段、OpenAction字段、Page字段、Outline字段、AcroForm字段以及Names字段；步骤2.1.3：定位数据类型为“Rendition”或“JavaScript”的字典，并提取字典“/JS”关键字的内容。5.根据权利要求2所述的一种基于TF-IDF算法和SVDD算法的恶意PDF文档检测方法，其特征在于：步骤2.2所述的采用TF-IDF算法进行恶意PDF文档特征生成，得到至少一组特征单词，并统计特征单词的TF-IDF值，还包括以下步骤：步骤2.2.1：判断样本中是否还存在未遍历的恶意PDF文档，若已遍历所有恶意PDF文档，结束统计TF-IDF值的流程，若还有未遍历所有恶意PDF文档，则进行步骤2.2.2；步骤2.2.2：计算未遍历的恶意PDF文档中JavaScript代码中...

【专利技术属性】
技术研发人员：冯迪，郑少波，杨玉龙，成建宏，梁登辉，陈泽瑞，
申请(专利权)人：贵州航天计量测试技术研究所，
类型：发明
国别省市：贵州,52

全部详细技术资料下载我是这个专利的主人