WEB木马检测方法及系统技术方案

技术编号:16779896 阅读:21 留言:0更新日期:2017-12-13 00:05
本发明专利技术公开了一种WEB木马检测方法及系统,用以克服利用静态匹配方式检测的漏检以及动态检测效率低的缺陷,及实现对隐藏在重定向链以及混淆页面中的木马的检测的问题。所述方法包括:选取重定向链特征和页面统计特征作为网页木马检测的分类特征;获取样本集,所述样本集包括多个正样本和多个负样本;提取每个样本的分类特征值,并基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型;提取待测网页的分类特征值,将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

WEB Trojan horse detection method and system

The invention discloses a detection method and system for WEB Trojan horse, which is used to overcome the defect of missing detection in static matching mode and low efficiency in dynamic detection, and realize the detection of Trojan horse hidden in redirection chain and confusion pages. The method includes: selecting redirection chain characteristics and page statistics as classification feature of \Trojan detection; to obtain the sample set, the sample set includes a plurality of positive samples and multiple negative samples; classification feature extraction value of each sample, and each classification based on the extracted feature values of classification training of web Trojan the sample set, classification model; feature extraction to measure the value of the page, will extract the measured web page classification feature value input to the classification model of the tested web page classification testing.

【技术实现步骤摘要】
WEB木马检测方法及系统
本专利技术涉及计算机领域,特别是涉及一种WEB木马检测方法及系统。
技术介绍
近年来,互联网发展飞速,给人们获得有效实时信息和资源提供了极大的帮助,满足了大众足不出户就可以纵观世界的愿望,逐渐成为人们生活必备的部分。网络技术的先进性已经成为我们生活的主导因素,我们日常的各种活动都已经依赖于互联网,例如个人娱乐活动,医疗活动,银行金融活动,以及其他生活的方方面面。为保持这种先进性,大量的功能性措施已经加入到现代化浏览器中,然而这些先进性也带来了大量缺陷漏洞。这些漏洞缺陷会逐渐成为隐患,被更多图谋不轨的人所利用。恶意程序主要包括计算机病毒、蠕虫、木马、僵尸程序等,近年来,不同类别的恶意程序之间的界限逐渐模糊,木马和僵尸程序成为黑客最常利用的攻击手段。当前的成型网页木马检测技术大致分为两类,第一类就是利用技术静态分析网页以及内嵌代码(例如JavaScript,flash),它们的特征具有典型的恶意性。例如网页的URLS特征,内容特征以及其他特征,或者是开发能利用的恶意脚本片段。第二类是利用动态技术,这些方法大都依赖于感知化的浏览器,常提到的有客户端蜜罐,监控各种行为,其中监控主机注册行为特征是一种典型的方法。尽管现存的检测系统,可以满足部分互联网用户安全可靠上网,但是攻击技术不断更新,这些方法仍然还有许多局限性,使得检测面临着更多的挑战。
技术实现思路
为了克服上述现有技术的缺陷,本专利技术要解决的技术问题是提供一种WEB木马检测方法及系统,用以克服利用静态匹配方式检测的漏检以及动态检测效率低的缺陷,及实现对隐藏在重定向链以及混淆页面中的木马的检测的问题。为解决上述技术问题,本专利技术中的一种WEB木马检测方法,包括:选取重定向链特征和页面统计特征作为网页木马检测的分类特征;获取样本集,所述样本集包括多个正样本和多个负样本;提取每个样本的分类特征值,并基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型;提取待测网页的分类特征值,将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。作为本专利技术的WEB木马检测方法的改进,所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征;所述页面统计特征包括<meta>标签个数、<script>标签个数、eval()函数统计出现的次数、unescape()和escape()函数的个数、decode和encode函数个数以及document.write()函数个数。作为本专利技术的WEB木马检测方法的进一步改进,提取每个样本的重定向链的URL相似度特征值步骤,具体包括:计算每个样本的重定向链中任意两个URL地址的相似度值;从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值;提取每个样本的重定向链的内部域名特征值步骤,具体包括:判断每个样本的重定向链中是否至少存在一步从一个网页到另一个网页用相同的域名;如果存在则提取布尔型为1,如果不存在则提取布尔型为0;提取每个样本的重定向链的域名的IP特征值步骤,具体包括:提取每个样本的重定向链的树形结构中所有叶子节点中IPnum/STRnum的值,其中IPnum是指URL域名是IP地址的数量,STRnum是指URL域名是字符串的数量;所述自循环特征具体为重定向链的最后到达页面指向的是用户重定向开始的页面。作为本专利技术的WEB木马检测方法的再进一步改进,所述提取每个样本的分类特征值的步骤,还包括:将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数,并将表示的格式统一。作为本专利技术的WEB木马检测方法的另一种改进,所述基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型的步骤,包括:基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练;在训练过程中,采用K-折叠交叉验证方式,获得SVM模型的最优gamma参数和C参数;将由所述最优gamma参数和所述C参数构建的SVM模型确定为所述分类模型。为解决上述技术问题,本专利技术中的一种WEB木马检测系统,包括:特征设置模块,用于选取重定向链特征和页面统计特征作为网页木马检测的分类特征;样本获取模块,用于获取样本集,所述样本集包括多个正样本和多个负样本;模型训练模块,用于提取每个样本的分类特征值,并基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型;木马检测模块,用于提取待测网页的分类特征值,将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。作为本专利技术的WEB木马检测系统的改进,所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征;所述页面统计特征包括<meta>标签个数、<script>标签个数、eval()函数统计出现的次数、unescape()和escape()函数的个数、decode和encode函数个数以及document.write()函数个数。作为本专利技术的WEB木马检测系统的进一步改进,所述模型训练模块在提取每个样本的重定向链的URL相似度特征值时具体用于:计算每个样本的重定向链中任意两个URL地址的相似度值;从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值;所述模型训练模块在提取每个样本的重定向链的内部域名特征值时具体用于:判断每个样本的重定向链中是否至少存在一步从一个网页到另一个网页用相同的域名;如果存在则提取布尔型为1,如果不存在则提取布尔型为0;所述模型训练模块在提取每个样本的重定向链的域名的IP特征值时具体用于:提取每个样本的重定向链的树形结构中所有叶子节点中IPnum/STRnum的值,其中IPnum是指URL域名是IP地址的数量,STRnum是指URL域名是字符串的数量;所述自循环特征具体为重定向链的最后到达页面指向的是用户重定向开始的页面。作为本专利技术的WEB木马检测系统的再进一步改进,所述系统还包括预处理模块,用于将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数,并将表示的格式统一。作为本专利技术的WEB木马检测系统的另一种改进,所述模型训练模块在基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型时具体用于:基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练;在训练过程中,采用K-折叠交叉验证方式,获得SVM模型的最优gamma参数和C参数;将由所述最优gamma参数和所述C参数构建的SVM模型确定为所述分类模型。本专利技术有益效果如下:本专利技术WEB木马检测方法及系统采用重定向链特征和页面统计特征相结合的方法,来完成WEB木马的检测,克服了传统利用静态匹配方式检测的漏检以及动态检测效率低的缺陷,降低了漏检率和误报率,并实现了对隐藏在重定向链以及混淆页面中的木马的检测。附图说明图1是本专利技术实施例中一种WEB木马检测方法的详细流程图;图2是本专利技术实施例中一种WEB木马检测系统的框图。具体实施方式目前,由于攻击者会混淆他们的网页使得检测变得更加困难,在许多情况下,他们会躲避那些基于特征的系统。有时本文档来自技高网...
WEB木马检测方法及系统

【技术保护点】
一种WEB木马检测方法,其特征在于,包括:选取重定向链特征和页面统计特征作为网页木马检测的分类特征;获取样本集,所述样本集包括多个正样本和多个负样本;提取每个样本的分类特征值,并基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型;提取待测网页的分类特征值,将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。

【技术特征摘要】
1.一种WEB木马检测方法,其特征在于,包括:选取重定向链特征和页面统计特征作为网页木马检测的分类特征;获取样本集,所述样本集包括多个正样本和多个负样本;提取每个样本的分类特征值,并基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型;提取待测网页的分类特征值,将提取的待测网页分类特征值输入到所述分类模型中对所述待测网页进行分类检测。2.如权利要求1所述的方法,其特征在于,所述重定向链特征包括重定向链的长度特征、URL相似度特征、内部域名特征、自循环特征和域名的IP特征;所述页面统计特征包括<meta>标签个数、<script>标签个数、eval()函数统计出现的次数、unescape()和escape()函数的个数、decode和encode函数个数以及document.write()函数个数。3.如权利要求2所述的方法,其特征在于,提取每个样本的重定向链的URL相似度特征值步骤,具体包括:计算每个样本的重定向链中任意两个URL地址的相似度值;从计算得到的所有相似度值中提取最低相似度值作为该样本的重定向链的URL相似度特征值;提取每个样本的重定向链的内部域名特征值步骤,具体包括:判断每个样本的重定向链中是否至少存在一步从一个网页到另一个网页用相同的域名;如果存在则提取布尔型为1,如果不存在则提取布尔型为0;提取每个样本的重定向链的域名的IP特征值步骤,具体包括:提取每个样本的重定向链的树形结构中所有叶子节点中IPnum/STRnum的值,其中IPnum是指URL域名是IP地址的数量,STRnum是指URL域名是字符串的数量;所述自循环特征具体为重定向链的最后到达页面指向的是用户重定向开始的页面。4.如权利要求3所述的方法,其特征在于,所述提取每个样本的分类特征值的步骤,还包括:将每个样本的非布尔型的分类特征值表示为[0,1]之间的小数,并将表示的格式统一。5.如权利要求2-4中任意一项所述的方法,其特征在于,所述基于提取的每个分类特征值对所述样本集进行网页木马分类训练,得到分类模型的步骤,包括:基于提取的每个分类特征值采用SVM模型对所述样本集进行网页木马分类训练;在训练过程中,采用K-折叠交叉验证方式,获得SVM模型的最优gamma参数和C参数;将由所述最优gamma参数和所述C参数构建的SVM模型确定为所述分类模型。6.一种WEB木马检测系统,其特征在于,包括:特征设置模...

【专利技术属性】
技术研发人员:徐晓燕李高超周渊
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1