一种使用引导型搜索的网页木马检测系统及方法技术方案

技术编号:18350838 阅读:30 留言:0更新日期:2018-07-02 00:19
本发明专利技术请求保护一种使用引导型搜索的网页木马(挂马网页)检测方法。该方法主要由两个部分构成,分为外围程序部分和核心组件部分。外围程序使用网络爬虫程序从互联网中下载网页,通过一个弱过滤器程序过滤掉明显无害的网页,并将结果输入网页检测程序。网页检测程序将挂马网页分类出来,存入数据库,形成挂马网页黑名单,并将一部分送至核心组件部分分析。核心组件包括数个特征分析组件和搜索引擎工具。特征分析组件分析出输入的挂马网页的特征,并通过使用这些特征引导搜索引擎搜索并下载相似的网页。通过这种引导搜索下载的方式,所获取的网页中,挂马网页的比例会有显著提高。引导搜索下载的网页直接提交至网页检测程序分析,从而在较短的时间内找到大量挂马网页,提高检测的效率。

【技术实现步骤摘要】
一种使用引导型搜索的网页木马检测系统及方法
本专利技术属于信息安全与数据挖掘的交叉领域,属于一种网页木马检测的方法,主要应用域名和网页内容分析网页木马特征,并使用引导搜索引擎搜索下载与挂马网页相似的网页来提高检测效率。
技术介绍
互联网已逐渐成为人们搜索信息、开展业务和进行娱乐活动的主要载体。与此同时,互联网也成为一些不法分子用来攻击用户的主要平台。其中网页木马,又称为挂马网页或恶意网页,是最常见的攻击方式。下文中挂马网页和网页木马具有相同的含义。挂马网页攻击是攻击者利用网站漏洞给网页加入恶意的代码,在用户未察觉的情况下载恶意软件来对用户进行攻击,而被添加了恶意代码的网页被称为挂马网页。一旦用户浏览了挂马网页,恶意的程序就会自动下载并执行,使用户的数据面临风险。除了添加恶意代码实现在用户浏览网页时下载恶意软件外,不法分子通过社会工程学原理,以欺骗的形式诱导用户下载运行有风险的软件。例如,网站诱导用户下载一个虚假的播放器软件以能够播放视频,但该软件其实是一个恶意软件。挂马网页的检测分为三个步骤,首先需要收集网页的地址(即统一资源定位符,表示互联网上所以资源的位置和访问方法,是互联网上标准资源的地址,以下简称URL),然后使用较弱的过滤器快速过滤明显无害的网页,最后使用较强的网页分析工具对剩余的网页进行分析,找出挂马网页。收集网页的URL通常使用网络爬虫,网络爬虫是一种按照一定的规则,自动地获取万维网信息的程序。爬虫从给定的一组网页开始,分析网页上的超链接并尽可能多的访问网页,并下载网页信息。网络爬虫的获取的网页信息通常非常巨大,不适合使用较复杂的网页检测程序进行分类,所以需要一个速度快但效果较弱过滤器来过滤明显为正常的网页,以减少网页检测程序处理网页的数量。最后使用一个高准确度但速度较慢的网页检测程序,该程序是一种网页分析工具,该分析工具可采用蜜罐系统,模拟用户加载网页,并检测网页脚本语言(例如JavaScript)中的异常,从而找到含有恶意代码的网页,并将其标注出来。现有的挂马网页检测方法,通过网络爬虫获取大量随机网页并通过机器学习分类等方法提取挂马网页的特征,利用此特征来对网页进行分类检测。这种方法的主要缺陷有:(1)面对现代互联网中的海量网页时,要分析出挂马网页的特征需要大量的样本进行机器学习,由于时间和计算机硬件资源是有限的,大量的资源花费在处理正常网页上,效率较低;(2)挂马网页变化速度快,传统的检测方法需要使用大量网页数据进行训练,训练周期较长,很难满足快速准确的挂马网页检测需求。在现实中,通过网络爬虫随机获取的网页数据大多数都是正常网页,而与挂马网页相似的网页,很可能也是挂马网页。本专利技术针基于这一特点,通过分析挂马网页的特征,利用搜索引擎工具获取一些与挂马网页相似的网页,获取的网页中就会有较多的挂马网页,比传统的方法具有更高的检测效率。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高检测效率的使用引导型搜索的网页木马检测系统及方法。本专利技术的技术方案如下:一种使用引导型搜索的网页木马检测系统,其包括外围程序模块和核心检测分析组件,外围程序模块包括一个网络爬虫模块,一个弱过滤器模块,一个网页检测模块和一个用于存储已知挂马网页的数据库;所述网络爬虫模块用于从互联网中下载网页,所述弱过滤器模块用于从下载的网页中过滤掉明显无害的网页,所述网页检测模块用于将挂马网页分类出来,数据库用于存储已知挂马网页;核心检测分析组件,包括数个特征分析组件和搜索引擎工具,所述特征分析组件用于分析出输入的挂马网页的特征,并通过使用这些特征引导搜索引擎搜索并下载相似的网页,将引导搜索下载的网页直接提交至网页检测程序分析。进一步的,所述弱过滤器模块通过IP地址、网页上可疑域名数量、域名段数、不完整头部信息域请求数量及是否包含可疑JavaScript代码在内的显著特征过滤掉正常网页。进一步的,所述弱过滤器模块的输出网页作为网页检测模块的输入,所述网页检测模块包括一个蜜罐客户端,蜜罐客户端可以模拟浏览器执行网页上的JavaScript代码,可以跟踪记录代码执行的结果,并使用异常探测技术来判断网页是否含有诱导下载攻击;网页检测模块还包括一个自定义检测工具,该工具是使用机器学习的方法训练一个分类器,分类器以网页中的标签信息,JavaScript语句和词频信息为特征进行训练,该自定义检测工具用于检测网页中的恶意软件自动下载功能,以避免用户在不知情的情况下下载恶意软件。进一步的,所述引导搜索引擎搜索下载相似的网页包括:在挂马网页URL前加上link操作符,记为link:<MALICIOUS-URL>,其中MALICIOUS-URL为挂马网页的URL,并使用搜索引擎查询工具查询,收集查询结果网页中的新URL作为可疑URL。进一步的,所述特征分析组件利用域名注册记录筛选可疑域名,在域名注册记录中查询挂马网站的域名,将之前和之后注册的两个域名当作可疑域名。一种基于所述系统的使用引导型搜索的网页木马检测方法,其包括以下步骤:101、挂马网页分类步骤:使用网络爬虫程序从互联网中下载网页,通过一个弱过滤器程序过滤掉明显无害的网页,并将结果输入网页检测程序,网页检测程序将挂马网页分类出来,存入数据库,形成挂马网页黑名单,并将一部分挂马网页送至核心组件部分分析;102、核心组件分析步骤:包括数个特征分析组件和搜索引擎工具,特征分析组件分析出输入的挂马网页的特征,并通过使用这些特征引导搜索引擎搜索并下载相似的网页,引导搜索下载的网页直接提交至网页检测程序分析。进一步的,所述所述弱过滤器程序的输出网页作为网页检测程序的输入,所述网页检测程序包括一个蜜罐客户端,蜜罐客户端可以模拟浏览器执行网页上的JavaScript代码,可以跟踪记录代码执行的结果,并使用异常探测技术来判断网页是否含有诱导下载攻击;网页检测程序还包括一个自定义检测工具,该工具是使用机器学习的方法训练一个分类器,分类器以网页中的标签信息,JavaScript语句和词频信息为特征进行训练,该自定义检测工具用于检测网页中的恶意软件自动下载功能,以避免用户在不知情的情况下下载恶意软件。进一步的,所述特征分析组件包括用网页链接分析组件和域名注册分析组件,使用网页链接分析组件找到挂马网页“中心”,挂马网页“中心”是指某个包含了许多指向挂马网页的链接的网页,这种网页通常是存在漏洞并多次被攻击,或者存在于长时间未维护的网站上,该组件能够自动下载挂马网页“中心”上的URL,并提交至网页检测程序进行分析;域名注册分析组件通过分析域名注册信息,找到可疑的挂马网页,并提交至网页检测程序。本专利技术的优点及有益效果如下:本专利技术通过分析挂马网页特征,使用引导搜索引擎搜索的方式实现了一种快速,准确的挂马网页检测方法。由于现有的网页木马检测技术需要从海量的网页中过滤出挂马网页,并加上标签。而现实中绝大部分网页都是正常网页,这导致检测效率低下,容易遗漏部分挂马网页,同时还需要耗费大量计算时间,从而使互联网使用者面临较大的风险。本专利技术提出了一种通过分析挂马网页特征,快速获取大量挂马网页的方法。首先,在数据收集阶段通过网络爬虫收集一定数量的网页,并通过过滤器和网页检测程序将其中的挂本文档来自技高网
...
一种使用引导型搜索的网页木马检测系统及方法

【技术保护点】
1.一种使用引导型搜索的网页木马检测系统,其特征在于,包括外围程序模块和核心检测分析组件,外围程序模块包括一个网络爬虫模块,一个弱过滤器模块,一个网页检测模块和一个用于存储已知挂马网页的数据库;所述网络爬虫模块用于从互联网中下载网页,所述弱过滤器模块用于从下载的网页中过滤掉明显无害的网页,所述网页检测模块用于将挂马网页分类出来,数据库用于存储已知挂马网页;核心检测分析组件,包括数个特征分析组件和搜索引擎工具,所述特征分析组件用于分析出输入的挂马网页的特征,并通过使用这些特征引导搜索引擎搜索并下载相似的网页,将引导搜索下载的网页直接提交至网页检测程序分析。

【技术特征摘要】
1.一种使用引导型搜索的网页木马检测系统,其特征在于,包括外围程序模块和核心检测分析组件,外围程序模块包括一个网络爬虫模块,一个弱过滤器模块,一个网页检测模块和一个用于存储已知挂马网页的数据库;所述网络爬虫模块用于从互联网中下载网页,所述弱过滤器模块用于从下载的网页中过滤掉明显无害的网页,所述网页检测模块用于将挂马网页分类出来,数据库用于存储已知挂马网页;核心检测分析组件,包括数个特征分析组件和搜索引擎工具,所述特征分析组件用于分析出输入的挂马网页的特征,并通过使用这些特征引导搜索引擎搜索并下载相似的网页,将引导搜索下载的网页直接提交至网页检测程序分析。2.根据权利要求1所述的使用引导型搜索的网页木马检测系统,其特征在于,所述弱过滤器模块通过IP地址、网页上可疑域名数量、域名段数、不完整头部信息域请求数量及是否包含可疑JavaScript代码在内的显著特征过滤掉正常网页。3.根据权利要求1或2所述的使用引导型搜索的网页木马检测系统,其特征在于,所述弱过滤器模块的输出网页作为网页检测模块的输入,所述网页检测模块包括一个蜜罐客户端,蜜罐客户端可以模拟浏览器执行网页上的JavaScript代码,可以跟踪记录代码执行的结果,并使用异常探测技术来判断网页是否含有诱导下载攻击;网页检测模块还包括一个自定义检测工具,该工具是使用机器学习的方法训练一个分类器,分类器以网页中的标签信息,JavaScript语句和词频信息为特征进行训练,该自定义检测工具用于检测网页中的恶意软件自动下载功能,以避免用户在不知情的情况下下载恶意软件。4.根据权利要求1或2所述的使用引导型搜索的网页木马检测系统,其特征在于,所述引导搜索引擎搜索下载相似的网页包括:在挂马网页URL前加上link操作符,记为link:<MALICIOUS-URL>,其中MALICIOUS-URL为挂马网页的URL,并使用搜索引擎查询工具查询,收集查询结果网页中的新URL作为可疑URL。5.根据权利要求1或...

【专利技术属性】
技术研发人员:徐光侠郑爽李伟凤王天羿刘榕马传龙马创刘俊
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1