一种基于Stacking的恶意网页集成识别方法及系统技术方案

技术编号:22330808 阅读:116 留言:0更新日期:2019-10-19 12:24
本发明专利技术提供了一种基于Stacking的恶意网页集成识别方法及系统,其中方法包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。

An integrated identification method and system for malicious web pages based on stacking

【技术实现步骤摘要】
一种基于Stacking的恶意网页集成识别方法及系统
本专利技术涉及恶意网页检测
,尤其涉及一种基于Stacking的恶意网页集成识别方法及系统。
技术介绍
目前恶意网页检测的主流方式有静态和动态两大类检测技术。前者基于网页特征进行判断分类,其中不乏应用机器学习算法的方法,但是传统机器学习算法的分类精度往往依赖于具体问题与特征工程,但是目前大多数研究还是基于单一机器学习算法或多种机器学习算法的简单组合,对准确率的提升效果一般。动态检测则模仿浏览器运行网页并对运行后的系统行为进行检测,对恶意网页的动态检测主要是通过蜜罐、虚拟机的环境下来进行的,就是通过获取到的HTML或JavaScript源代码在虚拟的环境中运行并使用浏览器对网页进行访问,同时实时检测系统情况和该网页的动态行为,如超链接、下载且执行恶意文件、修改注册表等等,根据这些依据判断正在运行的网页是否属于恶意网页类别,对未知数据的检测正确率相对来说较高。但虚拟机引擎技术与蜜罐检测技术的系统资源消耗是十分巨大的,其对时间和资源的消耗也很高。即使是轻量级交互系统也是很耗资源的,且部署比较麻烦。只有在一些大型检测中心会使用此类检测识别方式。
技术实现思路
本专利技术旨在提供一种克服上述问题或者至少部分地解决上述问题的基于Stacking的恶意网页集成识别方法及系统。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种基于Stacking的恶意网页集成识别方法,包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。其中,采集待测样本数据包括:对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。其中,利用网页源代码判断网页是否改变包括:对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。其中,对网页URL进行特征提取包括:对网页URL中部分特征通过BeautifulSoup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。其中,方法还包括:通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。本专利技术另一方面提供了一种基于Stacking的恶意网页集成识别系统,包括:获取装置,用于获取训练样本数据;建立装置,用于使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;训练装置,用于对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集装置,用于采集待测样本数据,其中,待测样本数据包括:待识别网页的网页URL和网页源代码;提取装置,用于利用网页源代码判断网页是否改变,在网页没改变的情况下,对网页URL进行特征提取,得到特征向量文件;识别装置,用于将特征向量文件输入Stacking集成分类器模型,得到待识别网页的识别结果。其中,采集装置通过如下方式采集待测样本数据:采集装置,具体用于对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对URL对应网页所处的网站网页进行爬取。其中,提取装置通过如下方式利用网页源代码判断网页是否改变:提取装置,具体用于对网页源代码进行MD5加密,获得校验值,通过校验值判断网页是否改变。其中,提取装置通过如下方式对网页URL进行特征提取:提取装置,具体用于对网页URL中部分特征通过BeautifulSoup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对网页URL中另一部分特征使用正则表达式对网页文本进行提取。其中,系统还包括:输出装置,用于通过前端的网页分析识别报告页面输出待识别网页的识别结果;和/或通过浏览器插件告警输出待识别网页的识别结果。由此可见,通过本专利技术提供的基于Stacking的恶意网页集成识别方法及系统,附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的基于Stacking的恶意网页集成识别系统的架构示意图;图2为本专利技术实施例提供的基于Stacking的恶意网页集成识别方法的流程图;图3为本专利技术实施例提供Stacking集成示意图;图4为本专利技术实施例提供的本专利技术实施例提供的基于Stacking的恶意网页集成识别系统中恶意网页分析识别系统的结构示意图;图5为本专利技术实施例提供的基于Stacking的恶意网页集成识别方法的一种具体流程图;图6为本专利技术实施例提供的基于Stacking的恶意网页集成识别系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供的基于Stacking的恶意网页集成识别方法可以建立于基于Stacking的恶意网页集成识别系统的基础上实现,该本专利技术实施例提供的基于Stacking的恶意网页集成识别系统的架构可以参见图1,本专利技术实施例基于Stacking的恶意网页集成识别系统在具体实现时,可以采用B/S架构,浏览器前端包括用于实时检测的浏览器插件和用于上传检测的Web系统页面;服务端包括Web服务器、本地文档存储和Mysql数据库。其中Web服务器中有系统后台,检测引擎和Web日志;数据库中存储传入网页的URL、特征标签、校验值和分类结果;本地文档存储就是将恶意网页源代码持久化存储于本地,用于以后对识别模型的优化。图2示出了本专利技术实施例提供的基于Stacking的恶意网页集成识别方法的流程图,参见图2,本专利技术实施例提供的基于Stacking的恶意网页集成识别方法,包括:S1,获取训练样本数据;S2,使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;S3,对训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型。具体地,本专利技术通过对网页特征进行提取和分本文档来自技高网...

【技术保护点】
1.一种基于Stacking的恶意网页集成识别方法,其特征在于,包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对所述训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,所述待测样本数据包括:待识别网页的网页URL和网页源代码;利用所述网页源代码判断网页是否改变,在网页没改变的情况下,对所述网页URL进行特征提取,得到特征向量文件;将所述特征向量文件输入所述Stacking集成分类器模型,得到所述待识别网页的识别结果。

【技术特征摘要】
1.一种基于Stacking的恶意网页集成识别方法,其特征在于,包括:获取训练样本数据;使用K近邻算法、逻辑回归算法和决策树算法建立初级分类器,使用SVM算法建立次级元分类器;对所述训练样本数据利用十折交叉验证法对训练模型进行训练和验证,得到Stacking集成分类器模型;采集待测样本数据,其中,所述待测样本数据包括:待识别网页的网页URL和网页源代码;利用所述网页源代码判断网页是否改变,在网页没改变的情况下,对所述网页URL进行特征提取,得到特征向量文件;将所述特征向量文件输入所述Stacking集成分类器模型,得到所述待识别网页的识别结果。2.根据权利要求1所述的方法,其特征在于,所述采集待测样本数据包括:对单一网页进行爬取;获取URL列表,对文件名后缀进行判断,如果格式正确,调用所述URL列表中的所有URL,对每个URL对应的网页内容进行爬取;和/或获取URL,判断URL是否合法,如果合法,对所述URL对应网页所处的网站网页进行爬取。3.根据权利要求1所述的方法,其特征在于,所述利用所述网页源代码判断网页是否改变包括:对网页源代码进行MD5加密,获得校验值,通过所述校验值判断网页是否改变。4.根据权利要求1所述的方法,其特征在于,所述对所述网页URL进行特征提取包括:对所述网页URL中部分特征通过BeautifulSoup4库的HTMLParser解析器脚本对源代码按HTML标签进行解析,定位到标签属性值进行特征提取;对所述网页URL中另一部分特征使用正则表达式对网页文本进行提取。5.根据权利要求1所述的方法,其特征在于,还包括:通过前端的网页分析识别报告页面输出所述待识别网页的识别结果;和/或通过浏览器插件告警输出所述待识别网页的识别结果。6.一种基于Stacking的恶意网页集成识别系统,其特征在于,包括:获取装置,用于获取训练样本数据;建立...

【专利技术属性】
技术研发人员:任俊玲朴杨鹤然
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1