当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于多特征融合的钓鱼网站检测方法技术

技术编号:19390964 阅读:26 留言:0更新日期:2018-11-10 02:48
本发明专利技术公开了一种基于多特征融合的钓鱼网站检测方法,该方法能够实时检测互联网上的钓鱼网站。本发明专利技术首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量;然后利用Logistic回归(Logistic regression)对文本向量进行分类,构建Logistic回归特征,并与网页URL特征和HTML特征进行多特征融合;最后训练XGBoost(eXtreme gradient boosting)模型,对待测钓鱼网站进行分类预测。本发明专利技术在网站的URL基础上,从多个维度全方位提取多关键特征,采用Logistic回归特征融合方法,有效解决文本向量特征维度过高问题,比现有特征融合方法能大幅提高运行效率,而且XGBoost分类模型比传统分类模型,更能提高钓鱼网站检测准确率,减少钓鱼网站检测漏报率。

A method of phishing web site detection based on multi feature fusion

The invention discloses a method for detecting fishing websites based on multi-feature fusion, which can detect fishing websites on the Internet in real time. The method first extracts the URL features, HTML features and text vectors based on TF IDF according to the URL of the web page; then classifies the text vectors by using Logistic regression, constructs the Logistic regression features, and fuses them with the URL features and HTML features of the web page; finally trains XGBoost (eXtreme gradient). Boosting) model to classify and predict phishing sites. Based on the URL of the website, the invention extracts multi-key features from multiple dimensions in an all-round way, adopts the method of logistic regression feature fusion, effectively solves the problem of high feature dimension of text vector, greatly improves the operation efficiency compared with the existing feature fusion method, and XGBoost classification model can improve fishing better than the traditional classification model. Fish web site detection accuracy, reduce false detection rate of phishing sites.

【技术实现步骤摘要】
一种基于多特征融合的钓鱼网站检测方法
本专利技术涉及一种基于多特征融合的钓鱼网站检测方法,该方法从多个维度全方位提取钓鱼网站的特征,利用机器学习方法分类提高分类准确率,能实时检测互联网上的钓鱼网站,属于网络空间安全

技术介绍
近年来,随着互联网的飞速发展,互联网体系结构在安全方面所存在不足日渐显露,网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全,网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中,网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为,目前网络钓鱼呈逐年上升趋势。当前钓鱼网站的检测方法主要包括黑白名单过滤技术、启发式检测、相似性检测和基于机器学习的检测。其中,钓鱼黑名单过滤是应用最广的检测方法,被众多商业检测系统所使用,但是,采用黑名单方式检测钓鱼网站,存在较高的漏报率。基于启发式的方法虽可以实时检测出未被黑名单收录的钓鱼网站,并且具有一定的准确性,但是模型的自进化和自适应能力较差。相似性检测方法的效率较低,只适用于特定领域,同时很多钓鱼网站并未模仿某一类知名网站,导致特征库的提取存在困难。基于机器学习方法的URL检测技术是利用URL提取特征,并结合机器学习分类算法对网页进行分类,但当前基于机器学习的钓鱼检测方法,普遍存在训练效率低、特征维度过高和准确率不足等问题。针对当前日益增多的钓鱼网站问题和已有钓鱼检测方法训练效率较低、钓鱼鱼网站检出率较低的问题,本专利技术提出一种基于多特征融合的钓鱼网站检测方法,利用Logistic回归训练基于TF-IDF的网页文本特征,将训练结果作为最终的网页文本特征,与网页的URL特征和HTML特征进行融合,大大降低特征维度,并通过XGBoost算法对钓鱼网页进行分类,提高检测分类的准确率。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提供一种基于多特征融合的钓鱼网站检测方法,该方法能实时检测互联网的钓鱼网站,相比传统方法,不仅能够大幅度减少特征维度,减少训练时间和提高运行效率,而且能够有效改善传统钓鱼网站检测方法普遍存在的准确率不足问题。技术方案:一种基于多特征融合的钓鱼网站检测方法,该方法涵盖钓鱼网站检测的全过程。该方法主要包括特征提取、特征融合和分类预测等过程,能够从多个维度全方位提取钓鱼网站的特征,有效解决文本向量特征维度过高的问题,并且将XGBoost分类模型拓展应用于钓鱼网站检测,提高检测准确率和减少检测漏报率。该方法主要包括三个步骤,具体如下:步骤1,积累样本数据集。首先从PhishTank官网(PhishTank.com)搜集钓鱼网站,并从开放式网站分类目录DMOZ(dmoztools.net)搜集正常网站的样本URL,去掉其中不可访问URL和重复URL等无效URL。步骤2,多特征分类模型训练。对数据集中每一个有效的URL,首先提取URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic回归特征融合向量矩阵,最后训练XGBoost分类器。步骤3,对待测网站进行分类预测。对于待测网站,首先提取该网站主页的URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。有益效果:1.该方法采用基于Logistic回归的多特征融合方法,能够有效改善现有特征融合方法因为维度过高而导致的训练时间长、准确率低等问题。2.该方法将XGBoost分类模型拓展应用于钓鱼网站检测,与传统分类模型相比,分类检测结果具有更高的准确率、精确率和召回率。附图说明图1为本专利技术算法流程图,图中本专利技术从训练到预测的全过程。图2为基于Logistic回归的多特征融合方法流程图,包括特征提取、特征融合和分类预测。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本方法具体实施步骤如下:步骤1,积累样本数据集。本专利技术首先从PhishTank(PhishTank.com)提供的黑名单中收集20000条有效钓鱼URL,并且从开放式网站分类目录DMOZ(dmoztools.net)中下载获取20000条有效正常URL,它们共同构成URL样本数据集D。由于钓鱼网站一般选择银行、游戏和电子商务类网站作为钓鱼目标,因此本专利技术需要从DMOZ收集20000条有效的正常网站URL,并保证银行、游戏和电子商务类网站的占比较大。步骤2,多特征分类模型训练。对搜集的数据集D中的每个样本URLurlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器。该步骤实施过程分为6个子步骤:子步骤2-1,提取每一个urlx的URL特征FURL。针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度等,如表1所示。其中,本专利技术设置的敏感词汇包括:account、admin、administrator、auth、bank、client、confirm、email、host、password、pay、private、safe、secure、security、sign、user、validation、verification。表1URL特征子步骤2-2,爬取每一个urlx对应的网页源码。利用当前的URL爬取网页源码,由于很多网站都属于动态网站(如基于Ajax技术实现的网站),网页爬取的HTML源码和网页文本与从浏览器看到的内容差异较大,所以本专利技术基于selenium和PhantomJS爬取网页源码。子步骤2-3,提取每一个urlx的HTML特征FHTML。根据爬取到的网页源码提取HTML特征,记为FHTML,主要包括从HTML和JavaScript中提取的特征,如html总长度和div、embed、iframe、applet等标签数量,以及JavaScript中的get、post、pop等方法数量和html外链占比等。外链表示网页html中指向其它域名的链接,由于很多钓鱼网站直接仿照正常网站,导致钓鱼网站的文本、图片和视频链接直接指向正常网站,因此钓鱼网站外链比例一般较高,因此html中外链占比是一个重要指标。本专利技术使用如公式(1)所示的外链接与链接总数的比例来定义html中外链占比:其中:CountexternalLinks是外链数量,Count是链接总数。本专利技术提取了24个HTML特征,如表2所示。表2HTML特征子步骤2-4,提取每一个urlx的文本向量FTFIDF。根据网页源码生成对应的网页文本,先通过去掉HTML源码中多余的标签提取出网页的有效文本,再根据TF-IDF方法提取TF-IDF特征,记为FTFIDF。主要思想是,对于一个文本,如果一个单词出现频率越高,而在其它文本中出现频率越低,则该单词对该文本就越重要。TF-IDF的计算公式如下:TF-IDF(i,Wj)本文档来自技高网
...

【技术保护点】
1.一种基于多特征融合的钓鱼网站检测方法,其特征在于,包括如下步骤:步骤1,积累样本数据集;首先从PhishTank官网搜集钓鱼网站,并从开放式网站分类目录DMOZ搜集正常网站的样本URL,去掉无效URL;步骤2,多特征分类模型训练;对数据集中每一个有效的URL,首先提取URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic回归特征融合向量矩阵,最后训练XGBoost分类器;步骤3,对待测网站进行分类预测;对于待测网站,首先提取该网站主页的URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。

【技术特征摘要】
1.一种基于多特征融合的钓鱼网站检测方法,其特征在于,包括如下步骤:步骤1,积累样本数据集;首先从PhishTank官网搜集钓鱼网站,并从开放式网站分类目录DMOZ搜集正常网站的样本URL,去掉无效URL;步骤2,多特征分类模型训练;对数据集中每一个有效的URL,首先提取URL特征,然后爬取网页源码,接着抽取HTML特征和文本特征,构建Logistic回归特征融合向量矩阵,最后训练XGBoost分类器;步骤3,对待测网站进行分类预测;对于待测网站,首先提取该网站主页的URL特征、HTML特征和文本特征,接着构建Logistic回归融合特征F,最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。2.如权利要求1所述的基于多特征融合的钓鱼网站检测方法,其特征在于,步骤2中,对搜集的数据集中的每个样本URLurlx,提取urlx的URL特征、HTML特征和文本特征,构建Logistic回归特征融合矩阵,并训练XGBoost分类器;该步骤实施过程分为6个子步骤:子步骤2-1,提取每一个urlx的URL特征FURL;针对URL以及域名信息,抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接,以及URL总长度、URL中最长数字串长度;子步骤2-2,爬取每一个urlx对应的网页源码;利用当前的URL基于selenium和PhantomJS爬取网页源码。子步骤2-3,提取每一个urlx的HTML特征FHTML;根据爬取到的网页源码提取HTML特征,记为FHTML,包括从HTML和JavaScript中提取的:html总长度和div、embed、iframe、applet标签数量,以及JavaScript中的get、post、pop等方法数量和html外链占比特...

【专利技术属性】
技术研发人员:杨鹏曾朋李幼平张长江郑斌
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1