一种基于多特征融合的钓鱼网站检测方法技术

技术编号：19390964 阅读：26 留言：0更新日期：2018-11-10 02:48

本发明专利技术公开了一种基于多特征融合的钓鱼网站检测方法，该方法能够实时检测互联网上的钓鱼网站。本发明专利技术首先根据网页的URL提取URL特征、HTML特征和基于TF‑IDF的文本向量；然后利用Logistic回归(Logistic regression)对文本向量进行分类，构建Logistic回归特征，并与网页URL特征和HTML特征进行多特征融合；最后训练XGBoost(eXtreme gradient boosting)模型，对待测钓鱼网站进行分类预测。本发明专利技术在网站的URL基础上，从多个维度全方位提取多关键特征，采用Logistic回归特征融合方法，有效解决文本向量特征维度过高问题，比现有特征融合方法能大幅提高运行效率，而且XGBoost分类模型比传统分类模型，更能提高钓鱼网站检测准确率，减少钓鱼网站检测漏报率。

A method of phishing web site detection based on multi feature fusion

The invention discloses a method for detecting fishing websites based on multi-feature fusion, which can detect fishing websites on the Internet in real time. The method first extracts the URL features, HTML features and text vectors based on TF IDF according to the URL of the web page; then classifies the text vectors by using Logistic regression, constructs the Logistic regression features, and fuses them with the URL features and HTML features of the web page; finally trains XGBoost (eXtreme gradient). Boosting) model to classify and predict phishing sites. Based on the URL of the website, the invention extracts multi-key features from multiple dimensions in an all-round way, adopts the method of logistic regression feature fusion, effectively solves the problem of high feature dimension of text vector, greatly improves the operation efficiency compared with the existing feature fusion method, and XGBoost classification model can improve fishing better than the traditional classification model. Fish web site detection accuracy, reduce false detection rate of phishing sites.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多特征融合的钓鱼网站检测方法
本专利技术涉及一种基于多特征融合的钓鱼网站检测方法，该方法从多个维度全方位提取钓鱼网站的特征，利用机器学习方法分类提高分类准确率，能实时检测互联网上的钓鱼网站，属于网络空间安全

技术介绍
近年来，随着互联网的飞速发展，互联网体系结构在安全方面所存在不足日渐显露，网络钓鱼、网络犯罪、隐私泄露等各类安全问题越来越突出。没有网络安全就没有国家安全，网络空间安全已经成为世界各国必须共同面对和解决的难题。在各类网络安全问题中，网络钓鱼是一种通过社会工程学或其它复杂技术手段窃取网站用户个人信息的犯罪行为，目前网络钓鱼呈逐年上升趋势。当前钓鱼网站的检测方法主要包括黑白名单过滤技术、启发式检测、相似性检测和基于机器学习的检测。其中，钓鱼黑名单过滤是应用最广的检测方法，被众多商业检测系统所使用，但是，采用黑名单方式检测钓鱼网站，存在较高的漏报率。基于启发式的方法虽可以实时检测出未被黑名单收录的钓鱼网站，并且具有一定的准确性，但是模型的自进化和自适应能力较差。相似性检测方法的效率较低，只适用于特定领域，同时很多钓鱼网站并未模仿某一类知名网站，导致特征库的提取存在困难。基于机器学习方法的URL检测技术是利用URL提取特征，并结合机器学习分类算法对网页进行分类，但当前基于机器学习的钓鱼检测方法，普遍存在训练效率低、特征维度过高和准确率不足等问题。针对当前日益增多的钓鱼网站问题和已有钓鱼检测方法训练效率较低、钓鱼鱼网站检出率较低的问题，本专利技术提出一种基于多特征融合的钓鱼网站检测方法，利用Logistic回归训练基于TF-IDF的网...

【技术保护点】
1.一种基于多特征融合的钓鱼网站检测方法，其特征在于，包括如下步骤：步骤1，积累样本数据集；首先从PhishTank官网搜集钓鱼网站，并从开放式网站分类目录DMOZ搜集正常网站的样本URL，去掉无效URL；步骤2，多特征分类模型训练；对数据集中每一个有效的URL，首先提取URL特征，然后爬取网页源码，接着抽取HTML特征和文本特征，构建Logistic回归特征融合向量矩阵，最后训练XGBoost分类器；步骤3，对待测网站进行分类预测；对于待测网站，首先提取该网站主页的URL特征、HTML特征和文本特征，接着构建Logistic回归融合特征F，最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。

【技术特征摘要】
1.一种基于多特征融合的钓鱼网站检测方法，其特征在于，包括如下步骤：步骤1，积累样本数据集；首先从PhishTank官网搜集钓鱼网站，并从开放式网站分类目录DMOZ搜集正常网站的样本URL，去掉无效URL；步骤2，多特征分类模型训练；对数据集中每一个有效的URL，首先提取URL特征，然后爬取网页源码，接着抽取HTML特征和文本特征，构建Logistic回归特征融合向量矩阵，最后训练XGBoost分类器；步骤3，对待测网站进行分类预测；对于待测网站，首先提取该网站主页的URL特征、HTML特征和文本特征，接着构建Logistic回归融合特征F，最后利用训练好的XGBoost分类器检测待测网站是否为钓鱼网站。2.如权利要求1所述的基于多特征融合的钓鱼网站检测方法，其特征在于，步骤2中，对搜集的数据集中的每个样本URLurlx，提取urlx的URL特征、HTML特征和文本特征，构建Logistic回归特征融合矩阵，并训练XGBoost分类器；该步骤实施过程分为6个子步骤：子步骤2-1,提取每一个urlx的URL特征FURL；针对URL以及域名信息，抽取URL相关特征FURL主要包括URL中是否有IP地址、是否有可疑字符、是否有敏感词汇、是否是https链接，以及URL总长度、URL中最长数字串长度；子步骤2-2，爬取每一个urlx对应的网页源码；利用当前的URL基于selenium和PhantomJS爬取网页源码。子步骤2-3，提取每一个urlx的HTML特征FHTML；根据爬取到的网页源码提取HTML特征，记为FHTML，包括从HTML和JavaScript中提取的：html总长度和div、embed、iframe、applet标签数量，以及JavaScript中的get、post、pop等方法数量和html外链占比特...

【专利技术属性】
技术研发人员：杨鹏，曾朋，李幼平，张长江，郑斌，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人