一种基于分类信心和网站特征的钓鱼检测方法技术

技术编号:16589815 阅读:32 留言:0更新日期:2017-11-18 18:08
本发明专利技术公开了一种基于分类信心和网站特征的钓鱼检测方法,该方法包括:获取用户提供的URL地址,提取URL地址的特征;利用URL地址访问网页,获取网页的特征;采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;利用分类器及分类器返回来的分类信心检测钓鱼网站。该方法实现提高检测准确性。

A phishing detection method based on classification confidence and website features

The invention discloses a phishing detection method of classification confidence and website based on feature, the method includes: obtaining the URL address provided by the user, using the feature extraction of URL address; URL address access to web pages, web access feature by feature; and web Adaboost algorithm on the URL address of the trained classifier is trained; the classifier and classifier returns to the classification confidence detection of phishing sites. This method can improve the detection accuracy.

【技术实现步骤摘要】
一种基于分类信心和网站特征的钓鱼检测方法
本专利技术涉及网络钓鱼
,特别是涉及一种基于分类信心和网站特征的钓鱼检测方法。
技术介绍
网络钓鱼是一种刑事欺诈过程,假冒网站通过冒充一个知名品牌以获取用户的信赖,进而骗取用户的隐私信息,如用户名、密码等,然后用于访问个人账户,盗取财产。近年来,网络钓鱼攻击在数量和复杂程度上都出现了惊人的增长。尽管有许多工具可以用来防御网络钓鱼攻击,但是网络钓鱼诈骗还是不断增长而且破坏性也越来越大。据国际反钓鱼工作组(APWG)2016全球网络钓鱼调查报告显示,仅第4季度攻击总量就达到了1220523起,直接经济损失超千亿美元。而在2011年,全球网络钓鱼攻击只有112472起。5年间,网络钓鱼攻击的数量和破坏性呈急剧增长之势。在我国,网络钓鱼犯罪日趋严重。据国家计算机网络应急技术处理协调中心发布的网络安全工作报告显示,目前约有70%的连网装置曾遭受网络钓鱼攻击。中国的网络诈骗犯罪中高达60%为恶意网站攻击。2016年钱盾安全报告显示,由网络攻击所产生的资金损失中,有近85%是因钓鱼网址泄露支付信息造成的,打击网络钓鱼已刻不容缓。而据APWG组织调查,钓鱼网站平均寿命只有8小时42分钟,所以基于传统的URL黑名单技术已经被证明是低效且不安全的,准确性较低。
技术实现思路
本专利技术的目的是提供一种基于分类信心和网站特征的钓鱼检测方法,以实现提高检测准确性。为解决上述技术问题,本专利技术提供一种基于分类信心和网站特征的钓鱼检测方法,该方法包括:获取用户提供的URL地址,提取URL地址的特征;利用URL地址访问网页,获取网页的特征;采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;利用分类器及分类器返回来的分类信心检测钓鱼网站。优选的,所述URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。优选的,所述网页的特征包括:内链数目、外链数目、网页内的链接指向外站后再由外站回指的链接数、网页内的链接指向内站后再由内站回指的链接数、登录窗口。优选的,所述Adaboost算法分为两层,第一层是AdaBoost主算法、第二层是分类算法。优选的,所述Adaboost算法的步骤包括:赋予训练集的样本相同的权重,构成一个权重向量D;调用分类算法训练出一个分类器,计算准确率ε;迭代再训练所述分类器,并调整权值α;根据调整后的权值更新权值向量D,在计算出权值向量D之后,Adaboost算法进入下一轮迭代。优选的,调整权值α的公式如下:优选的,所述利用分类器及分类器返回来的分类信心检测钓鱼网站,包括:获取分类器对钓鱼网站检测结果的预测概率值,将预测概率值作为分类器的分类信心;若分类信心大于或等于预设值t,保留钓鱼网站检测结果。优选的,根据调整后的权值更新权值向量D的过程中,对于正确分类的样本,权值向量D更新为:其中,Di+1为更新后的权值向量,为需要进行更新的原权值向量,sum(D)为权值向量总和。优选的,对于错误分类的样本,权值更新为:其中,Di+1为更新后的权值向量,为需要进行更新的原权值向量,sum(D)为权值向量总和。优选的,所述可疑符号包括:‘@’,‘-’和‘~’;敏感词汇包括:'secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit'和'update'。优选的,所述相似知名网站的计算方法包括:提取URL地址中的网站品牌名;通过计算网站品牌名与知名网站品牌名之间的编辑距离来判断是否为相似知名品牌。本专利技术所提供的一种基于分类信心和网站特征的钓鱼检测方法,获取用户提供的URL地址,提取URL地址的特征;利用URL地址访问网页,获取网页的特征;采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;利用分类器及分类器返回来的分类信心检测钓鱼网站。可见,构建了网址和网页两方面特征,能够兼顾检测准确率和检测速度,采用Adaboost算法训练全部特征,不断提高检测钓鱼网站的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术所提供的一种基于分类信心和网站特征的钓鱼检测方法的流程图;图2为网页内外链接实现的逻辑图;图3为判断Backlinks和Ownlinks的逻辑图;图4为Backlinks和Ownlinks的多线程计算流程图;图5为钓鱼网站检测系统界面示意图;图6为分类信心分布图;图7为阈值t对准确率的影响示意图。具体实施方式本专利技术的核心是提供一种基于分类信心和网站特征的钓鱼检测方法,以实现提高检测准确性。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术所提供的一种基于分类信心和网站特征的钓鱼检测方法的流程图,该方法包括:S11:获取用户提供的URL地址,提取URL地址的特征;S12:利用URL地址访问网页,获取网页的特征;S13:采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;S14:利用分类器及分类器返回来的分类信心检测钓鱼网站。可见,该方法构建了网址和网页两方面特征,能够兼顾检测准确率和检测速度,采用Adaboost算法训练全部特征,不断提高检测钓鱼网站的准确度。基于上述方法,具体的,URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。相似知名网站就是相似知名品牌其中,可疑符号包括:‘@’,‘-’和‘~’;敏感词汇包括:'secure','account','webscr','login','ebayisapi','signin','banking','confirm','submit'和'update'。不正常的顶级域名包括不在常用顶级域名列表内的顶级域名。本文构建两方面的特征,首先获取用户提供的URL并提取URL相关特征,进而访问网页以获得该网页的特征。构建的特征可直接训练分类模型用于判断钓鱼网站,分类模型为分类器。对于IP地址,钓鱼网站的主域名经常只有IP地址,如:http://62.141.45.54/portaleTitolaris8/。由正则匹配,可以判断网站的主域名是否为IP地址。如果是则IP地址这个特征为1,否则为0。对于可疑符号,可疑符号包括:‘@’,‘-’,‘~’。如果‘@’符号出现在URL中,当浏览器解析网址时,会忽略‘@’符号右边的所有字符串。对于主域名中‘.’的个数,正常网址的主域名比较短,其中‘.’的个数一般不超过3个,例如:www.baidu.com等。对于敏感词汇,本文档来自技高网
...
一种基于分类信心和网站特征的钓鱼检测方法

【技术保护点】
一种基于分类信心和网站特征的钓鱼检测方法,其特征在于,包括:获取用户提供的URL地址,提取URL地址的特征;利用URL地址访问网页,获取网页的特征;采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;利用分类器及分类器返回来的分类信心检测钓鱼网站。

【技术特征摘要】
1.一种基于分类信心和网站特征的钓鱼检测方法,其特征在于,包括:获取用户提供的URL地址,提取URL地址的特征;利用URL地址访问网页,获取网页的特征;采用Adaboost算法对URL地址的特征和网页的特征进行训练,训练得到分类器;利用分类器及分类器返回来的分类信心检测钓鱼网站。2.如权利要求1所述的方法,其特征在于,所述URL地址的特征包括IP地址、可疑符号、主域名中‘.’的个数、敏感词汇、不正常的顶级域名和相似知名网站。3.如权利要求1所述的方法,其特征在于,所述网页的特征包括:内链数目、外链数目、网页内的链接指向外站后再由外站回指的链接数、网页内的链接指向内站后再由内站回指的链接数、登录窗口。4.如权利要求1所述的方法,其特征在于,所述Adaboost算法分为两层,第一层是AdaBoost主算法、第二层是分类算法。5.如权利要求4所述的方法,其特征在于,所述Adaboost算法的步骤包括:赋予训练集的样本相同的权重,构成一个权重向量D;调用分类算法训练出一个分类器,计算准确率ε;迭代再训练所述分类器,并调整权值α;根据调整后的权值更新权值向量D,在计算出权值向量D之后,Adaboost算法进入下一轮迭代。6.如权利要求5所述的方法,其特征在于,调整权值α的公式如下:7.如...

【专利技术属性】
技术研发人员:刘文印黎宇坤陈旭袁华平杨振国
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1