一种钓鱼链接检测方法及系统技术方案

技术编号:24215694 阅读:34 留言:0更新日期:2020-05-20 19:01
本申请实施例公开了一种钓鱼链接检测方法和系统,通过将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。可以精确检测出钓鱼链接。

A detection method and system of fishing links

【技术实现步骤摘要】
一种钓鱼链接检测方法及系统
本申请实施例涉及网络安全
,具体涉及一种钓鱼链接检测方法及系统。
技术介绍
所谓“钓鱼链接”是指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼链接一般通过电子邮件传播,此类邮件中一个经过伪装的链接将收件人联到钓鱼网站,钓鱼网站通常伪装成为银行网站,窃取访问者提交的账号和密码信息。为维护财产和网络安全,如何精准的检测出钓鱼链接,是亟待解决的问题。
技术实现思路
为此,本申请实施例提供一种钓鱼链接检测方法及系统,可以精确检测出钓鱼链接。为了实现上述目的,本申请实施例提供如下技术方案:根据本申请实施例的第一方面,本申请实施例提供了一种钓鱼链接检测方法,包括:将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类本文档来自技高网...

【技术保护点】
1.一种钓鱼链接检测方法,其特征在于,所述方法包括:/n将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;/n若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。/n

【技术特征摘要】
1.一种钓鱼链接检测方法,其特征在于,所述方法包括:
将待检测的统一资源定位符URL输入至钓鱼链接检测模型,根据所述钓鱼链接检测模型结果判断所述待检测的URL是否是钓鱼链接;其中,所述钓鱼链接检测模型是基于线性混合特征模型分类器对网页文本标签和网页提取特征进行训练生成,所述网页文本标签是所述网页提取特征基于极限学习机分类器生成,所述网页提取特征包括网页内容特征、URL基础特征和网页链接特征;
若结果为是,则判定所述待检测URL为钓鱼链接;若结果为非,则判定所述待检测URL为非钓鱼链接。


2.如权利要求1所述的方法,其特征在于,所述网页内容特征是基于训练数据集中的待检测网页提取的,具体提取步骤如下:
提取出待检测网页HTML源码中的Title标签或者Head标签或者Body标签;
去除网页HTML文本中的停用词;
使用词频-逆文档频率法TF-IDF计算网页HTML文本中的每个词的分数和分类数据矩阵。


3.如权利要求1所述的方法,其特征在于,所述URL基础特征是基于所述训练数据集中的URL地址或者HTML网页内容分析出的;
所述网页链接特征是基于所述训练数据集中的网页页面中的内部链接数量和外部链接数量判断的。


4.如权利要求1所述的方法,其特征在于,所述钓鱼链接检测模型是基于所述线性混合特征模型分类器对N个基础分类进行训练生成的,所述N个基础分类是根据所述网页文本标签和所述网页提取特征确定的,N为大于1的整数。


5.如权利要求1所述的方法,其特征在于,还包括:所述钓鱼链接检测模型使用如下公式进行检测:



其中,fj(xi)为第i个网页提取特征基于第j个极限学习机分类器生成的网页文本标签,vj为第j个极限学习机分类器的权重,i=0,1,2,…,N。


6.一种钓鱼链接检测系统,其特征在于,所述系统包括:
钓鱼链接...

【专利技术属性】
技术研发人员:魏海宇王炳来刘庆林何济中
申请(专利权)人:北京中睿天下信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1