一种钓鱼网站检测方法、系统、设备及介质技术方案

技术编号:38501104 阅读:18 留言:0更新日期:2023-08-15 17:08
本发明专利技术公开了一种钓鱼网站检测方法、系统、设备及介质,涉及计算机网络安全领域,所述方法,包括:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置、相似度进行测量和权重标注,得到各字符的位置相似度权重和视觉相似度权重;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到操作相似度权重;将白名单网站、目标网站的统一资源定位符转换为二值图片,得到白名单二值图片和目标二值图片,并将二值图片转换为一维向量;计算所两个向量的视觉距离;根据权重和视觉距离确定目标网站是否为钓鱼网站。本发明专利技术能实时、准确、稳定地实现钓鱼网站的检测。稳定地实现钓鱼网站的检测。稳定地实现钓鱼网站的检测。

【技术实现步骤摘要】
一种钓鱼网站检测方法、系统、设备及介质


[0001]本专利技术涉及计算机网络安全领域,特别是涉及一种钓鱼网站检测方法、系统、设备及介质。

技术介绍

[0002]随着互联网技术的蓬勃发展,网络安全问题层出不穷。违规网站是一种典型的在线欺诈行为,包括网络钓鱼、色情赌博、恶意软件传播等。其中,钓鱼网站以互联网为载体,通过伪装成信誉良好的合法网站欺骗用户以获得用户的敏感信息,被欺骗的用户会产生不同程度的个人信息泄漏,继而导致经济损失。如何快速准确的检测钓鱼网站的统一资源定位符(Uniform Resource Locator,URL)是网络安全研究热点。目前,现有的钓鱼网站检测技术主要包括:
[0003](1)基于黑白名单机制的检测技术:作为一种实用的核心技术,黑白名单具有高效准确的优点。通过对域名的判定,可以快速定位钓鱼网站,是最常用的实现技术之一。
[0004](2)基于贝叶斯算法的检测技术:金庆等人基于规则的贝叶斯算法,制定了一系列的匹配钓鱼网站的规则。随后为每个规则分配其相应的权值,计算其修正系数,得出被测网站是钓鱼网站的概率。进而可通过概率阈值判断其是否为钓鱼网站。
[0005](3)基于文档结构的检测技术:郭敏哲等人分析了Web网页文档对象,提取文本对象模型中的常被钓鱼者利用的网络钓鱼敏感信息特征,来判断该网站是否为钓鱼网站。该算法有效地滤除了网站中的网络钓鱼(Phishing)页面,强有力地制止了网络钓鱼者的恶意钩鱼攻击。
[0006](4)基于深度学习的钓鱼网站检测技术:许珑于结合深度学习的技术,提出了多层结构的DBN

KNN模型,将其运用到钓鱼网站的特征识别中,识别出钓鱼网站。
[0007]在上述现有的钓鱼网站检测技术中,基于黑白名单的检测方法不仅时效性较差,而且名单范围也存在不足,准确性低;基于贝叶斯算法的检测技术在稳定性和泛化性能上不是很理想;基于文档结构的检测技术存在特征覆盖不全面的问题,漏报较多,准确性差;基于深度学习的钓鱼网站检测技术在特征识别上有优势,但特征的稳定性较差,容易受到样本污染的干扰。因此,如何实时、准确、稳定地实现钓鱼网站检测成为目前亟待解决的问题。

技术实现思路

[0008]基于此,本专利技术实施例提供一种钓鱼网站检测方法、系统、设备及介质,以实时、准确、稳定地实现钓鱼网站的检测。
[0009]为实现上述目的,本专利技术实施例提供了如下方案:
[0010]一种钓鱼网站检测方法,包括:
[0011]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权
重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;
[0012]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;
[0013]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;
[0014]将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;
[0015]将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;
[0016]计算所述目标向量和所述白名单向量的视觉距离;
[0017]根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。
[0018]可选地,所述视觉距离的计算公式为:
[0019][0020]其中,M(v,u)表示目标向量和白名单向量的视觉距离;v表示目标向量;u表示白名单向量。
[0021]可选地,根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站,具体包括:
[0022]判断所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离是否存在处于相应的阈值范围的情况;
[0023]若是,则确定所述目标网站为钓鱼网站,否则,所述目标网站为正常网站。
[0024]可选地,所述字符串操作,包括:插入字符和删除字符。
[0025]可选地,所述白名单二值图片和所述目标二值图片的像素均为16*16或32*32。
[0026]本专利技术还提供了一种钓鱼网站检测系统,包括:
[0027]字符串视觉特征测量器,用于:
[0028]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;
[0029]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;
[0030]基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;
[0031]字符相似距离测量器,用于:
[0032]将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;
[0033]将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;
[0034]计算所述目标向量和所述白名单向量的视觉距离;
[0035]钓鱼网站检测器,用于:
[0036]根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。
[0037]本专利技术还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的钓鱼网站检测方法。
[0038]本专利技术还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的钓鱼网站检测方法。
[0039]根据本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种钓鱼网站检测方法,其特征在于,包括:基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的字符位置进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的位置相似度权重;其中,域名位置处的差异字符的位置相似度权重大于路径位置处的差异字符的相似度权重;所述差异字符为同一个字符位置处,目标网站与白名单网站的字符存在差异的字符;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串的相似度进行测量和权重标注,得到目标网站的统一资源定位符的字符串中各字符的视觉相似度权重;其中,对于目标网站与白名单网站中处于同一个字符位置处的字符,视觉错误程度越大的字符则视觉相似度权重越大;基于预先存储的白名单网站,对目标网站的统一资源定位符的字符串操作进行分类和权重标注,得到目标网站的统一资源定位符的字符串的操作相似度权重;其中,不同的字符串操作对应不同的操作相似度权重;将白名单网站的统一资源定位符转换为二值图片,得到白名单二值图片;将目标网站的统一资源定位符转换为二值图片,得到目标二值图片;将所述白名单二值图片转换为一维向量,得到白名单向量,将所述目标二值图片转换为一维向量,得到目标向量;计算所述目标向量和所述白名单向量的视觉距离;根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站。2.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,所述视觉距离的计算公式为:其中,M(v,u)表示目标向量和白名单向量的视觉距离;v表示目标向量;u表示白名单向量。3.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,根据所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离确定所述目标网站是否为钓鱼网站,具体包括:判断所述位置相似度权重、所述视觉相似度权重、所述操作相似度权重和所述视觉距离是否存在处于相应的阈值范围的情况;若是,则确定所述目标网站为钓鱼网站,否则,所述目标网站为正常网站。4.根据权利要求1所述的一种钓鱼网站检测方法,其特征在于,所...

【专利技术属性】
技术研发人员:薛晨任彦易立陆希玉窦禹郑礼雄王一宇杨昕雨叶瑞杰
申请(专利权)人:北京锐驰信安技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1