当前位置: 首页 > 专利查询>浙江大学专利>正文

混合钓鱼网站检测方法及装置、电子设备、存储介质制造方法及图纸

技术编号:32349346 阅读:10 留言:0更新日期:2022-02-20 02:13
本发明专利技术公开了一种混合钓鱼网站检测方法及装置、电子设备、存储介质,涉及Web和机器学习领域,包括以下步骤:构建受保护品牌网站数据库;接收待检测的目标网站;根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。本发明专利技术能够高效地识别出钓鱼网站,保证了实时性和应用性。实时性和应用性。实时性和应用性。

【技术实现步骤摘要】
混合钓鱼网站检测方法及装置、电子设备、存储介质


[0001]本申请涉及网络防御
,尤其涉及一种混合钓鱼网站检测方法及装置、电子设备、存储介质。

技术介绍

[0002]“钓鱼网站”是随着网络普及和在线交易增加而变得异常猖獗的网络诈骗行为。通常与银行网站或其他知名网站几乎完全相同,从而引诱用户提交敏感信息。钓鱼者通过窃取到的个人信息,可仿冒受害者进行欺诈金融交易,甚至利用个人信息进行其他非法活动。所以想要避免产生更多的损失,保护用户安全上网、净化网络空间,就必须研究更加高效、可靠的钓鱼网站检测技术。
[0003]目前检测钓鱼网站的方法基本上分为3类:基于规则的检测方法、基于网站特征的检测方法和基于视觉相似度的检测方法。基于规则的检测方法主要是利用钓鱼网站与品牌网站在域名或其他特征之间的差异,预先设计好检查规则,从而判断是否是钓鱼网站。基于网站特征的检测方法,侧重分析和挖掘钓鱼网站和非钓鱼网站在URL链接、HTML代码、Whois数据、DNS记录等信息上的差异,基于这些差异检测出钓鱼网站。基于视觉相似度的检测方法,将网页布局特征,网页标志图像、网页截图等数据作为依据,通过相似度比较算法,识别目标网页在这些数据方面是否与品牌网页相似,若相似则判断目标是钓鱼网页。
[0004]在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:基于规则的检测方法拓展性差,钓鱼网站很容易绕过既定规则,难以检测新上线的钓鱼网站;基于网站特征的检测方法依赖训练的数据集,准确率不高,易将非钓鱼网站判断为钓鱼网站,且大多不能解释钓鱼网站仿冒的品牌;基于视觉相似度的检测方法,因为钓鱼网站数量远远少于非钓鱼网站,现有相似度检测方法难以在海量网站中准确检测出少量的钓鱼网站,存在识别不准确情况。

技术实现思路

[0005]本申请实施例的目的是提供一种混合钓鱼网站检测方法及装置、电子设备、存储介质,解决相关技术中存在的钓鱼网站检测拓展性差、准确率不高、识别不准确的问题。
[0006]根据本申请实施例的第一方面,提供一种混合钓鱼网站检测方法,其特征在于,包括:构建受保护品牌网站数据库;接收待检测的目标网站;根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;
根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
[0007]进一步地,根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标,包括:根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标;从所述全局数据中提取网页特征信息、品牌信息特征。
[0008]进一步地,在根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标之后、从所述全局数据中提取网页特征信息、品牌信息特征之前,还包括:过滤掉包含在受保护品牌网站数据库中的目标网站。
[0009]进一步地,根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果,包括:利用训练好的特征分类模型对目标网站的网页特征信息进行检测分类;结合检测分类结果和目标网站的品牌信息特征加权判断,得到最终的分类结果。
[0010]进一步地,训练好的特征分类模型的训练过程如下:收集钓鱼网站、非钓鱼网站特征数据,得到训练集、验证集、测试集;利用所述训练集、验证集,训练、优化多个机器学习分类模型;将所述多个机器学习分类模型组成特征分类模型,并利用所述机器学习分类模型分别对测试集进行预测;将每个机器学习分类模型的预测结果进行汇总,以少数服从多数原则进行投票,将投票结果作为特征分类模型的预测结果。
[0011]进一步地,利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌,包括:利用训练好的图片相似度匹配模型,将目标网站icon图标与品牌网站icon图标进行相似度匹配,识别出目标网站icon图标所属的目标品牌。
[0012]进一步地,训练好的图片相似度匹配模型的训练过程如下:收集不同网站的icon图标数据,对所述icon图标数据进行扩增,得到训练集、测试集;利用所述训练集、测试集,训练、优化并得到图片相似度匹配模型。
[0013]根据本申请实施例的第二方面,提供一种混合钓鱼网站检测装置,包括:构建模块,用于构建受保护品牌网站数据库;接收模块,用于接收待检测的目标网站;获得模块,用于根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;分类模块,用于根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;识别模块,用于利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;结果输出模块,用于根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。
[0014]根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
[0015]根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如第一方面所述方法的步骤。
[0016]本申请的实施例提供的技术方案可以包括以下有益效果:由上述实施例可知,本申请因为采用特征分类模型和品牌信息特征相结合检测钓鱼网站的技术,利用了品牌信息特征识别度高的特点,所以克服了传统基于网站特征检测方法准确率不高、不能解释钓鱼网站仿冒品牌的问题,进而达到了特征分类模型准确分类出钓鱼网站并解释其仿冒品牌的效果;因为采用图片相似度模型识别网站icon图标的技术,基于高准确率的图片相似度模型和品牌网站icon图标的唯一性,所以克服了传统基于视觉相似度的检测方法识别不准确的问题,进而实现了基于网站icon图标迅速准确识别icon所属品牌、并通过icon解释钓鱼网站仿冒品牌的效果;因为采用构建受保护品牌网站数据库的技术,可以很方便地在数据库中添加新的品牌网站,并检测仿冒这些品牌的钓鱼网站,所以克服了基于规则的检测方法拓展性差的问题,进而达到了动态拓展受保护品牌、自适应检测不同品牌钓鱼网站的效果。
[0017]因为采用目标网站分类结果和目标网站icon品牌识别结果综合判断最终结果的技术,所以克服了单一检测方法覆盖面局限、结果置信度偏低的问题,进而扩大了钓鱼网站的检测覆盖面,提高了本申请最终结果的置信度。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0019]图1是根据一示例性实施例示出的一种混合钓鱼网站检测方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种混合钓鱼网站检测方法,其特征在于,包括:构建受保护品牌网站数据库;接收待检测的目标网站;根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标;根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果;利用训练好的图片相似度匹配模型,对所述icon图标进行识别,得到所述icon图标所属的目标品牌;根据所述分类结果和所述icon图标所属的目标品牌,得到最终检测结果。2.根据权利要求1所述的方法,其特征在于,根据所述目标网站,得到网页特征信息、品牌信息特征和icon图标,包括:根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标;从所述全局数据中提取网页特征信息、品牌信息特征。3.根据权利要求2所述的方法,其特征在于,在根据所述目标网站的URL,访问并收集该网站的全局数据、icon图标之后、从所述全局数据中提取网页特征信息、品牌信息特征之前,还包括:过滤掉包含在受保护品牌网站数据库中的目标网站。4.根据权利要求1所述的方法,其特征在于,根据网页特征信息和品牌信息特征,利用训练好的特征分类模型,对待检测的目标网站进行分类,得到分类结果,包括:利用训练好的特征分类模型对目标网站的网页特征信息进行检测分类;结合检测分类结果和目标网站的品牌信息特征加权判断,得到最终的分类结果。5.根据权利要求1所述的方法,其特征在于,训练好的特征分类模型的训练过程如下:收集钓鱼网站、非钓鱼网站特征数据,得到训练集、验证集、测试集;利用所述训练集、验证集,训练、优化多个机器学习分类模型;将所述多个机器学习分类模型组成特征分类模型,并利用所述机器学习分类模型分别对测试集进行预测;将每个机器学习分类模型的预测结果进行汇总,以少...

【专利技术属性】
技术研发人员:张帆周童熊佳明
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1