【技术实现步骤摘要】
钓鱼网页检测方法、装置、设备及存储介质
[0001]本公开实施例涉及计算机
,尤其涉及一种钓鱼网页检测方法、装置、设备及存储介质。
技术介绍
[0002]网站钓鱼是指攻击者通过欺骗手段窃取个人敏感信息的方式,个人敏感信息例如用于身份认证的口令、密码等。在最典型的网络钓鱼攻击中,攻击者预先建立与知名网站近似的虚拟网站,即钓鱼网站,使用欺骗性的电子邮件或者指向在线站点的链接,诱导受害者访问钓鱼网页,受害者容易误判钓鱼网页为真实网页并在钓鱼网页上提供个人敏感信息。因此,反钓鱼攻击的解决方案需要精准检测出钓鱼网页并识别出钓鱼网页所仿冒的真实网页。
[0003]相关技术中,基于网页的统一资源定位系统(uniform resource locator,URL)地址和页面快照,检测出属于钓鱼网页并识别出钓鱼网页所仿冒的真实网页。该模型深度依赖于对网页标识的检测和识别,钓鱼结果的认定也较为粗糙,如果网页包含多个品牌的标识,或者攻击者采取对抗性技术对网页标识进行修改,则该模型的网页标识的识别率将显著降低。
[0004]因 ...
【技术保护点】
【技术特征摘要】
1.一种钓鱼网页检测方法,其特征在于,包括:获取待检测网页的页面图像和页面描述文本;通过对象检测模型,对所述页面图像进行目标检测,得到对象检测结果,所述对象检测结果包括所述待检测网页中的待识别标识;通过标识识别模型和所述待识别标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度;通过文本分析模型和所述页面描述文本,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度;根据所述第一预测结果、所述第二预测结果、所述第一置信度和所述第二置信度,确定所述待检测网页的钓鱼网页检测结果,所述钓鱼网页检测结果包括所述待检测网页是否属于钓鱼网页。2.根据权利要求1所述的钓鱼网页检测方法,其特征在于,预先构建可信任网站集,所述可信任网站集包含可信任网站的图形标识,所述通过标识识别模型和所述图像标识,确定所述待检测网页是否属于钓鱼网页的第一预测结果和所述待检测网页属于钓鱼网页的第一置信度,包括:在所述标识识别模型中,将所述可信任网站集中的图形标识与所述待识别标识匹配,得到所述可信任网站集中的图形标识与所述待识别标识的相似度;根据所述可信任网站集中的图形标识与所述待识别标识的相似度,确定所述第一预测结果和所述第一置信度。3.根据权利要求2所述的钓鱼网页检测方法,其特征在于,所述可信任网站集还包含可信任网站的域名,所述根据所述可信任网站集中的图形标识与所述待识别标识的相似度,确定所述第一预测结果和所述第一置信度,包括:如果所述可信任网站集中存在至少一个图形标识与所述待识别标识的相似度大于第一阈值,则确定与所述待识别标识匹配成功的目标标识为所述可信任网站集中与所述待识别标识的相似度最大的图形标识;在所述目标标识所属的可信任网站的域名与所述待检测网页的域名不一致的情况下,确定所述第一预测结果为所述待检测网页属于钓鱼网页且所述第一置信度为所述待识别标识与所述图形标识的相似度。4.根据权利要求1至3中任一项所述的钓鱼网页检测方法,其特征在于,所述通过文本分析模型和所述待检测网页,确定所述待检测网页是否属于钓鱼网页的第二预测结果和所述待检测网页属于钓鱼网页的第二置信度,包括:从所述页面描述文本中提取出文本特征,其中,所述文本特征包括如下至少一种:链接数量、资源数量、登录表单、页面弹窗,所述链接数量包括如下至少一种:本地链接数量、外部链接数量、空链接数量,所述资源数量包括如下本地资源数量和/或外部资源数量;在所述文本分析模型中,基于所述文本特征对所述待检测网页是否属于钓鱼网页进行预测,得到所述第二预测结果和所述第二置信度。5.根据权利要求4所述的钓鱼网页检测方法,其特征在于,所述文本分析模型为堆叠模型,所述文本分析模型包含至少两级分类器,所述在所述文本分析模型中,基于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。