钓鱼网页的检测方法和装置制造方法及图纸

技术编号:10445023 阅读:114 留言:0更新日期:2014-09-17 20:32
本发明专利技术公开了一种钓鱼网页的检测方法,包括:提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息;确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致;以及在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是仿冒目标网页的钓鱼网页。本发明专利技术实施例的方法避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。本发明专利技术还公开了一种钓鱼网页的检测装置。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种钓鱼网页的检测方法和装置
技术介绍
随着互联网技术的快速发展,互联网中的黑色利益链组织已经形成,且发展快速。随着杀毒技术的成熟,利用二进制木马病毒获利变得越来越难,黑色利益链组织开始将目标转向钓鱼网页进行欺诈,由于钓鱼网页的成本低、获益快、传播快、反钓鱼技术不完善等,使得各种钓鱼网页层出不穷。针对层出不穷的各种钓鱼网页,相关技术可采用以下两种方式进行防范:一种是网络保护产品,例如,网购保镖,账号保护产品等,这些网络保护产品给用户提供一个安全入口,使得用户从安全入口进行登录,但是这种方式存在的问题是,无法从根本上检测钓鱼网站,只能给特定网页起到保护作用。另一种是收集钓鱼网页形成钓鱼网页库,当用户访问某个网页时通过查询钓鱼网页库来判断用户访问的网页是否为钓鱼网页,但是这种方式存在的问题是,钓鱼网页的时效性很短,一般几个小时,有些甚至不到一个小时,很多情况下钓鱼网页还没入库就已经失效。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决上述的技术问题之一。为此,本专利技术的第一个目的在于提出一种钓鱼网页的检测方法。该方法可以避免钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。本专利技术的第二个目的在于提出一种钓鱼网页的检测装置。为了实现上述目的,本专利技术第一方面实施例的钓鱼网页的检测方法,包括:提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所述待检测网页的域名和所述目标网页的域名是否一致;以及在确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页是仿冒所述目标网页的钓鱼网页。本专利技术实施例的钓鱼网页的检测方法,可提取待检测网页的网页模板特征并获取其第一摘要信息,并在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致,当不一致时,确定待检测网页是仿冒目标网页的钓鱼网页,避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。为了实现上述目的,本专利技术第二方面实施例的钓鱼网页的检测装置,包括:获取模块,用于提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;第一确定模块,用于确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;第二确定模块,用于在所述第一确定模块确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所述待检测网页的域名和所述目标网页的域名是否一致;以及第三确定模块,用于所述第二确定模块确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页是仿冒所述目标网页的钓鱼网页。本专利技术实施例的钓鱼网页的检测装置,可通过获取模块提取待检测网页的网页模板特征并获取其第一摘要信息,第二确定模块在第一确定模块确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致,在不一致时,第三确定模块确定待检测网页是仿冒目标网页的钓鱼网页,避免了钓鱼网页的域名具有时效性特点的问题,提高了检测的准确度,并且能够从根本上检测钓鱼网站,从而提高了可行性和可用性。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图1是根据本专利技术一个实施例的钓鱼网页的检测方法的流程图;图2是根据本专利技术另一个实施例的钓鱼网页的检测方法的流程图;图3是根据本专利技术又一个实施例的钓鱼网页的检测方法的流程图;图4是根据本专利技术再一个实施例的钓鱼网页的检测方法的流程图;图5是根据本专利技术一个实施例的钓鱼网页的检测装置的结构示意图;图6是根据本专利技术另一个实施例的钓鱼网页的检测装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。下面参考附图描述根据本专利技术实施例的钓鱼网页的检测方法和装置。本专利技术提出了一种钓鱼网页的检测方法,包括:提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息;确定第一摘要信息是否属于预设数据库中的第二摘要信息,第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定待检测网页的域名和目标网页的域名是否一致;以及在确定待检测网页的域名和目标网页的域名不一致时,确定待检测网页是仿冒目标网页的钓鱼网页。图1是根据本专利技术一个实施例的钓鱼网页的检测方法的流程图。如图1所示,该钓鱼网页的检测方法包括:S101,提取待检测网页的网页模板特征,并获取网页模板特征的第一摘要信息。其中,在本专利技术的一个实施例中,待检测网页可以是用户登录页面。应当理解,目前网页数量非常庞大,保护每个网页是不现实也是没必要的,钓鱼网站的最终目的是要盗取用户的有用信息(如账号、密码等信息),由此可知,只需检测用户登录页面即可有效地保护了用户信息,这样大大的缩减了保护范围,且将一个不收敛的问题变成了一个收敛的问题,提高了可行性。<本文档来自技高网
...

【技术保护点】
一种钓鱼网页的检测方法,其特征在于,包括:提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是根据目标网页的网页模板特征所获取的摘要信息;在确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所述待检测网页的域名和所述目标网页的域名是否一致;以及在确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页是仿冒所述目标网页的钓鱼网页。

【技术特征摘要】
1.一种钓鱼网页的检测方法,其特征在于,包括:
提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘要信息;
确定所述第一摘要信息是否属于预设数据库中的第二摘要信息,所述第二摘要信息是
根据目标网页的网页模板特征所获取的摘要信息;
在确定所述第一摘要信息属于预设数据库中的第二摘要信息时,进一步确定所述待检
测网页的域名和所述目标网页的域名是否一致;以及
在确定所述待检测网页的域名和所述目标网页的域名不一致时,确定所述待检测网页
是仿冒所述目标网页的钓鱼网页。
2.根据权利要求1所述的方法,其特征在于,所述待检测网页是用户登录页面。
3.根据权利要求1所述的方法,其特征在于,所述第一摘要信息和所述第二摘要信息
是HTML文件的信息。
4.根据权利要求1所述的方法,其特征在于,所述确定所述第一摘要信息是否属于预
设数据库中的第二摘要信息,包括:
根据本地预设的数据库,确定所述第一摘要信息是否属于第二摘要信息;和/或,
将所述第一摘要信息发送给云端,以使所述云端根据云端数据库确定所述第一摘要信
息是否属于预设数据库中的第二摘要信息。
5.根据权利要求1所述的方法,其特征在于,在所述确定所述待检测网页是仿冒所述
目标网页的钓鱼网页之后,还包括:
向用户发送警告信息并提供所述目标网页。
6.根据权利要求1或5所述的方法,其特征在于,在所述提取待检测网页的网页模板
特征之前,所述方法还包括:
确定所述待检测网页的网址是否在白名单网址列表中;
在确定所述待检测网页的网址在白名单网址列表中时,结束所述待检测网页是否是所
述钓鱼网页的检测。
7.根据权利要求1或5所述的方法,其特征在于,在所述提取待检测网页的网页模板
特征之前,所述方法还包括:
确定所述待检测网页中是否包含登录标签信息;
在确定所述待检测网页中不包含登录标签信息时,结束所述待检测网页是否是所述钓
鱼网页的检测。
8.根据权利要求1或5所述的方法,其特征在于,还包括:建立所述预设数据库,所

\t述建立所述预设数据库,包括:
获取所述目标网页,并判断所述目标网页的访问量是否超过预设访问量,和/或,所述
目标网页的仿冒次数是否超过预设仿冒次数;
在判断所述目标网页的访问量超过预设访问量,和/或,所述目标网页的仿冒次数超过
预设仿冒次数时,提取所述目标网页的网页模板特征,并获取所述目标网页的网页模板特
征的第二摘要信息以建立所述预设数据库。
9.根据权利要求1或5所述的方法,其特征在于,所述网页模板特征包括网页标题、
网页的描述信息、网页的版权信息、网页的<h1><h2><h3><h4>标签的内容信息、网页的<p>
标签的内容信息、网页的样式表信息、网页的表单信息、网页的导航信息、网页的标签框
架信息、网页的显示图标信息中的至少一种。
10.一种钓鱼网页的检测装置,其特征在于,包括:
获取模块,用于提取待检测网页的网页模板特征,并获取所述网页模板特征的第一摘
要信息;
第...

【专利技术属性】
技术研发人员:梅银明邹荣新刘军
申请(专利权)人:百度国际科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1