【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种识别钓鱼网站的方法及装置。
技术介绍
近年来,钓鱼网站在全球频繁出现,严重的影响了在线金融服务、电子商务的发展,危害用户利益,影响用户使用互联网的信心。钓鱼网站通常通过仿冒合法网站的统一资源定位符(Universal Resource Locator,URL)地址以及页面内容,或者通过其他手段伪装成合法网站骗取用户的银行账号和密码等私人信息。在现有技术中,主要通过人工识别某个网站是否为钓鱼网站,若确定某个网站为钓鱼网站,则将该网站的URL地址加入黑名单中。对于该黑名单中包含的每个URL地址,拒绝终端连接到该黑名单中包含的每个URL地址,以达到防止钓鱼网站骗取用户的私人信息的目的。然而,由于互联网上存在着成千上万的网站,而且每天都有大量的新网站出现,钓鱼网站也混在其中,而现有技术中通过人工识别钓鱼网站,必然会使识别钓鱼网站的效率降低。并且,对于一些特殊页面对应的URL地址,例如论坛的URL地址和博客的URL地址,由于这些页面的内容可以由用户编辑,而且具有传播信息的功能,因此不法分子很有可能会在这些URL地址对应的页面中编辑一些钓鱼网站的URL地址,作为该页面中的嵌入URL地址,并诱使用户点击该嵌入URL地址,以达到窃取用户的私人信息和传播钓鱼网站的URL地址的目的。从而,对于这些特殊页面对应的URL地址,即使这些URL地址是合法页面的URL地址,但其 ...
【技术保护点】
一种识别钓鱼网站的方法,其特征在于,包括:提取终端与网络侧交互的信息中所携带的统一资源定位符URL地址,并针对每个所述提取的终端与网络侧交互的信息中所携带的URL地址,确定该URL地址对应的页面的页面类型,在判断出该URL地址对应的页面的页面类型为设定的页面类型时,提取该URL地址对应的页面中包含的嵌入URL地址;将所述提取的终端与网络侧交互的信息中所携带的URL地址及所述嵌入URL地址作为待识别的URL地址;针对每个待识别的URL地址,将该待识别的URL地址的属性信息,与设定的非钓鱼网站的URL地址的属性信息进行对比,确定该待识别的URL地址与设定的URL地址的第一相似度;当判断确定的第一相似度在设定范围内,且该待识别的URL地址与设定的URL地址不相同时,将该待识别的URL地址识别为钓鱼网站的URL地址。
【技术特征摘要】
1.一种识别钓鱼网站的方法,其特征在于,包括:
提取终端与网络侧交互的信息中所携带的统一资源定位符URL地址,并
针对每个所述提取的终端与网络侧交互的信息中所携带的URL地址,确
定该URL地址对应的页面的页面类型,在判断出该URL地址对应的页面的页
面类型为设定的页面类型时,提取该URL地址对应的页面中包含的嵌入URL
地址;
将所述提取的终端与网络侧交互的信息中所携带的URL地址及所述嵌入
URL地址作为待识别的URL地址;
针对每个待识别的URL地址,将该待识别的URL地址的属性信息,与设
定的非钓鱼网站的URL地址的属性信息进行对比,确定该待识别的URL地址
与设定的URL地址的第一相似度;
当判断确定的第一相似度在设定范围内,且该待识别的URL地址与设定
的URL地址不相同时,将该待识别的URL地址识别为钓鱼网站的URL地址。
2.如权利要求1所述的方法,其特征在于,对该待识别的URL地址进行
识别后,所述方法还包括:
将该待识别的URL地址保存在识别日志中。
3.如权利要求2所述的方法,其特征在于,将该待识别的URL地址的属
性信息,与设定的URL地址的属性信息进行对比之前,还包括:
根据所述识别日志中已记录的每个URL地址,确定该待识别的URL地址
未记录在所述识别日志中。
4.如权利要求1或3所述的方法,其特征在于,将该待识别的URL地址
的属性信息,与设定的URL地址的属性信息进行对比之前,还包括:
根据可信任URL地址列表中已记录的每个可信任URL地址,确定该待识
别的URL地址未记录在所述可信任URL地址列表中。
5.如权利要求1所述的方法,其特征在于,将该待识别的URL地址的属
\t性信息,与设定的URL地址的属性信息进行对比,确定该待识别的URL地址
与设定的URL地址的第一相似度,具体包括:
将该待识别的URL地址对应的域名信息,与设定的URL地址对应的域名
信息进行对比,确定该待识别的URL地址与设定的URL地址的域名相似度;
将该待识别的URL地址对应的站点名称信息,与设定的URL地址对应的
站点名称信息进行对比,确定该待识别的URL地址与设定的URL地址的站点
名称相似度;
将确定的域名相似度与设定的第一加权值的乘积,以及确定的站点名称相
似度与设定的第二加权值的乘积的和值,确定为待识别的URL地址与设定的
URL地址的第一相似度。
6.如权利要求1或5所述的方法,其特征在于,将该待识别的URL地址
识别为钓鱼网站的URL地址,具体包括:
根据所述设定范围内的不同子范围分别对应的分值,以及确定的第一相似
度所在的子范围,确定赋予所述第一相似度的第一分值;
提取待识别的URL地址对应的页面,确定提取的页面中的文字信息包含
的设定关键字,根据保存的每个设定关键字分别对应的分值,确定提取的设定
关键字分别对应的分值的和值,作为第二分值;
当所述第一分值与确定出的第二分值的和值不小于设定分值时,将该待识
别的URL地址识别为钓鱼网站的URL地址。
7.如权利要求1或5所述的方法,其特征在于,将该待识别的URL地址
识别为钓鱼网站的URL地址,具体包括:
根据所述设定范围内的不同子范围分别对应的分值,以及确定的第一相似
度所在的子范围,确定赋予所述第一相似度的第一分值;
提取待识别的URL地址对应的页面,确定提取的页面中包含的javascript
代码,与设定的URL地址对应的页面中包含的javascript代码的第二相似度,
并根据预设的相似度范围分别对应的分值,确定所述第二相似度所在的相似度
\t范围对应的分值,作为第三分值;
当所述第一分值与确定出的第三分值的和值不小于设定分值时,将该待识
别的URL地址识别为钓鱼网站的URL地址。
8.如权利要求1或5所述的方法,其特征在于,将该待识别的URL地址
识别为钓鱼网站的URL地址,具体包括:
根据所述设定范围内的不同子范围分别对应的分值,以及确定的第一相似
度所在的子范围,确定赋予所述第一相似度的第一分值;
提取待识别的URL地址对应的页面,确定提取的页面中包含的文本标记
语言html代码,与设定的URL地址对应的页面中包含的html代码的第三相似
度,并根据预设的相似度范围分别对应的分值,确定所述第三相似度所在的相
似度范围对应的分值,作为第四分值;
当所述第一分值与确定出的第四分值的和值不小于设定分值时,将该待识
别的URL地址识别为钓鱼网站的URL地址。
9.如权利要求1或5所述的方法,其特征在于,将该待识别的URL地址
识别为钓鱼网站的URL地址,具体包括:
根据所述设定范围内的不同子范围分别对应的分值,以及确定的第一相似
度所在的子范围,确定赋予所述第一相似度的第一分值;
提取待识别的URL地址对应的页面,确定提取的页面中包含的嵌入URL
地址,并确定提取的嵌入URL地址中,域名信息与设定的URL地址的域名信
息相同的嵌入URL地址的数量,根据设定的不同数量分别对应的分值,确定
域名信息与设定的URL地址的域名信息相同的嵌入URL地址的数量对应的分
值,作为第五分值;
当所述第一分值与确定出的第五分值的和值不小于设定分值时,将该待识
别的URL地址识别为钓鱼网站的URL地址。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述待识别的URL地址,当该URL地址中包含跳转URL地址时,
...
【专利技术属性】
技术研发人员:吴翰清,李泽洋,康洁洁,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。