一种基于内容分析的判断钓鱼网站的方法技术

技术编号:7704325 阅读:235 留言:0更新日期:2012-08-25 01:24
本发明专利技术提出了一种基于内容分析的判断钓鱼网站的方法,其中其服务器端具有黑、白名单数据库、特征数据库以及分析机;所述服务器端接收客户端发送的未知网站的url数据,并进行黑、白名单判断;在接收的url不在黑、白名单数据库内时下载所述url的相关内容信息,并加载和解析特征数据库里的特征文件,然后利用分析机根据所下载的内容信息逐条和特征数据库里的特征进行匹配;最后将匹配结果反馈给其客户端。本发明专利技术所提供的钓鱼网站判断方法,在内容匹配之前采用黑、白名单匹配,并在已知钓鱼网站的内容数据中提取对比特征数据,对未知网站的内容进行匹配,并根据经验值进行判断,具有方便、快捷、高效、适用性广的优点。

【技术实现步骤摘要】

本专利技术涉及一种钓鱼网站的判断方法,尤其是。
技术介绍
所谓“钓鱼网站”是ー种网络欺诈行为,指不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料,并凭借骗取的用户信息进ー步获取经济利益。“钓鱼网站”近来在全球频繁出现,严重地影响了在线金融服务、电子商务的发展,危害公众利益,影响公众应用互联网的信心。钓鱼网站通常伪装成为银行网站,窃取访问者提交的账号和密码信息。现在的钓鱼网站不仅通过电子邮件传播,更多的是通过聊天工具、论坛、搜索引擎来传播,比如在邮件中加入ー个经过伪装的链接将收件人联到钓鱼网站。钓鱼网站的页面与真实网站界面基本一致,要求访问者提交账号和密码。一般来说钓鱼网站结构很简单,只有ー个或几个页面,URL和真实网站有细微差别。常规的钓鱼网站鉴别方法包括对网站的url和具体内容进行鉴别。对于基于url的判断,安全服务商需建立完整的钓鱼网站数据库,尽量收集已知的钓鱼网站url样本,在基于已知的url样本对待鉴别url做出判断,换句话说,此类方法严重依赖于数据库的样本数量。对于对网站的内容进行鉴别需要将网站信息发送给服务器,并由服务器根据其海量数据和超强运算能力对网站内容进行鉴别,再将判断结果发给客户端,传统的此类判断方法效率较低,花费时间较长,从而降低了拦截效果。
技术实现思路
针对以上情况,本专利技术提供ー种新型的基于内容分析的钓鱼网站判断方法。本专利技术的技术方案是 ,包括设置在用户机器上的客户端以及设置在安全服务提供商侧的服务器端,其中所述服务器端具有存储有现有已知钓鱼网站url信息的黑名单数据库、存储有现有已知非钓鱼网站url信息的白名単数据库、存储有从已知钓鱼网站的内容数据中统计出来的钓鱼网站特征规律的特征数据库以及基于所述特征数据库对提取的url内容信息进行分析匹配的分析机,并包括以下步骤 1)所述客户端将用户访问的未知网站的url数据发送至所述服务器端; 2)所述服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名单数据库进行比较分析,如果所述url位于所述黑名单数据库或白名単数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名単数据库中,则将所述url判断为灰网址,并进行下一歩处理; 3)在服务器端下载所述url的相关内容信息;、4)在服务器端加载和解析特征数据库里的特征文件,然后利用分析机根据所下载的内容信息逐条和特征数据库里的特征进行匹配; 5)将匹配结果反馈给所述客户端; 6)所述客户端根据所述服务器端所反馈的判断结果允许或者拒绝用户继续访问所述网站,并给出相应的拒绝访问说明。作为以上技术方案的ー种改进,步骤3中的内容信息包括网站的url本身、JavaScript脚本、标题、文本以及布局 。作为以上技术方案的ー种改进,每ー被判断为钓鱼网站的相应网站内容数据均被加入到数据库中作为提取钓鱼网站特征规律的原始数据。本专利技术的有益效果是 本专利技术所提供的钓鱼网站判断方法,在内容匹配之前采用黑、白名单匹配,能大大加快基于网站内容分析的方法的分析判断速度,在实际应用中可将鉴定时间缩短到I分钟左右。本专利技术在已知钓鱼网站的内容数据中提取对比特征数据,对未知网站的内容进行匹配,井根据经验值进行判断,具有方便、快捷、高效、适用性广的优点。附图说明图I为本专利技术的流程图。具体实施例方式在本专利技术的ー个具体实施例中,此方法可通过ー个含有互相通信的客户端和服务器端的系统所实现,其中客户端可以是安装在用户机器上的安全防护软件或者是所述安全防护软件的一部分,而对应地,服务器端可以是设置在安全提供商侧的中心服务器,为所有与其连接的客户端提供后台服务。在本专利技术中,本专利技术的功能由服务器端上的黑、白名単数据库、特征数据库以及分析机所实现,其中黒、白名单数据库存储有现有已知的钓鱼网站、非钓鱼网站的url信息,特征数据库存储有从已知钓鱼网站的内容历史数据中统计出来的钓鱼网站特征规律,分析机用于基于所述特征数据库对提取的url内容信息进行分析匹配。其中黒、白名単数据库可放置在外网,服务器端在客户端查询的url不在外网的黑、白名单数据库内时,将所述url判断为灰网址,即是不确定的网址,并进入内网就行下一歩的内容检测分析。进行内容检测前,会有ー个爬虫,通过客户端上传的url信息爬取到和这个URL相关的内容信息,这些内容信息包括网站的url本身、JavaScript脚本、标题、文本以及布局等。拿到内容信息后,会把内容传给分析机进行分析是否为钓鱼网站。分析机会首先加载和解析特征数据库里的特征文件(里面是统计得出的现有钓鱼网站的特征),然后根据内容逐条和特征进行匹配。如果匹配成功,就说明是钓鱼网站;如果都不匹配,就不做任何处理。本专利技术的钓鱼网站相关的内容分析的重点在于‘分析机’和‘特征文件’。前者是ー个词法和语法解释器,后者是ー个经验统计总结得出的很多条规则规律,并且在不断的完菩中。具体来说,如图I所示,所述系统可通过以下步骤基于特征数据库对未知网站的内容进行判断处理 首先,客户端将用户将需访问的安全未知的网站的url数据发送至服务器端,这可以是ー个加密的文件交换过程。服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名単数据库进行比较分析,如果所述url位于所述黑名单数据库或白名単数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名単数据库中,则将所述url判断为灰网址,并进行下一歩处理。服务器端利用爬虫下载所述url的相关内容信息,加载和解析特征数据库里的特征文件,然后利用分析机根据所爬取的内容信息逐条和特征进行匹配。根据匹配结果判断所述url是否为钓鱼网站,并将匹配结果反馈给所述客户端。客户端根据所述服务器端所反馈的匹配结果允许或者拒绝用户继续访问所述网 站,并给出相应的拒绝访问说明。其中,每ー被判断为钓鱼网站的相应网站内容数据均被加入到数据库中作为提取特征的原始数据,提高用于提取特征的原始数据的数量,进而提高提取的特征文件的代表性。本专利技术所提供的钓鱼网站判断方法采用额外的灰网址机制以及内、外网设置,能大大加快钓鱼网站的判断速度,在实际应用中可将鉴定时间缩短到I分钟左右。本方法采用适当的数据挖掘算法在已知钓鱼网站的内容数据中提取对比数据,对未知网站的内容进行相似度计算,井根据经验值进行判断,具有高效、准确率搞、适用性广的优点。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于内容分析的判断钓鱼网站的方法,包括设置在用户机器上的客户端以及设置在安全服务提供商侧的服务器端,其特征在于所述服务器端具有存储有现有已知钓鱼网站Url信息的黑名单数据库、存储有现有已知非钓鱼网站url信息的白名単数据库、存储有从已知钓鱼网站的内容数据中统计出来的钓鱼网站特征规律的特征数据库以及基于所述特征数据库对提取的url内容信息进行分析匹配的分析机,并包括以下步骤 .1)所述客户端将用户访问的未知网站的url数据发送至所述服务器端; . 2)所述服务器端接收客户端发送的未知网站的url数据,并根据所述黑、白名单数据库进行比较分析,如果所述url位于所述黑名单数据库或白名単数据库中,则终止处理并将结果返回到客户端;如果所述url不在所述黑、白名単数据库中...

【专利技术属性】
技术研发人员:温铭潘建波
申请(专利权)人:珠海市君天电子科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1