一种钓鱼网站的取证与验证方法及系统技术方案

技术编号:12151339 阅读:80 留言:0更新日期:2015-10-03 12:24
本发明专利技术公开了一种钓鱼网站的取证与验证方法及系统。本方法为:1)取证与验证服务器调用浏览器打开待验证的URL地址,然后该浏览器发送HTTP请求消息给该服务器;2)该服务器从HTTP请求中提取URL字符串信息并截图;3)检查URL字符串信息是否存在于黑/白名单中;如果存在,则输出判断信息;4)提取URL字符串中的关键信息和域名关键信息;5)访问第三方可信资源服务器,提取该URL字符串对应WEB站点的关键信息;6)根据该URL访问WEB页面,提取页面关键信息;7)根据步骤4)~6)所提取的信息,计算得到该URL地址的可信值,将其与设定阈值的比较结果输出验证结果。本发明专利技术提高了取证的完整性和验证的效率。

【技术实现步骤摘要】

本专利技术涉及计算机网络安全领域,更确切的讲,本专利技术涉及一种钓鱼网站的取证 与验证方法及系统。
技术介绍
随着互联网的发展,网络逐渐成为人们工作、学习、和金融交易活动的平台,在给 人们工作和生活带来便利的同时,频繁的网络犯罪也伴随而来。网络钓鱼攻击的主要目标 是涉及金钱的网站,例如银行网站和证券网站。现在的电子商务、网络购物、网上银行等业 务已经深入我们的日常生活,钓鱼攻击对这些网站的攻击,造成了巨大的损失。使得钓鱼攻 击成了最严重的网站攻击方法之一。从2005年到今,金融行业所受的钓鱼站点的攻击所 占比重在79 %之上,有些月份甚至高于89 %,并且钓鱼行为的数量和所占比重每月都在升 尚。 国内的反钓鱼组织对于所掌握的钓鱼站点大部分都来自支撑单位以及各大企业 的举报和组织内部的封堵。现有的主流反网络钓鱼技术主要有黑名单、白名单、启发式检 测、相似度检测和DOM文档比较等几类。但是,针对金融类网站的检测都存在一些不足:黑 名单技术主要应用在URL拦截中和验证,缺点是不能及时更新钓鱼网站名单,具有滞后性, 因此漏报率很高,并且消耗巨大的人力资源;基于EMD视觉相似度技术过分依赖采用的相 似度检测算法,效率低下,且该方法以钓鱼网站与目标网站具有视觉相似性为前提;基于 DOM文档比较的方法过分依赖于网页内部信息元素的识别,使用受到一定的限制。
技术实现思路
针对上述已有方法存在的问题,本专利技术公开了一种钓鱼网站的取证与验证方法及 系统。 本专利技术的取证与验证方法具体步骤包括: (1)钓鱼网站取证:取证与验证服务器调用浏览器打开待验证的URL地址,检查该 URL地址的TAB标签的状态,如果为加载完成,则浏览器发送HTTP请求消息给步骤(2),等 待响应;如果加载没有完成且轮询x次,浏览器也发送HTTP请求给步骤(2)等待响应。 (2)取证与验证服务器等待浏览器发送的HTTP请求,获取其中POST内容的URL 字符串信息,对浏览器所在的窗口进行截屏,保存图片为PNG格式,并给浏览器发送响应信 息。截屏的图片即"取证",是钓鱼网站证据信息的主要部分,截屏中包括了URL的地址和显 示的页面信息。 (3)如果浏览器收到步骤⑵中的响应信息,则关闭浏览器,转步骤⑷;否则超时 后强制关闭浏览器,转到步骤(4)。 (4)检查URL字符串信息是否存在于黑/白名单中。如果是,则输出判断信息,结 束算法。否则跳转步骤(5)。 (5)提取URL字符串中的关键信息:主要包括1)URL中是否包含IP地址;2)URL 中是否包含非常规端口;即只要常规的服务没有使用其缺省的端口即认为采用了非常规端 口;3)URL中是否包括特殊字符@ ;4)URL中域名的级数,即"的个数。 (6)提取URL字符串中域名的关键信息:主要包括1)域名的注册商;2)域名的状 态;3)域名的注册时间。 (7)访问第三方可信资源服务器,根据URL字符串提取对应WEB站点的关键信息: 主要包括1)WEB站点的ICP备案信息;2)WEB站点对应IP地址的地理位置。 (8)根据URL字符串访问WEB页面,提取WEB页面的关键信息:主要包括1)页面的 TITLE信息;2)页面的关键词(用于唯一标识页面的关键特征串);3)页面状态码;4)页面 超链接的特征;5)页面引用图片资源的特征。 (9)钓鱼网站的验证:根据步骤(5)~⑶的14个特征,参考相应的WHOIS信息 库、ICP备案信息库、IP地理定位库和钓鱼网站的特征。对14个特征给出不同的权重,与设 定的阈值做比较,输出验证结果。结束算法。 本专利技术也公开了一种钓鱼网站的取证与验证系统,主要由数据初始化模块、钓鱼 网站取证模块、黑/白名单验证模块、URL信息提取模块、域名信息提取模块、WEB站点信息 提取模块、WEB页面信息提取模块、和钓鱼网站验证模块8个模块组成。系统运行的具体步 骤如下: (1)数据初始化模块:从配置管理文件中读取系统的配置信息。系统的配置信息 包括黑名单列表、白名单列表、WHOIS信息库、ICP备案信息库、IP地理定位库、钓鱼网站的 特征权重信息和取证模块HTTP服务的初始化。 (2)钓鱼网站取证模块:该模块收到URL字符串后,调用浏览器打开URL页面,等 待浏览器加载网页完成后向取证端口发送HTTP请求,收到请求后对浏览器所在的窗口进 行截屏,给浏览器发送响应信息。 在该模块中,浏览器如果没有加载成功,在超时后自动给取证端口发送请求。浏览 器在收到响应信息后会关闭浏览器窗口。 由于URL重定向和JavaScript脚本等原因,浏览器发给取证模块的URL字符串和 调用浏览器的URL字符串可能不同,采用simhash进行相似性验证,验证通过进行后续的验 证处理;如果未通过,证明为广告页面或者重定向网页,不进行后续操作。 (3)黑/白名单验证模块:该模块检查URL字符串信息是否存在于黑/白名单中。 如果是,则输出相应的信息。否则转到步骤(4)。 (4)URL信息提取模块:该模块提取URL字符串中的关键信息,主要包括1)URL中 是否包含IP地址;2)URL中是否包含非常规端口;3)URL中是否包括特殊字符@ ;4)URL中 域名的级数,即"的个数。 (5)域名信息提取模块:该模块主要针对域名信息进行提取,主要包括1)域名的 注册商;2)域名的状态;3)域名的注册时间。 (6) WEB站点信息提取模块:该模块提取的主要信息包括1) WEB站点的ICP备案信 息;2) WEB站点对应IP地址的地理位置。 在该模块中,ICP备案信息通过WEB站点的域名字符串进行查询,备案库来自第三 方可信资源;对应的IP地址由WEB站点的域名解析得到,并通过可信的IP地理定位库来确 定国家、省份和运营商等信息。 (7)WEB页面信息提取模块:该模块提取HTML页面的关键信息,主要包括1)页面 的TITLE信息;2)页面的关键词(用于唯一标识页面的关键特征串);3)页面状态码;4)页 面超链接的特征;5)页面引用图片资源的特征。 在该模块中,页面关键词指能在网络空间中唯一标识该页面的关键词(字符串) 集合。频率最尚的词最有可能成为关键词。(页面TITLE的彳目息排除在外)。 页面超链接特征指:1)空链接对象,钓鱼网站的空链接比正常网站的此类对象要 多;2)指向真实站点的链接,钓鱼网站超链接所指向的对象为真实的可达的情况在整个页 面的链接中所占的比例较小,而真实的网站则较高。 页面应用图片资源特征:正常的网站,网页应用的图片资源绝大部分来自站点所 在的域,而钓鱼页面则存在相当一部分资源的异常,如与页面的文件在不同的域内。 (8)钓鱼网站验证模块:该模块输出步骤⑷~(7)的14个特征,参考相应的 WHOIS信息库、ICP备案信息库、IP地理定位库和目标网站(一般为金融类网站)的特征。 对14个特征给出不同的权重,与设定的阈值做比较,输出可参考的验证结果。14个特征也 可为人工识别钓鱼网站提供验证依据。 在该模块中,对14个特征的进行数值化处理,转换成布尔表达式的值,依据目标 类网站的特征设置不同的权重,通过累加和的方式计算结果,与阈值进行比较得出结论。 与现有技术相比,本当前第1页1 2 3 本文档来自技高网...

【技术保护点】
一种钓鱼网站的取证与验证方法,其步骤为:1)取证与验证服务器调用浏览器打开待验证的URL地址,然后该浏览器发送HTTP请求消息给该取证与验证服务器;2)取证与验证服务器从该HTTP请求中提取URL字符串信息,并对该浏览器当前所在的窗口进行截屏;3)取证与验证服务器检查所提取的URL字符串信息是否存在于黑/白名单中;如果存在,则输出判断信息,否则跳转步骤4);4)提取URL字符串中的关键信息和URL字符串中域名的关键信息;5)取证与验证服务器访问第三方可信资源服务器,提取该URL字符串对应WEB站点的关键信息;6)取证与验证服务器根据该URL字符串访问WEB页面,提取WEB页面的关键信息;7)取证与验证服务器根据步骤4)~6)所提取的信息,计算得到该URL地址的可信值,将该可信值与设定阈值的比较结果输出验证结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:张永铮杜飞庹宇鹏常鹏
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1