一种网站钓鱼伪装识别方法技术

技术编号:19067824 阅读:24 留言:0更新日期:2018-09-29 14:52
本发明专利技术涉及一种钓鱼网站的识别方法,通过识别用户正在浏览的待识别网站,抓取网站中的特征数据;按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器;通过该数据映射所指的映射服务器中的伪装id数据库与正在识别网站相比较来识别用户正在浏览的待识别网站中是否有所述伪装id数据库中的伪装id数据;若用户正在浏览的待识别网站中有所述伪装id数据库中的伪装id数据,则识别正在网站为被钓鱼伪装的网站能够实时对网站进行马甲检测,并且避免网站误伤,增强识别网站钓鱼伪装的性能,特别地,如果需要识别网站数量较大时,以及需要识别检测的伪装id数据较多的情况下,增强识别网站钓鱼伪装的性能。

【技术实现步骤摘要】
一种网站钓鱼伪装识别方法
本申请涉及计算机网络领域,尤其涉及一种识别网站钓鱼伪装的方法。
技术介绍
网络钓鱼攻击,它是发送假冒伪造的源自于银行或信誉度较高的知名机构团队的诈骗性垃圾短信、冒名邮件,来诱骗收件人吐露出私人敏感信息(诸如username、口令、账户ID、password、ATMPIN码、信用卡信息等等),是一种极其恶意的网络攻击方式常见的情况是仿冒支付交易平台、电商在线支付平台等,来诱惑网民不经意间登陆或注册钓鱼网站,而盗取网民的私人信息,以便获得更大盈利。最经典的网络钓鱼诈骗是将网民用户通过各种手段引诱其打开一个制作成与合法受保护网站相似度很高的钓鱼网站URL链接地址,打开后通过该网名用户登录或注册来窃取该用户的私人信息。通常整个钓鱼攻击过程是不会让受害者警惕,而且极难追查,具有危害性大,隐蔽性强的特点,它是″社会工程学攻击″的一种表现形式I’网络信息呈爆炸式增长,群众对五花八门的各种信息数据往往难辨其真假,从而使得依托互联网环境发展起来的钓鱼攻击成为一种可行且非常可怕的攻击手段。目前,国内外针对网络钓鱼攻击防御技术的诸多研究其领域有:基于网站钓鱼者行为分析的研究,针对网站钓鱼攻击技术检测,终止钓鱼网站解析域名,黑白名单垃圾邮件过滤准则,钓鱼网站攻击追踪等。近年来,国际上的学者们对网络钓鱼的重视度关注度不断地提升,网络钓鱼防御术也取得了一系列突破。诸如URL黑名单过滤机制、钓鱼网站检测技术、图像分割比对技术等,网络钓鱼攻击形式也从最初的假冒知名受保护网站方式发展成向多样化、多元化方式前进。诸如移动端网络钓鱼、面向QR码网络钓鱼、快速多次更替域名网络钓鱼等等,其攻击方式也已经从最初的发送大量垃圾e-mail或短信给网民受害者转变为一种新旧相互结合的多样性攻击方式,即有了目标网民发送假冒信息e-mail、合有欺诈网站的聊天内容信息、移动端URL短信、恶意QR码或网页中种入通往钓鱼网站的超链接、虚假广告等多途径方向发展,其危害性逐步提高加重,防御难度也渐渐越来越大。。现如今,网络钓鱼攻击的特点如下所示:(1)钓鱼攻击具有强针对性、目标性(诸如:鱼叉式钓鱼和鲸钓);(2)钓鱼攻击的技术手法极其变化莫测,已经发现多种新兴钓鱼方法(诸如:勒索软件、伪基站方法、Javascript静默偷盗);(3)钓鱼网站其传播途径更加多样化(诸如:搜索引擎方式、邮件方式、短信方式);(4)网络钓鱼攻击的利润巨大化催生着其逐渐往产业化方向发展(例如:钓鱼工具包、钓鱼框架等)网络钓鱼攻击的研究是互联网诈骗领域里一个重要的方向。随着互联网被运用到我们生活的方方面面,互联网诈骗已经给我们的生活带来了严重的影响。互联网诈骗形式多样,网络钓鱼就是互联网诈骗中发展迅速的一种。因此研究网络钓鱼攻击行为是很有必要的。因此,面对正在网络环境中钓鱼网站的钓鱼伪装的机制,亟待一种识别方法,能够实时对网站进行马甲检测,并且避免网站误伤,增强识别网站钓鱼伪装的性能,特别地,如果需要识别网站数量较大时,以及需要识别检测的伪装id数据较多的情况下,增强识别网站钓鱼伪装的性能。专利技术中容本申请提供一种识别网站钓鱼伪装的方法,用以在能够实时对网站进行马甲检测,并且避免网站误伤,增强识别网站钓鱼伪装的性能,特别地,如果需要识别网站数量较大时,以及需要识别检测的伪装id数据较多的情况下,增强识别网站钓鱼伪装的性能。本申请还着重对基于网页源代码的网络钓鱼攻击行为进行了研究,尝试着去发现这些鱼网站中的一些规律现象。为了解决上述问题,本专利技术请求保护一种识别网站钓鱼伪装的方法,包括:构建伪装id数据库,以及多台服务器中安放所述伪装id数据库,所述伪装id数据库中包括伪装id数据;识别用户正在浏览的待识别网站,抓取网站中的特征数据用于分析;按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器;通过该数据映射所指的映射服务器中的伪装id数据库与正在识别网站相比较来识别用户正在浏览的待识别网站中是否有所述伪装id数据库中的伪装id数据;若用户正在浏览的待识别网站中有所述伪装id数据库中的伪装id数据,则识别正在网站为被钓鱼伪装的网站;具体地,所述映射服务器具有服务器id,所述特征数据包括网站聚类数据,所述依据网站的特征数据确定映射的映射服务器的步骤包括:按照预置的网站聚类数据与服务器id的映射关系,提取正在网站聚类数据映射的服务器id;将所述映射服务器id映射的服务器确定为映射服务器。具体地,所述特征数据包括网站的统一资源定位符,对上述的映射服务器而言,每一台映射服务器都有唯一所对应的数值id,通过上述网站的特征数据确定映射的服务器id的具体方法还包括:系统中置映射规则,通过预设映射规则将当前识别网站的统一资源定位符转换为数值;依据前述所获得的数值,按数值提取映射数值id的服务器,此外,还将该服务器用作映射服务器。具体地,网站的聚类划分数据包含有如下中容:网站的中容聚类数据、网站的属性聚类数据、网站的tag聚类数据和网站的类型聚类数据等。具体地,所述伪装id数据库具体的架设方法如下:系统中部已存在很多现有的伪装id数据,采用这些已有的伪装id数据搜索包含所述伪装id数据的网站为特征网站;对上述特征网站进行分析,解析出所述伪装id数据在特征网站中的排版,如果解析的结果显示网站排版存在非法钓鱼伪装,则从网站排版存在非法钓鱼伪装的网站中抽取包含所述伪装id数据的网站元素;依照网站元素构建的伪装规则,使用该伪装规则,将伪装规则假设到其他的特征网站中进行识别检测,并在识别检测的特征网站中获取与之前伪装id数据不同的伪装id数据;将所述伪装id数据形成伪装id数据库并存储于系统内存中。具体地,所述伪装id数据包括钓鱼伪装keyword和伪装统一资源定位符。具体地,所述解析出所述伪装id数据在特征网站中的排版还包括:识别所述伪装id数据在网站中的元素坐标,判断所述伪装id数据的元素坐标是否在预设阈值范围中,如果在预设阈值范围中,就认为所述伪装id数据在特征网站中的排版存在非法钓鱼伪装;和/或,识别所述伪装id数据的网站元素属性,如果经判断所述伪装id数据的网站元素属性后发现其属性设定为隐藏,就判定所述伪装id数据在特征网站中的排版存在非法钓鱼伪装具体地,所述根据网站元素构建伪装规则的方法为:在包含所述钓鱼伪装keyword和/或伪装统一资源定位符的网站元素中,抽取出伪装规则,所述伪装规则基于隐马尔可夫链建立。具体地,所述的方法,还包括:伪装id数据库需要按时更新,依照预设的频率更新所述伪装id数据库。由于中文网页格式有多种编码,常用的就有GB2312,GBK,UTF-8等,导致在处理网页内容过程中会出现乱码而处理出错,因此需要统一编码格式。所以在涉及文本的读取和保存的地方,全部使用UTF-8格式进行规范化。根据网站的建立信息得到的是信誉度,但是我们还不能确定网站的用途,因此通过对其内容的判定可以识别其目的,这样相对于只是用支持向量机算法来进行识别的稳定性和正确率有所提高并且,基于网络爬虫技术和浏览器中防钓鱼技术的实现,也有效保证了识别网站钓鱼伪装的安全性、可信度和准确度。附图说明被包括来提供对所公开主题的进一步认识的附图,将被并入此说明书并构成该说本文档来自技高网...

【技术保护点】
1.一种网站钓鱼伪装识别方法,其特征在于,包括:识别用户正在浏览的待识别网站,抓取网站中的特征数据用于分析;按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器;通过该数据映射所指的映射服务器中的伪装id数据库与正在识别网站相比较来识别用户正在浏览的待识别网站中是否有所述伪装id数据库中的伪装id数据;若用户正在浏览的待识别网站中有所述伪装id数据库中的伪装id数据,则识别正在网站为被钓鱼伪装的网站。

【技术特征摘要】
1.一种网站钓鱼伪装识别方法,其特征在于,包括:识别用户正在浏览的待识别网站,抓取网站中的特征数据用于分析;按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器;通过该数据映射所指的映射服务器中的伪装id数据库与正在识别网站相比较来识别用户正在浏览的待识别网站中是否有所述伪装id数据库中的伪装id数据;若用户正在浏览的待识别网站中有所述伪装id数据库中的伪装id数据,则识别正在网站为被钓鱼伪装的网站。2.如权利要求1所述的所述的网站钓鱼伪装识别方法,具体地,所述伪装id数据库安放于在大于2台的服务器中部。3.如权利要求1所述的网站钓鱼伪装识别方法,具体地,所述映射服务器中部包含服务器id,所述特征数据包括网站的聚类划分,所述按照所获得的待识别网站的特征数据识别检测找出该数据映射所指的映射服务器的步骤具体地还包含:根据后台管理段事先确定的网站的聚类划分数据和映射服务器id的映射关系,获得用户正在浏览的待识别网站所映射的映射服务器的id;将所述映射服务器id映射的服务器确定为映射服务器。4.如前述任一项权利要求所述的网站钓鱼伪装识别方法,具体地,网站的聚类划分数据包含有如下中容:网站的中容聚类数据、网站的属性聚类数据、网站的tag聚类数据和网站的类型聚类数据等。5.如前述任一项权利要求所述的网站钓鱼伪装识别方法,具体地,所述特征数据包括网站的统一资源定位符,对上述的映射服务器而言,每一台映射服务器都有唯一所对应的数值id,通过上述网站的特征数据确定映射的服务器id的具体方法还包括:系统中置映射规则,通过预设映射规则将正在识别网站的统一资源定位符转换为数值;依据前述所获得的数值,按数值提取映射数值id的服务器,此外,还将该服务器用作映射服务器。6.如前述任一项权利要...

【专利技术属性】
技术研发人员:吴红英张艳艳高明月
申请(专利权)人:尚谷科技天津有限公司吴红英张艳艳高明月
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1