一种基于离线流量包解析的仿冒网站识别方法及系统技术方案

技术编号:21719265 阅读:152 留言:0更新日期:2019-07-27 21:47
本发明专利技术涉及一种基于离线流量包解析的仿冒网站识别方法,包括:根据已知网站信息库训练随机森林分类器,以构建对仿冒网站的判别模型;获取待检测网站的数据流并保存为离线流量包,通过该离线流量包得到该待检测网站的网站信息;根据该已知网站信息库对该网站信息进行规则匹配,对匹配为仿冒网站的待检测网站进行标识,将匹配失败的网站信息通过该判别模型进行判别,并对判别为仿冒网站的待检测网站进行标识。

A Method and System for Identifying Counterfeit Websites Based on Offline Traffic Packet Resolution

【技术实现步骤摘要】
一种基于离线流量包解析的仿冒网站识别方法及系统
本专利技术涉及网络信息技术及安全
,具体涉及一种基于离线流量包解析的仿冒网站识别方法和系统。
技术介绍
信息技术广泛应用和网络空间兴起发展,极大的促进了经济社会繁荣进步,同时也带来新的安全风险和挑战,仿冒网站等网络安全问题,严重危害着网民的个人信息安全和财产安全。网页仿冒俗称网络钓鱼(Phishing),是社会工程学欺骗原理与网络技术相结合的典型应用。《2017年中国互联网网络安全报告》显示,2017年,国家计算机网络应急技术处理协调中心(简称CNCERT/CC)监测发现约49493个针对我国境内网站的仿冒页面,涉及境内外25048个IP地址,平均每个IP地址承载两个钓鱼页面。仿冒网站不仅数量巨大,而且形式繁多,不法分子利用各种手段,仿冒真实网站的URL地址以及页面内容,或利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的HTML代码,以此来骗取用户银行或信用卡账号、密码等私人资料,严重威胁了网民信息隐私和财产安全。目前,仿冒网站的判别方法主要分为两类:基于规则匹配的检测方法:该方法通过根据制定的规则对待检测网站进行判定,本文档来自技高网...

【技术保护点】
1.一种基于离线流量包解析的仿冒网站识别方法,其特征在于,包括:根据已知网站信息库训练随机森林分类器,以构建对仿冒网站的判别模型;获取待检测网站的数据流并保存为离线流量包,通过该离线流量包得到该待检测网站的网站信息;根据该已知网站信息库对该网站信息进行规则匹配,对匹配为仿冒网站的待检测网站进行标识,将匹配失败的网站信息通过该判别模型进行判别,并对判别为仿冒网站的待检测网站进行标识。

【技术特征摘要】
1.一种基于离线流量包解析的仿冒网站识别方法,其特征在于,包括:根据已知网站信息库训练随机森林分类器,以构建对仿冒网站的判别模型;获取待检测网站的数据流并保存为离线流量包,通过该离线流量包得到该待检测网站的网站信息;根据该已知网站信息库对该网站信息进行规则匹配,对匹配为仿冒网站的待检测网站进行标识,将匹配失败的网站信息通过该判别模型进行判别,并对判别为仿冒网站的待检测网站进行标识。2.如权利要求1所述的仿冒网站识别方法,其特征在于,对该离线流量包进行解析,以获得数据包网络流标识flow,并对该数据包网络流标识进行TCP/UDP数据包重组,获得该网站信息;其中,flow=(PSrc_IPDst_IPSrc_portDst_Port),P为该数据流的网络协议,Src_IP为该数据流的源IP,Dst_IP为该数据流的目的IP,Src_port为该数据流的源端口,Dst_Port为该数据流的目的端口;该网站信息包括该待检测网站的IP和域名,及该数据流对应网页的标题和内容。3.如权利要求2所述的仿冒网站识别方法,其特征在于,使用工具libnids对该数据包网络流标识进行TCP/UDP数据包重组。4.如权利要求1所述的仿冒网站识别方法,其特征在于,该判别模型的随机森林分类器函数的特征变量包括:URL结构特征、IP及IP归属地定位、域名注册时间和高频标题词。5.一种基于离线流量包解析的仿冒网站识别系统,其特征在于,包括:判别模型构建模块,用于根据已知网站信息库训练随机森林分类器,以得到对仿冒网站的判别模型;流量包解析模块,用于获取待检测网站的数...

【专利技术属性】
技术研发人员:李鹏霄时磊张琳王海洋柳毅程光钮艳王元杰王祥隋明爽王艳华李雪梅
申请(专利权)人:中国科学院计算技术研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1