一种网站的识别方法及装置制造方法及图纸

技术编号:20224546 阅读:40 留言:0更新日期:2019-01-28 22:34
本发明专利技术实施提供一种网站的识别方法及装置,所述方法包括:接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。本发明专利技术实施例实现了快速准确高效地识别异常网站,并有效地降低了系统的误判率,提升了用户体验。

【技术实现步骤摘要】
一种网站的识别方法及装置
本专利技术涉及计算机
,具体涉及一种网站的识别方法及装置。
技术介绍
随着移动互联网的高速发展,用户浏览网站信息的途径已经从单一的PC端越来越多转变为移动端设备。2016年6月22日,中国互联网络信息中心(CNNIC)在北京发布第37次《中国互联网络发展状况统计报告》,报告显示:截至2015年12月,我国网民规模达6.88亿,其中手机网民规模达6.20亿,占比高达90.12%。与此同时手机客户端的安全问题也日益凸显,2015年我国境内活跃的智能手机联网终端达11.3亿部,以“仿冒、钓鱼网站、恶意程序”为首的问题日益增多,给用户上网安全带来了威胁,造成钱财的损失或者个人信息的泄露。目前运营商对手机客户端请求的统一资源定位器(UniformResoureLocator:以下简称URL)在网络侧主要通过黑名单方式进行拦截。黑名单方法:在无线应用协议(WirelessApplicationProtocol:以下简称WAP)为WAP网关配置黑名单列表,手机http请求到达WAP网关后,网关分析超文本传输协议(HyperTextTransferProtocol,HTTP)头中的URL,并依次检索匹配,如果次URL在黑名单中命中,则WAP网关不再代理请求,直接返回给手机终端403,拒绝访问该页面。黑名单方法的优点:简单直接,凡是命中黑名单的URL网关都不再进行下一步做代理请求,由于代理网关无需向原始服务器做请求,因此能够减轻代理网关的负荷。手机终端直接得到403拒绝访问的页面(浏览器或应用程序app呈现)。黑名单方法缺点:1、目前黑名单部署在WAP网关,需要用户在终端设置10.0.0.172代理,如果不设置代理,则用户上网流量不经过WAP网关,就无法拦截。据统计,目前90%以上的用户都不在终端侧设置10.0.0.172代理,该拦截方案对此部分用户没有效果。2、黑名单拦截方式,页面过于简单,会导致用户误以为网络故障,体验较差。用户访问非法的网站,多数是从非法短信/邮件/广告等的推送得到,用户本身并不知晓自己访问的网站是非法的/有害的/错误的。黑名单的处理方式,有效地阻止了用户的访问,但是用户得到一个过于简单的拒绝访问页面,用户会误认为网络或者网站服务存在问题,降低用户对运营商网络或者网站的评价。另外,该方式容易导致用户反复尝试访问,或者客户端自动尝试重新访问,这样随着“仿冒、钓鱼网站”的增多,黑名单也越来越大,过大的黑名单意味着每次匹配需要更长的时间。这增加了代理网关的处理负荷,降低代理网关处理效率,从而降低用户上网速度。3、传统的黑名单拦截方式要求数据准确度非常高,为了确保不会误拦正常网站,需要大量的人工去逐个审核,耗时耗力,无法针对整个互联网上的数以几十亿计的疑似网站进行逐一审核。另外,仿冒、钓鱼网站具有域名变化频繁、相似度高、时效性短等特点,所以传统黑名单方式已经不适应当前需求。4、传统的黑名单拦截方式对于绝大部分的疑似网站不能灵活处理,如果加入黑名单直接拦截容易引起网站的投诉,如果不做任何处理又确实存在泄露客户隐私的风险。因此,如何改进传统的黑名单拦截方式,快速准确高效地识别异常网站成为一个亟待解决的技术问题。
技术实现思路
针对现有技术中的缺陷,本专利技术实施例提供了一种网站的识别方法及装置。第一方面,本专利技术实施例提供了一种网站的识别方法,所述方法包括:接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。可选的,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。可选的,所述异常网站具体包括:高概率异常网站、疑似异常网站和高概率正常网站。可选的,所述方法还包括:若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。可选的,所述方法还包括:根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;若识别结果为所述高概率异常网站,则添加到所述黑名单中;若识别结果为所述高概率正常网站,则添加到所述白名单中;若识别结果既不是所述高概率异常网站也不是所述高概率正常网站,则继续保留在所述灰名单中等待下一次迭代计算,进行识别。可选的,所述域名名称相似度权重的计算方法包括:建立白名单网站域名库;对比所述URL请求对应的URL的域名与所述白名单网站域名库中的域名,判断是否存在常见拼写错误、元音字符替代、同音异形字替换、错误的顶级域名替换、错误的二级域名替换、单数复数变换、同形字、缺失或重复某一字符、相邻字符交换位置、键盘相邻字符替代或插入、分隔字符的插入或删除内容,得到判断结果;根据所述判断结果,计算出所述URL请求对应的URL的域名与所述白名单网站域名库中的域名的相似度得分值,并获取所述得分值中的最大值作为所述URL请求对应的URL的域名名称相似度权重。第二方面,本专利技术实施例提供了一种网站的识别装置,所述装置包括:白名单处理装置,用于接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;黑名单处理装置,用于在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;异常网站处理装置,用于若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。可选的,所述异常网站处理装置具体包括:根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。可选的,所述异常网站具体包括:高概率异常网站、疑似异常网站和高概率正常网站。可选的,所述装置还包括:二次识别装置,本文档来自技高网
...

【技术保护点】
1.一种网站的识别方法,其特征在于,所述方法包括:接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。

【技术特征摘要】
1.一种网站的识别方法,其特征在于,所述方法包括:接收用户访问网站的统一资源定位器URL请求,在白名单中查找所述URL请求对应的URL,若在所述白名单中查找到所述URL请求对应的URL,则连接所述URL请求对应的URL;在黑名单中查找所述URL请求对应的URL,若在所述黑名单中查找到所述URL请求对应的URL,则生成高危风险提示信息;若在所述白名单和所述黑名单中均没有查找到所述URL请求对应的URL,则根据预设规则计算所述URL请求对应的URL的各个特征权重值,并根据所述各个特征权重值识别所述URL请求对应的URL是否为异常网站。2.根据权利要求1所述的方法,其特征在于,所述根据预设规则计算所述URL请求对应的URL的各个特征权重值,具体包括:根据预设规则计算所述URL请求对应的URL的域名名称相似度权重、网页内容相似度权重、用户举报量的权重、二次访问量权重四个维度的特征权重值。3.根据权利要求1所述的方法,其特征在于,所述异常网站具体包括:高概率异常网站、疑似异常网站和高概率正常网站。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述URL请求对应的URL是异常网站,则对所述URL请求对应的URL进行二次识别;若所述二次识别的结果为所述高概率异常网站,则生成高危风险提示信息,并跟踪识别所述高概率异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述高概率异常网站到所述黑名单中;若所述二次识别的结果为所述高概率正常网站,则直接连接所述高概率正常网站,并添加所述高概率正常网站到所述白名单中;若所述二次识别的结果为所述疑似异常网站,则生成一般风险提示信息,跟踪识别所述疑似异常网站,二次连接所述高概率异常网站并统计二次连接次数,并添加所述疑似异常网站到灰名单中。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据用户每次反馈信息、爬取网页内容、更新网页内容特征相似度值、网站二次访问量的周期性更新信息对所述黑名单、所述白名单和所述灰名单进行迭代计算识别;若识别结果为所述高概率...

【专利技术属性】
技术研发人员:付为民郝建忠郑浩彬陈涛邬学农
申请(专利权)人:中国移动通信集团广东有限公司中国移动通信集团公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1