网页危险性的识别系统技术方案

技术编号:8593987 阅读:244 留言:0更新日期:2013-04-18 07:10
本发明专利技术实施例公开了一种网页危险性的识别系统,所述系统包括网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎;所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器;所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别;所述网页危险性识别引擎包括:候选表征信息组成模块;合并模块;筛选模块;模型训练模块;识别模块。相比于人工筛选钓鱼网页文本特征,本发明专利技术实施例大大提高了信息提取的效率。

【技术实现步骤摘要】

本专利技术实施例涉及网页安全
,具体涉及一种网页危险性的识别系统
技术介绍
钓鱼网站主要是通过仿冒真实网站的URL地址或是页面内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼网页中包含着许多敏感的特征,例如,金融欺诈类的钓鱼网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。目前对钓鱼网页识别的方法,主要是通过人工审核钓鱼网页,以收集一些简单的钓鱼网站的文本特征,供浏览器插件依据这些文本特征对网页内容进行判断,过滤掉这些已报告的攻击网站。但是,现今钓鱼网站的存活期越来越短,新的钓鱼网页层出不穷,需要审核的网页量太大;并且钓鱼网站的特征变化加快,按照传统的人工审核的方式,提取信息的效率会比较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网页危险性的识别系统。根据本专利技术,提供了一种网页危险性的识别系统,包括网页收集服务本文档来自技高网...

【技术保护点】
一种网页危险性的识别系统,包括:网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎;所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器;所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别;所述网页危险性识别引擎包括:候选表征信息组成模块,适于收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并模块,适于合并符合预设相似条件的候选表征信息;筛选模块,适于统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;模型训练模块,适于...

【技术特征摘要】
1.一种网页危险性的识别系统,包括 网页收集服务器、客户端、网页存储服务器、网页危险性识别引擎; 所述网页收集服务器和客户端收集待检测网页,并发送到网页处理服务器; 所述网页危险性识别引擎从所述网页存储服务器提取待检测网页并对待检测网页的危险性进行识别; 所述网页危险性识别引擎包括 候选表征信息组成模块,适于收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息; 合并模块,适于合并符合预设相似条件的候选表征信息; 筛选模块,适于统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息; 模型训练模块,适于依据所述表征信息训练网页危险性的预测模型; 识别模块,适于依据所述预测模型对待检测网页的危险性进行识别。2.根据权利要求1所述的识别系统,所述候选表征信息组成模块包括 第一提取子模块,适于提取安全网页和危险网页所对应的页面内容; 第二提取子模块,适于以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。3.根据权利要求1所述的识别系统,所述合并模块包括 公共子串提取子模块,适于针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串; 范围判断子模块,判断所述最长公共子串的字符个数是否符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值是否符合第二预设范围; 信息删除子模块,适于当所述范围判断子模块的结果为是时,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。4.根据权利要求3所述的识别系统,所述公共子串提取子模块包括 矩阵形成子单元,适于将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵; 赋值子单元,适于针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为O,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值; 字符提取子单元,适于提取节点值最大的节点所在对角线中,连续的、节点值非O...

【专利技术属性】
技术研发人员:董毅韩洪伟谢军样刘绪平唐杰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1