一种网页危险性的识别方法和装置制造方法及图纸

技术编号:8593988 阅读:167 留言:0更新日期:2013-04-18 07:10
本发明专利技术实施例公开了一种网页危险性的识别方法和装置,所述方法包括:收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并符合预设相似条件的候选表征信息;统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;依据所述表征信息训练网页危险性的预测模型,并依据所述预测模型对待检测网页的危险性进行识别。相比于人工筛选钓鱼网页文本特征,本发明专利技术实施例大大提高了信息提取的效率。

【技术实现步骤摘要】

本专利技术实施例涉及网页安全
,具体涉及一种网页危险性的识别方法和装置
技术介绍
钓鱼网站主要是通过仿冒真实网站的URL地址或是页面内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。钓鱼网页中包含着许多敏感的特征,例如,金融欺诈类的钓鱼网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。目前对钓鱼网页识别的方法,主要是通过人工审核钓鱼网页,以收集一些简单的钓鱼网站的文本特征,供浏览器插件依据这些文本特征对网页内容进行判断,过滤掉这些已报告的攻击网站。但是,现今钓鱼网站的存活期越来越短,新的钓鱼网页层出不穷,需要审核的网页量太大;并且钓鱼网站的特征变化加快,按照传统的人工审核的方式,提取信息的效率会比较低。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网页危险性的识别方法和装置。根据本专利技术的一个方面。提供了一种网页危险性的识别方法,包括收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并符合预设相似条件的候选表征信息;统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;依据所述表征信息训练网页危险性的预测模型,并依据所述预测模型对待检测网页的危险性进行识别。本专利技术实施例中,所述将安全网页和危险网页所包含的各个字符依次组成多个候选表征信息的步骤包括提取安全网页和危险网页所对应的页面内容;以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。本专利技术实施例中,所述合并符合预设相似条件的候选表征信息的步骤包括针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串;若所述最长公共子串的字符个数符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值符合第二预设范围;则,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。本专利技术实施例中,通过以下步骤确定两个候选表征信息的最长公共子串将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵;针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为0,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值;提取节点值最大的节点所在对角线中,连续的、节点值非0的节点对应的字符作为最长公共子串。本专利技术实施例中,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数;所述统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据表征参数筛选多个候选表征信息作为网页危险性的表征信息的步骤包括分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息;分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。本专利技术实施例中,所述分别统计合并后的各个候选表征信息与危险网页的相关性参数的步骤包括依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡方检验法,计算各个候选表征信息与危险网页的相关性参数。本专利技术实施例中,所述分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数的步骤包括依据筛选后的各个候选表征信息在各个安全网页和各个危险网页中分别出现的次数,构建安全网页和危险网页的分类函数,并依据所述分类函数确定各个候选表征信息的权重参数。本专利技术实施例中,通过支持向量机线性分类器构建安全网页和危险网页的分类函数。本专利技术实施例中,所述预测模型包括各表征信息在网页中出现的次数与网页危险性的对应关系;所述依据预测模型对待检测网页的危险性进行识别的步骤包括统计各表征信息在待预测网页中出现的次数,并输入所述预测模型;所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果。本专利技术实施例中,通过随机森林分类器,依据所述表征信息训练网页危险性的预测模型,所述预测模型包括多个决策树子模型,各决策树子模型分别包括表征信息在网页中出现的次数与网页危险性的对应关系;所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果的步骤包括各决策树子模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性预测结果;将各决策树子模型生成的危险性预测结果进行加权平均,将加权平均的结果作为待检测网页的危险性识别结果。根据本专利技术的另一个方面,提供了一种网页危险性的识别装置,包括候选表征信息组成模块,适于收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并模块,适于合并符合预设相似条件的候选表征信息;筛选模块,适于统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;模型训练模块,适于依据所述表征信息训练网页危险性的预测模型;识别模块,适于依据所述预测模型对待检测网页的危险性进行识别。本专利技术实施例中,所述候选表征信息组成模块包括第一提取子模块,适于提取安全网页和危险网页所对应的页面内容;第二提取子模块,适于以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。本专利技术实施例中,所述合并模块包括公共子串提取子模块,适于针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串;范围判断子模块,判断所述最长公共子串的字符个数是否符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值是否符合第二预设范围;信息删除子模块,适于当所述范围判断子模块的结果为是时,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。本专利技术实施例中,所述公共子串提取子模块包括矩阵形成子单元,适于将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵;赋值子单元,适于针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为0,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值;字符提取子单元,适于提取节点值最大的节点所在对角线中,连续的、节点值非0的节点对应的字符作为最长公共子串。本专利技术实施例中,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数;所述筛选模块包括相关性筛选子模块,适于分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息;权重筛选子模块,适于分别统计筛选后的各个候选表征信息对划分安全网页本文档来自技高网...

【技术保护点】
一种网页危险性的识别方法,包括:收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息;合并符合预设相似条件的候选表征信息;统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息;依据所述表征信息训练网页危险性的预测模型,并依据所述预测模型对待检测网页的危险性进行识别。

【技术特征摘要】
1.一种网页危险性的识别方法,包括 收集安全网页和危险网页,将所述安全网页和危险网页所包含的各个字符依次组成多个候选表征信息; 合并符合预设相似条件的候选表征信息; 统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据所述表征参数筛选多个候选表征信息作为网页危险性的表征信息; 依据所述表征信息训练网页危险性的预测模型,并依据所述预测模型对待检测网页的危险性进行识别。2.根据权利要求1所述的方法,所述将安全网页和危险网页所包含的各个字符依次组成多个候选表征信息的步骤包括 提取安全网页和危险网页所对应的页面内容; 以连续的多个汉字或一个英文单词作为一个候选表征信息,从所述页面内容中提取多个候选表征信息。3.根据权利要求1所述的方法,所述合并符合预设相似条件的候选表征信息的步骤包括 针对任意两个候选表征信息,提取所述两个候选表征信息的最长公共子串; 若所述最长公共子串的字符个数符合第一预设范围,且所述两个候选表征信息在安全网页和危险网页中总共出现的次数的差值符合第二预设范围; 贝U,删除在各个安全网页和危险网页中总共出现的次数较小的候选表征信息。4.根据权利要求3所述的方法,通过以下步骤确定两个候选表征信息的最长公共子串 将两个候选表征信息所包含的字符分别以行和列的形式组成矩阵; 针对矩阵中的各个节点,若对应的行列字符相同,则设置节点值为1,若不同,则设置节点值为O,并以该节点的节点值与左上角的所有节点的节点值之和对该节点的节点值重新赋值; 提取节点值最大的节点所在对角线中,连续的、节点值非O的节点对应的字符作为最长公共子串。5.根据权利要求1所述的方法,所述表征参数包括表征信息与危险网页的相关性参数,以及表征信息对划分安全网页和危险网页的权重参数; 所述统计合并后的各个候选表征信息对划分安全网页和危险网页的表征参数,并依据表征参数筛选多个候选表征信息作为网页危险性的表征信息的步骤包括 分别统计合并后的各个候选表征信息与危险网页的相关性参数,并筛选所述相关性参数从大到小排序靠前的候选表征信息; 分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数,并筛选所述权重参数从大到小排序靠前的候选表征信息。6.根据权利要求5所述的方法,所述分别统计合并后的各个候选表征信息与危险网页的相关性参数的步骤包括 依据合并后的各个候选表征信息在安全网页和危险网页中分别出现的次数,通过卡方检验法,计算各个候选表征信息与危险网页的相关性参数。7.根据权利要求5所述的方法,所述分别统计筛选后的各个候选表征信息对划分安全网页和危险网页的权重参数的步骤包括依据筛选后的各个候选表征信息在各个安全网页和各个危险网页中分别出现的次数, 构建安全网页和危险网页的分类函数,并依据所述分类函数确定各个候选表征信息的权重参数。8.根据权利要求7所述的方法,通过支持向量机线性分类器构建安全网页和危险网页的分类函数。9.根据权利要求1所述的方法,所述预测模型包括各表征信息在网页中出现的次数与网页危险性的对应关系;所述依据预测模型对待检测网页的危险性进行识别的步骤包括统计各表征信息在待预测网页中出现的次数,并输入所述预测模型;所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果。10.根据权利要求1所述的方法,通过随机森林分类器,依据所述表征信息训练网页危险性的预测模型,所述预测模型包括多个决策树子模型,各决策树子模型分别包括表征信息在网页中出现的次数与网页危险性的对应关系;所述预测模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性识别结果的步骤包括 各决策树子模型依据各表征信息在待预测网页中出现的次数,以及各表征信息在网页中出现的次数与网页危险性的对应关系,生成待检测网页的危险性预测结果;将各决策树子模型生成的危险性预测结果进行加权平均,将加权平均...

【专利技术属性】
技术研发人员:董毅韩洪伟谢军样刘绪平唐杰
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1