网页检测方法及装置制造方法及图纸

技术编号:17784087 阅读:50 留言:0更新日期:2018-04-22 15:27
本发明专利技术涉及互联网技术领域,具体涉及一种网页检测方法及装置,应用于包括数据库的终端设备,方法包括:获取互联网上的恶意链接地址以更新数据库中的黑名单链接,将待检测网页的网页链接与更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若都不匹配则标记为未知网页,并根据黑名单链接和白名单链接生成分类器,提取未知网页的脚本代码片段,并按照特征关键字从脚本代码片段中提取特征向量,采用分类器将特征向量与预设向量进行分类判断未知网页是否为恶意网页,并在该未知网页为恶意网页时标记为黑名单网址并保存至更新后的数据库。通过上述方法以有效保证网页检测的准确性及高效性,在检测网页过程中实时更新数据库。

【技术实现步骤摘要】
网页检测方法及装置
本专利技术涉及互联网
,具体而言,涉及一种网页检测方法及装置。
技术介绍
随着网络技术的发展,网络个人信息安全也越来越受到人们的关注。用户的账号和密码,是网络个人信息中很重要的一项,在现有技术中,非法网站经常会通过账号欺诈网页来骗取用户的账户和密码以进行非法活动,严重危害用户的权益。因此,如何对网页进行检测,以确定其是否为账号欺诈网页,对网络安全极为重要。目前,常用的几种检测方式分别是:模式匹配检测、启发式分析和蜜罐技术。但是,模式匹配的缺点是不能检测出含有混淆代码的恶意网页和未知类型的攻击,启发式分析技术的缺点是误判率和漏判率比较高,蜜罐式技术的检测周期长。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种网页检测方法及装置,以有效保证网页检测的准确性及高效性,在检测网页过程中实时更新数据库。为了达到上述目的,本专利技术较佳实施例提供一种网页检测方法,应用于包括数据库的终端设备,所述数据库中存储有黑名单链接和白名单链接,所述方法包括:获取互联网上的恶意链接地址以更新所述数据库中的黑名单链接得到更新后的数据库;将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若与黑名单链接匹配则将该待检测网页标记为恶意网页,若与白名单链接匹配则将该待检测网页标记为安全网页,若都不匹配则标记为未知网页;根据所述黑名单链接和白名单链接生成分类器;提取所述未知网页的脚本代码片段,并按照特征关键字从所述脚本代码片段中提取特征向量;采用所述分类器将所述特征向量与预设向量进行分类判断得到该未知网页是否为恶意网页,并在该未知网页为恶意网页时,获取该未知网页的网址并标记为黑名单网址并保存至所述更新后的数据库。在本专利技术的较佳实施例中,在上述网页检测方法中,根据所述黑名单链接和白名单链接生成分类器的步骤包括:获取总数数量为设定值的多个黑名单链接和多个白名单链接作为初始样本;针对所述初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习以生成初始分类器;获取多个互联网上未被标记的链接作为候选样本;从所述初始分类器对所述候选样本中所有未标记的链接进行分类后选取预设数量的未标记的链接,其中,该预设数量的多个未标记的链接靠近所述初始分类器的分类超平面;接收用户针对该预设数量的未标记的链接中的每个未标记的链接发送的标记指令,并根据所述标记指令对对应的未标记的链接进行标记得到标记后的链接,该标记后的链接为黑名单链接或白名单链接;将预设数量的所述标记后的链接加入所述初始样本中,以再次针对该初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习得到分类器。在本专利技术的较佳实施例中,在上述网页检测方法中,将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配的步骤包括:采用正则表达式提取所述待检测网页地址的主域名、所述更新后的数据库中的黑名单地址的主域名和白名单的主域名;根据所述待检测网页地址的主域名得到待检测MD5值,根据所述更新后的数据库中的黑名单地址的主域名得到黑名单MD5值,以及根据所述白名单链接的主域名得到白名单MD5值;将所述待检测MD5值与所述黑名单MD5值和白名单MD5值分别进行匹配。在本专利技术的较佳实施例中,在上述网页检测方法中,所述数据库中预存有恶意代码特征,将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配之后,所述方法还包括:将所述未知网页的源码与所述恶意代码特征进行匹配,若匹配则将该未知网页标记为恶意网页,并将该未知网页的网址标记为黑名单网址并保存至所述更新后的数据库中。在本专利技术的较佳实施例中,在上述网页检测方法中,按照特征关键字从所述脚本代码片段中提取特征向量的步骤包括:按照特征关键字出现的次数、字符串长度以及信息熵值从所述脚本代码片段中提取特征向量。本专利技术还提供一种网页检测装置,应用于包括数据库的终端设备,所述装置包括:更新模块:用于获取互联网上的恶意链接地址以更新所述数据库中的黑名单链接得到更新后的数据库;第一检测模块:用于将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若与黑名单链接匹配则将该待检测网页标记为恶意网页,若与白名单链接匹配则将该待检测网页标记为安全网页,若都不匹配则标记为未知网页;分类器生成模块:用于根据所述黑名单链接和白名单链接生成分类器;提取模块:用于提取所述未知网页的脚本代码片段,并按照特征关键字从所述脚本代码片段中提取特征向量;第二检测模块:用于采用所述分类器将所述特征向量与预设向量进行分类判断得到该未知网页是否为恶意网页,并在该未知网页为恶意网页时,获取该未知网页的网址并标记为黑名单网址并保存至所述更新后的数据库。在本专利技术的较佳实施例中,在上述网页检测装置中,所述分类器生成模块包括:第一获取子模块:用于获取总数数量为设定值的多个黑名单链接和多个白名单链接作为初始样本;第一生成子模块:用于针对所述初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习以生成初始分类器;第二获取子模块:用于获取多个互联网上未被标记的链接作为候选样本;分类子模块:用于从所述初始分类器对所述候选样本中所有未标记的链接进行分类后选取预设数量的未标记的链接,其中,该预设数量的多个未标记的链接靠近所述初始分类器的分类超平面;接收子模块:用于接收用户针对该预设数量的未标记的链接中的每个未标记的链接发送的标记指令,并根据所述标记指令对对应的未标记的链接进行标记得到标记后的链接,该标记后的链接为黑名单链接或白名单链接;第二生成子模块:用于将预设数量的所述标记后的链接加入所述初始样本中,以再次针对该初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习得到分类器。在本专利技术的较佳实施例中,在上述网页检测装置中,所述第一检测模块包括:主域名获取子模块:用于采用正则表达式提取所述待检测网页地址的主域名、所述更新后的数据库中的黑名单地址的主域名和白名单的主域名;检测子模块:用于根据所述待检测网页地址的主域名得到待检测MD5值,根据所述更新后的数据库中的黑名单地址的主域名得到黑名单MD5值,以及根据所述白名单链接的主域名得到白名单MD5值;匹配子模块:用于将所述待检测MD5值与所述黑名单MD5值和白名单MD5值分别进行匹配。在本专利技术的较佳实施例中,在上述网页检测装置中,所述数据库中预存有恶意代码特征,所述装置还包括:第三检测模块:用于将所述未知网页的源码与所述恶意代码特征进行匹配,若匹配则将该未知网页标记为恶意网页,并将该未知网页的网址标记为黑名单网址并保存至所述更新后的数据库中。在本专利技术的较佳实施例中,在上述网页检测装置中,所述提取模块还用于:按照特征关键字出现的次数、字符串长度以及信息熵值从所述脚本代码片段中提取特征向量。本专利技术提供的一种网页检测方法及装置,应用于包括数据库的终端设备,方法包括:获取互联网上的恶意链接地址以更新数据库中的黑名单链接,将待检测网页的网页链接与更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若都不匹配则标记为未知网页,并根据黑名单链接和白名单链接生成分类器,提取未知网页的脚本代码片段,并按照特征关键字从脚本代码片段中提取特征向量,采用本文档来自技高网...
网页检测方法及装置

【技术保护点】
一种网页检测方法,应用于包括数据库的终端设备,其特征在于,所述数据库中存储有黑名单链接和白名单链接,所述方法包括:获取互联网上的恶意链接地址以更新所述数据库中的黑名单链接得到更新后的数据库;将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若与黑名单链接匹配则将该待检测网页标记为恶意网页,若与白名单链接匹配则将该待检测网页标记为安全网页,若都不匹配则标记为未知网页;根据所述黑名单链接和白名单链接生成分类器;提取所述未知网页的脚本代码片段,并按照特征关键字从所述脚本代码片段中提取特征向量;采用所述分类器将所述特征向量与预设向量进行分类判断得到该未知网页是否为恶意网页,并在该未知网页为恶意网页时,获取该未知网页的网址并标记为黑名单网址并保存至所述更新后的数据库。

【技术特征摘要】
1.一种网页检测方法,应用于包括数据库的终端设备,其特征在于,所述数据库中存储有黑名单链接和白名单链接,所述方法包括:获取互联网上的恶意链接地址以更新所述数据库中的黑名单链接得到更新后的数据库;将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配,若与黑名单链接匹配则将该待检测网页标记为恶意网页,若与白名单链接匹配则将该待检测网页标记为安全网页,若都不匹配则标记为未知网页;根据所述黑名单链接和白名单链接生成分类器;提取所述未知网页的脚本代码片段,并按照特征关键字从所述脚本代码片段中提取特征向量;采用所述分类器将所述特征向量与预设向量进行分类判断得到该未知网页是否为恶意网页,并在该未知网页为恶意网页时,获取该未知网页的网址并标记为黑名单网址并保存至所述更新后的数据库。2.根据权利要求1所述的网页检测方法,其特征在于,根据所述黑名单链接和白名单链接生成分类器的步骤包括:获取总数数量为设定值的多个黑名单链接和多个白名单链接作为初始样本;针对所述初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习以生成初始分类器;获取多个互联网上未被标记的链接作为候选样本;从所述初始分类器对所述候选样本中所有未标记的链接进行分类后选取预设数量的未标记的链接,其中,该预设数量的多个未标记的链接靠近所述初始分类器的分类超平面;接收用户针对该预设数量的未标记的链接中的每个未标记的链接发送的标记指令,并根据所述标记指令对对应的未标记的链接进行标记得到标记后的链接,该标记后的链接为黑名单链接或白名单链接;将预设数量的所述标记后的链接加入所述初始样本中,以再次针对该初始样本中的每个代码特征取相同的权重,并进行多次SVM分类学习得到分类器。3.根据权利要求1所述的网页检测方法,其特征在于,将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配的步骤包括:采用正则表达式提取所述待检测网页地址的主域名、所述更新后的数据库中的黑名单地址的主域名和白名单的主域名;根据所述待检测网页地址的主域名得到待检测MD5值,根据所述更新后的数据库中的黑名单地址的主域名得到黑名单MD5值,以及根据所述白名单链接的主域名得到白名单MD5值;将所述待检测MD5值与所述黑名单MD5值和白名单MD5值分别进行匹配。4.根据权利要求1所述的网页检测方法,其特征在于,所述数据库中预存有恶意代码特征,将待检测网页的网页链接与所述更新后的数据库中的黑名单链接和白名单链接分别进行匹配之后,所述方法还包括:将所述未知网页的源码与所述恶意代码特征进行匹配,若匹配则将该未知网页标记为恶意网页,并将该未知网页的网址标记为黑名单网址并保存至所述更新后的数据库中。5.根据权利要求1所述的网页检测方法,其特征在于,按照特征关键字从所述脚本代码片段中提取特征向量的步骤包括:按照特征关键字出现的次数、字符串长度以及信息熵值从所述脚本代码片段中提取特征向量。6...

【专利技术属性】
技术研发人员:张磊刘亮陈航陈纯邹晓波方勇
申请(专利权)人:四川无声信息技术有限公司四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1