识别钓鱼网站的方法及装置制造方法及图纸

技术编号:12872243 阅读:64 留言:0更新日期:2016-02-17 10:13
本发明专利技术公开了一种识别钓鱼网站的方法及装置,涉及互联网安全领域,为解决钓鱼网站识别准确度低的问题而发明专利技术。本发明专利技术的方法包括:获取已知钓鱼网站的页面,作为样本页面;从样本页面中提取页面的特征向量;通过页面的特征向量训练检测模型;使用检测模型对未知页面进行检测,获得未知页面是否为钓鱼网站页面的检测结果。本发明专利技术主要应用于第三方安全机构向互联网用户提供网络安全保障服务的过程中。

【技术实现步骤摘要】

本专利技术涉及互联网安全领域,尤其涉及一种识别钓鱼网站的方法及装置
技术介绍
钓鱼网站通常是指伪装成银行网站或电子商务网站、用以窃取用户提交的私人信息的网站。不法分子利用各种手段仿冒真实网站的统一资源定位符(Uniform ResourceLocator,简称URL)及页面内容,诱导用户访问仿冒的页面内容,以此来骗取用户输入的银行帐号、密码等私人信息。钓鱼网站的出现严重影响了在线金融服务的发展,破坏了公众使用互联网的信心。因此对钓鱼网站进行有效识别就成为互联网安全领域中的一项重要工作。现有识别钓鱼网站的方式为:向第三方域名注册网站查询目标网站的域名注册信息或者证书信息,通过对域名注册信息或证书信息的查验,判断目标网站是否为钓鱼网站。例如,当目标网站的域名注册时间与当前的查询时间很靠近时,说明目标网站是新近注册的网站,这种情况属于钓鱼网站的特点之一。或者,当域名过期而且未续展时,目标网站为钓鱼网站的嫌疑也比较大。现有方式主要以来自域名注册方的域名信息作为识别钓鱼网站的依据,但是域名信息并不能直接反映钓鱼网站的页面特征,例如仿冒其他网站页面样式、显示诈骗信息等。现有方式只能是对钓鱼网站的域名信息进行规律总结,通过域名信息的规律性特点对钓鱼网站进行识别,因此这种方式的准确性较低。例如,某些正规网站也可能是最近一段时间注册上线的,不能因为域名注册时间较晚就将其确定为钓鱼网站;再例如,某些正规网站可能会在域名过期后忘记续展(当然,一定期限内可以赎回域名),仅因域名过期就将网站确定为钓鱼网站,这样做显然也是欠妥的。
技术实现思路
本专利技术提供了一种识别钓鱼网站的方法及装置,能够解决钓鱼网站识别准确度低的问题。为解决上述问题,一方面本专利技术提供了一种识别钓鱼网站的方法,该方法包括:获取已知钓鱼网站的页面,作为样本页面;从样本页面中提取页面的特征向量;通过页面的特征向量训练检测模型;使用检测模型对未知页面进行检测,获得未知页面是否为钓鱼网站页面的检测结果O另一方面本专利技术还提供了一种识别钓鱼网站的装置,该装置包括:获取单元,用于获取已知钓鱼网站的页面,作为样本页面;提取单元,用于从样本页面中提取页面的特征向量;训练单元,用于通过页面的特征向量训练检测模型;检测单元,用于使用检测模型对未知页面进行检测,获得未知页面是否为钓鱼网站页面的检测结果。本专利技术提供的识别钓鱼网站的方法及装置,能够以已知钓鱼网站的页面为样本页面,通过页面中的特征向量训练检测模型。然后使用检测模型对未知页面进行检测,如果未知页面具有与样本页面相同或相似的特征向量,则可以确定未知页面为钓鱼网站页面。与现有技术中相比,本专利技术以能够直接反映钓鱼网站样式特点的页面特征向量作为识别钓鱼网站的判断依据,并且使用检测模型对大量钓鱼网站页面的特征向量进行学习,以尽量全面的吸收各种钓鱼网站页面的样式特点,因此可以提高识别钓鱼网站的准确度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的【具体实施方式】。【附图说明】通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种识别钓鱼网站的方法流程图;图2示出了本专利技术实施例提供的另一种识别钓鱼网站的方法流程图;图3示出了本专利技术实施例提供的一种识别钓鱼网站的装置的组成框图;图4示出了本专利技术实施例提供的另一种识别钓鱼网站的装置的组成框图。【具体实施方式】下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种识别钓鱼网站的方法,如图1所示,该方法包括:101、获取已知钓鱼网站的页面,作为样本页面。本专利技术实施例可以由第三方的安全服务器或监控客户端进行实现。监控客户端的实体形式包括但不限于是手机、个人电脑(Personal Computer,简称PC)、平板电脑以及可穿戴式电子设备。为便于表述本专利技术实施例后续将以安全服务器为例进行说明。本实施例中,训练检测模型的数据材料是已知钓鱼网站的网页页面,服务器可以通过现有手段收集已知钓鱼网站的网页页面,包括但不限于是:1、通过页面的URL请求获取;2、通过网络用户举报获取;3、向第三方监管机构获取;4、通过网络爬虫获取。实际应用中,训练检测模型的数据材料可以一次性给出,也可以随时间的推移不断进行增量更新,本实施例不对数据材料的数量进行限制。102、从样本页面中提取页面的特征向量。钓鱼网站的页面(后续简称为钓鱼页面)与正规网站的页面之间,在内容及结构样式上存在一些差异,例如钓鱼页面的超文本标记语言(HyperText Markup Language,简称HTML)中通常会存在title标签嵌套的现象,而正规页面则不会出现此问题,或者钓鱼页面正文中存在仿冒银行网站或电子商务网站的中奖信息等。本实施例中,将这些能够体现钓鱼网站特点的信息称之为特征向量,服务器从钓鱼页面中提取这些特征向量,对检测模型进行训练,以使检测模型获得识别钓鱼网站的判断标准,从而在后续可以对钓鱼网站的页面进行有效识别。本实施例中,特征向量可以来自于页面的HTML源代码中,也可以是页面中呈现的图文信息,本实施例对此不作限制。实际应用中样本页面的数量和种类越多,检测模型的识别准确度就越高。103、通过页面的特征向量训练检测模型。使用从样本页面中提取的特征向量对检测模型进行训练。本实施例中,可以通过机器学习的方式训练检测模型。在学习方式上具体可以包括监督式学习、非监督式学习、半监督式学习、强化学习等。在学习算法的种类方面,可以包括回归算法、基于实例的算法、正则化算法、决策树算法、贝叶斯算法、基于核的算法、聚类算法、分类算法、关联规则算法、人工神经网络、深度学习、降低维度算法、集成算法等。本实施例不对训练检测模型的方式进行具体限制。104、使用检测模型对未知页面进行检测,获得未知页面是否为钓鱼网站页面的检测结果。在获得检测模型后就可以使用该模型对未知页面进行检测了。所谓未知页面就是作为检测对象的目标网站的页面。检测未知页面的目的在于判断该页面是否为钓鱼网站的页面。在本实施例的一种实现方式中,可以不给出位置页面是否为钓鱼页面的定性结论,而是给出未知页面可能为钓鱼页面的概率大小,本实施例不对检测结果的形式和内容进行具体限制,一切基于特征向量检测给出的、能够为用户甄别钓鱼网站提供指导性意见的信息均包含于所述检测结果的范畴内。在对未知页面进行检测时,需要从未知页面中提取特征向量,这里所述的特征向量是指与前述样本页面的特征向量在结构或内容上对应的信息,但两者并不一定是在结果或内容上相同。这是由于,对于未知页面而言,其有可能是钓鱼页面也有可能是正规页面,当为钓鱼页面时,其特征向量会与某个或某些样本本文档来自技高网...

【技术保护点】
一种识别钓鱼网站的方法,其特征在于,所述方法包括:获取已知钓鱼网站的页面,作为样本页面;从所述样本页面中提取页面的特征向量;通过所述页面的特征向量训练检测模型;使用所述检测模型对未知页面进行检测,获得所述未知页面是否为钓鱼网站页面的检测结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:李晓波尹露杨晶
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1