结合本地内容规则库识别可疑钓鱼网页的方法及系统技术方案

技术编号:10697907 阅读:360 留言:0更新日期:2014-11-27 02:46
本发明专利技术公开了一种结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器及系统。其中本地内容规则库包含至少一条规则以及与每条规则对应的规则标识,方法包括:在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页。本发明专利技术将本地匹配与云端识别相结合,扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源。

【技术实现步骤摘要】
结合本地内容规则库识别可疑钓鱼网页的方法及系统
本专利技术涉及互联网
,具体涉及一种结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器及系统。
技术介绍
随着互联网的发展,基于WEB的应用日益普及,人们通过浏览器可以查询银行账户、网上购物、电子商务、查询信息、获取知识、进行娱乐等,WEB为人们提供了方便和快捷的交互方式。然而,人们在上网冲浪浏览网页的同时,经常会遭遇到恶意网站的侵袭,导致计算机被病毒、木马等感染。恶意网站,例如钓鱼网站、或者是欺诈,仿冒网站等,主要是通过仿冒真实网站的URL地址或是网页内容,伪装成银行及电子商务等类型的网站,或是利用真实网站服务器程序上的漏洞,在该网站的某些网页中插入危险的网页代码,以此来骗取用户银行或信用卡账号、密码等私人资料。恶意网页中包含着许多敏感的特征,例如,金融欺诈类的恶意网页会在文字、图片等方面仿冒官网,或是在真实网页中插入虚假票务、虚假中奖、假冒网银、虚假购物等信息,这些特征大多以文本串的形式出现在网页中。现有的为了防范恶意网站的主要手段是当用户访问某网站时,客户端将网站的URL发送至服务器端的黑白名单数据库进行查询,然而当钓鱼作者利用安全正常网页为载体,例如政府网站,在该网页中嵌入钓鱼特征,基于网页的URL检测钓鱼网页的方法,并不能识别其内嵌的网页,误判率较高。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的结合本地内容规则库识别可疑钓鱼网页的方法、客户端、云端服务器和相应的系统。根据本专利技术的一个方面,提供了一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;将所述指定信息与所述本地内容规则库内的规则进行匹配;若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。根据本专利技术的另一方面,提供了一种客户端,包括:本地内容规则库,包含至少一条规则以及与每条规则对应的规则标识;信息提取模块,适于在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;匹配模块,适于将所述指定信息与所述本地内容规则库内的规则进行匹配;第一发送模块,适于若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。根据本专利技术的另一方面,提供了一种云端服务器,包括:云端内容规则库,包含至少一个规则集合,每个规则集合包含一条或多条规则以及每条规则对应的规则标识;第二接收模块,适于接收客户端发送的本地所匹配的至少一条规则的规则标识;识别模块,适于根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。根据本专利技术的另一方面,提供了一种结合本地内容规则库识别可疑钓鱼网页的系统,包括客户端以及云端服务器。根据本专利技术提供的方案,在浏览器加载网页时,获取网页的内容信息,从网页的内容信息中提取指定信息;将指定信息与本地内容规则库内的规则进行匹配;若指定信息与本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供云端服务器根据本地所匹配的至少一条规则的规则标识识别网页是否为可疑钓鱼网页,将本地匹配与云端识别相结合,扩大了钓鱼网页的检测范围,提高了钓鱼网页识别准确率,同时节省了云端服务器资源。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;图2示出了根据本专利技术另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;图3示出了根据本专利技术另一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图;图4示出了根据本专利技术一个实施例的客户端的结构示意图;图5示出了根据本专利技术一个实施例的云端服务器的结构示意图;以及图6示出了根据本专利技术一个实施例的结合本地内容规则库识别可疑钓鱼网页的系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本申请的专利技术人在研究钓鱼网页识别方法的过程中,注意到钓鱼作者通过将钓鱼特征嵌入到网页内容信息中的CSS信息、JS信息、标签内容信息,对钓鱼特征进行了隐藏,使得基于原有的钓鱼网页识别方法(例如对网页的URL进行识别)无法将网页内容信息中的钓鱼特征识别出来,基于此,本申请的专利技术人提出了基于本地内容信息来识别钓鱼网页的方法。层叠样式表(CascadingStyleSheets,简称:CSS)是一种用来表现HTML或XML等文件样式的计算机语言,主要用于网页风格设计,包括字体大小、颜色以及元素的精确定位等。通过设立样式表,可以统一地控制HTML中各标志的显示属性。钓鱼作者可以将某钓鱼网页的样式设置成与正常网页样式相似,通过混淆用户视觉来实现钓鱼目的。此外,CSS在定义html样式时可以根据需要设置URL值等信息,利用该信息判断是否为钓鱼网页。脚本(JavaScript,简称:JS)是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言,同时也是一种广泛用于客户端Web开发的脚本语言,常用来给HTML网页添加动态功能,比如响应用户的各种操作。JS的主要功能是:动态修改html网页内容,包括创建、删除html网页元素,修改html网页元素的内容、外观、位置、大小等。钓鱼作者可利用JS动态修改html网页内容,将正常的html网页内容修改为具有钓鱼特征的信息,从而实现钓鱼的目的。因此可通过检测JS相应节点是否具有钓鱼特征来判断网页是否为可疑钓鱼网页。此外,可使用JavaScript:前缀构建执行JavaScript代码的URL的方式来执行html网页中嵌入的JavaScript代码,可以通过判断该URL是否属于黑名单或者是否具有指定路径来判断网页是否为可疑钓鱼网页。本专利技术需要结合本地内容规则库来识别网页是否为可疑钓鱼网页,其中本地内容规则库包含至少一条规则以及与每条规则对应的规则标识。这里的规则可以为CSS规则和/或JS规则。图1示出了根据本专利技术一个实施例的结合本地内容规则库识别可疑钓鱼网页的方法的流程图。如图1所示,该方法包括以本文档来自技高网...
结合本地内容规则库识别可疑钓鱼网页的方法及系统

【技术保护点】
一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息;将所述指定信息与所述本地内容规则库内的规则进行匹配;若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识发送给云端服务器,以供所述云端服务器根据所述本地所匹配的至少一条规则的规则标识识别所述网页是否为可疑钓鱼网页。

【技术特征摘要】
1.一种结合本地内容规则库识别可疑钓鱼网页的方法,所述本地内容规则库包含至少一条规则以及与每条规则对应的规则标识;所述方法包括:在浏览器加载网页时,获取网页的内容信息,从所述网页的内容信息中提取指定信息,以及一项或多项标签内容信息,其中,所述指定信息包括CSS信息和/或脚本信息;将所述指定信息与所述本地内容规则库内的规则进行匹配;若所述指定信息与所述本地内容规则库内的至少一条规则匹配,则将本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息发送给云端服务器,以供所述云端服务器根据本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页;其中,所述云端服务器具有云端内容规则库,所述云端内容规则库包含至少一个规则集合,每个规则集合包含一条或多条规则以及规则对应的规则标识;所述云端服务器根据本地所匹配的至少一条规则的规则标识与所述一项或多项标签内容信息识别所述网页是否为可疑钓鱼网页进一步包括:所述云端服务器将所述一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识;所述云端服务器判断本地所匹配的至少一条规则的规则标识和云端所匹配的至少一条规则的规则标识是否涵盖所述云端内容规则库中任一规则集合所包含的一条或多条规则对应的规则标识,根据判断结果则识别所述网页为可疑钓鱼网页。2.根据权利要求1所述的方法,所述一项或多项标签内容信息包含以下信息的至少一项:标题标签、图像标签、框架标签、锚标签、超链接标签中的内容信息;所述指定属性信息具体为:所述标签内容信息中携带的URL或标题内容。3.根据权利要求1或2所述的方法,所述云端内容规则库包含第一规则,所述第一规则为URL属于黑名单;所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否属于所述黑名单,若是,则确定该项标签内容信息携带的URL与所述第一规则匹配,获得云端所匹配的第一规则的第一规则标识。4.根据权利要求1或2所述的方法,所述云端内容规则库包含第二规则,所述第二规则为URL具有指定路径;所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的URL是否具有所述指定路径,若是,则确定该项标签内容信息携带的URL与所述第二规则匹配,获得云端所匹配的第二规则的第二规则标识。5.根据权利要求1或2所述的方法,所述云端内容规则库包含第三规则,所述第三规则为标题内容具有指定关键字;所述云端服务器将一项或多项标签内容信息中的指定属性信息与所述云端内容规则库中的规则进行匹配,获得云端所匹配的至少一条规则的规则标识进一步包括:所述云端服务器判断所述一项或多项标签内容信息中任一项标签内容信息携带的标题内容是否具有指定关键字,若是,则确定该项标签内容信息携带的标题内容与所述第三规则匹配,获得云端所匹配的第三规则的第三规则标识。6.根据权利要求1或2所述的方法,所述云端内容规则库包含第四规则,所述第四规则为网页所属站点为新站点;所述方法进一步包括:所述云端服务器判断所述网页所属站点是否为新站点,若是,则获得云端所匹配的第四规则的第四规则标识。7.根据权利要求6所述的方法,所述云端服务器判断网页所属站点是否为新站点具体为:所述云端服务器判断所述网页所属站点在预设时间段内的访问量是否小于预设值;若所述访问量小于预设值,则确定所述网页所属站点为新站点。8.根据权利要求1所述的方法,还包括:采用基于网页内容进行识别的方法对所述网页进行识别,得到识别结果;所述根据判断结果识别网页为可疑钓鱼网页进一步包括:结合所述判断结果和所述识别结果,识别所述网页为可疑钓鱼网页。9.根据权利要求1所述的方法,在所述识别网页为可疑钓鱼网页之后进一步包括:生成云查询日志用于记录所述网页被识别为可疑钓鱼网页;和/或,向客户端发送用于报警的提示信息,以使所述客户端向用户展示所述提示信息。10.根据权利要求1所述的方法,在所述获取网页的内容信息之前进一步包括:将所述网页的网址信息发送给所述云端服务器,以供所述云端服务器判断所述网页所属站点是否为新站点;所述获取网页的内容信息具体为:在接收到所述云端服务器判断出所述网页所属站点为新站点的通知信息的情况下,获取网页...

【专利技术属性】
技术研发人员:李晓波肖鹏
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1