一种网页的识别方法及装置制造方法及图纸

技术编号:11204554 阅读:47 留言:0更新日期:2015-03-26 12:39
本发明专利技术适用于互联网技术领域,提供了一种网页的识别方法及装置,包括:抓取待识别网页的URL和网页内容;获取所述待识别网页的URL与目标网页的URL的第一相似度;获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。本发明专利技术同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。

【技术实现步骤摘要】

本专利技术属于互联网
,尤其涉及一种网页的识别方法及装置
技术介绍
钓鱼网站为一种网络欺诈行为,其仿冒真实网站(例如银行网站、安全类网站、电子商务网站等)的统一资源定位符(Uniform Resource Locator,URL)以及页面内容,以此来骗取用户的私人信息,转移用户的财产和其他虚拟财物,从而造成用户的个人信息泄露和财产损失,因此,市面上的网络安全产品多具备钓鱼网站识别功能,通过识别、屏蔽钓鱼网站,为用户的互联网浏览行为提供安全保障。目前的网络安全产品仅仅依赖于用户举报的方式,将用户举报的网站标识成钓鱼网站,无法确保钓鱼网站识别结果的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种网页的识别方法,旨在确保钓鱼网站识别结果的准确性。本专利技术实施例是这样实现的,一种网页的识别方法,包括:抓取待识别网页的统一资源定位符URL和网页内容;获取所述待识别网页的URL与目标网页的URL的第一相似度;获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。本专利技术实施例的另一目的在于提供一种网页的识别装置,包括:抓取单元,用于抓取待识别网页的统一资源定位符URL和网页内容;第一获取单元,用于获取所述待识别网页的URL与目标网页的URL的第一相似度;第二获取单元,用于获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;识别单元,用于根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。本专利技术实施例同时结合网页URL以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率。附图说明图1是本专利技术实施例提供的网页的识别方法的实现流程图;图2是本专利技术实施例提供的网页的识别方法S103的具体实现流程图;图3是本专利技术实施例提供的网页的识别方法第三相似度匹配过程的具体实现流程图;图4是本专利技术实施例提供的网页的识别方法S104的具体实现流程图;图5是本专利技术实施例提供的网页的识别装置的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例同时结合网页统一资源定位符(Uniform Resource Locator,URL)以及网页内容进行分析,基于分析结果来判断待识别网页与目标网页的相似度,有效地提高了对钓鱼网页识别结果的准确率,提升了对网络安全的保障。需要说明的是,本专利技术实施例均以钓鱼网页的识别过程为例,对网页的识别方法及装置进行说明,而本专利技术实施例提供的钓鱼网页的识别方法及装置可应用的场景不仅仅局限于对钓鱼网页的识别,任何需要对网页之间的相似程度进行判断的应用场景均可适用本专利技术实施例提供的钓鱼网页的识别方法及装置,在后续实施例中不再一一举例说明。图1示出了本专利技术实施例提供的网页的识别方法的实现流程,详述如下:在S101中,抓取待识别网页的URL和网页内容。在本实施例中,S101之前,可以通过网络爬虫系统,从海量的互联网网页中抓取待识别网页,并一一对每个待识别网页开展识别其是否为钓鱼网页的步骤。对于已经通过识别的网页,可以记录其URL,在后续过程中若抓取到该网页,则不再进行分析。网络爬虫系统在抓取待识别网页的过程中,首先获取到待识别网页的URL,并根据该URL向该待识别网页的主机地址发送请求,从而获取到该待识别网页的超文本标记语言(Hypertext Markup Language,HTML),从而通过解析该待识别网页的HTML,获取到该待识别网页的网页内容。作为本专利技术的一个实施例,在待识别网页的抓取过程中,可以对抓取到的异常网页进行过滤,例如,过滤掉HTML无法正常解析,或者网页内容无法正常显示的网页,从而提高后续识别过程的效率。在S102中,获取所述待识别网页的URL与目标网页的URL的第一相似度。在本实施例中,目标网页由系统预先确定,在多数情况下,目标网页可以为网上银行相关页面、购物网页相关页面或者第三方社交网站用户个人信息相关页面,等等,这些页面由于涉及到用户私人信息、财产信息的展示或者输入,因此,被钓鱼网页所防冒的可能性很高。在本实施例中,目标网页的URL和网页内容均是预存储在系统之中的。由于钓鱼页面通常会对目标网站的URL进行依照,因此,在S102中,对于获取到的待识别网页,首先将其的URL与预存储的目标网页的URL进行匹配,判断这两个URL的相似程度,并计算出对应的第一相似度。具体地,在S102的匹配过程中,可以考虑两个URL之间相同连续字符串的长度占目标网站的URL总长度的比例,或者可以考虑两个URL之间主机地址的相似程度,由此计算出待识别网页的URL与目标网页的URL的第一相似度。具体的第一相似度计算方法在此不用于限定本专利技术。在S103中,获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度。由于钓鱼网页除了会依照目标网页的URL之外,在网页内容上,大多也会仿照目标网页的网页内容,以混淆用户的视觉,因此,在本实施例中,除了对待识别网页的URL与目标网页的URL进行识别,还需要将待识别网页的网页见容与目标网页的网页内容相匹配,判断这两个网页的网页内容的相似程度,并计算出对应的第二相似度。作为本专利技术的一个实施例,在S103中,可以对待识别网页与目标网页的网页内容中的文本信息进行匹配。如图2所示,S103具体为:在S201中,分析所述待识别网页的HTML,提取所述待识别网页中的文本信息。首先,对S101中获取到的待识别网页的HTML进行解析,定位HTML中的标签,再依次读取每个标签中的text属性,从而获取到text属性中的文本内容,这些text属性中的文本内容即为待识别网页中的文本信息。在S202中,对所述文本信息进行关键词提取。对于获取到的文本信息,进行分词处理,确定出待识别网页中的文本信息的若干关键词。对于关键词的确定原则,可以遵循每个词出现的频率的高低,将出现频率最高的若干个词确定为关键词,也可以判断得到的分本文档来自技高网...

【技术保护点】
一种网页的识别方法,其特征在于,包括:抓取待识别网页的统一资源定位符URL和网页内容;获取所述待识别网页的URL与目标网页的URL的第一相似度;获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度;根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页,所述获取到的相似度包括所述第一相似度和所述第二相似度。

【技术特征摘要】
1.一种网页的识别方法,其特征在于,包括:
抓取待识别网页的统一资源定位符URL和网页内容;
获取所述待识别网页的URL与目标网页的URL的第一相似度;
获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似
度;
根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网
页,所述获取到的相似度包括所述第一相似度和所述第二相似度。
2.如权利要求1所述的方法,其特征在于,所述获取所述待识别网页的网
页内容和所述目标网页的网页内容的第二相似度包括:
分析所述待识别网页的超文本标记语言HTML,提取所述待识别网页中的
文本信息;
对所述文本信息进行关键词提取;
将提取出的关键词与所述目标网页的预设关键词进行匹配,获取所述待识
别网页的网页内容和所述目标网页的网页内容的第二相似度。
3.如权利要求2所述的方法,其特征在于,在所述提取所述待识别网页中
的文本信息之后,所述对所述文本信息进行关键词提取之前,所述方法还包括:
过滤所述文本信息中的不可见部分。
4.如权利要求1-3任一项所述的方法,其特征在于,在所述抓取待识别
网页的URL和网页内容之后,所述根据获取到的相似度识别所述待识别网页是
否为所述目标网页的相似网页之前,所述方法还包括:
获取所述待识别网页的网页内容的截图;
将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配,获取
第三相似度;
则所述获取到的相似度还包括所述第三相似度。
5.如权利要求1-3任一项所述的方法,其特征在于,所述根据获取到的

\t相似度识别所述待识别网页是否为所述目标网页的相似网页包括:
根据所述第一相似度和所述第二相似度计算第一参数;
判断所述第一参数是否位于预设参数区间内;
当所述第一参数位于所述预设参数区间内时,获取所述待识别网页的网页
内容的截图;将获取到的截图与预设的所述目标网页的网页内容的截图进行匹
配,获取第三相似度;根据所述第三相似度识别所述待识别网页是否为所述目
标网页的相似网页;
当所述第一参数不位于所述预设参数区间内时,根据所述第一参数识别所

【专利技术属性】
技术研发人员:刘杰陆莉陈旺林陈秋滢段文文
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1