一种网页的识别方法及装置制造方法及图纸

技术编号：11204554 阅读：64 留言：0更新日期：2015-03-26 12:39

本发明专利技术适用于互联网技术领域，提供了一种网页的识别方法及装置，包括：抓取待识别网页的URL和网页内容；获取所述待识别网页的URL与目标网页的URL的第一相似度；获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度；根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。本发明专利技术同时结合网页URL以及网页内容进行分析，基于分析结果来判断待识别网页与目标网页的相似度，有效地提高了对钓鱼网页识别结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网
，尤其涉及一种网页的识别方法及装置。
技术介绍
钓鱼网站为一种网络欺诈行为，其仿冒真实网站（例如银行网站、安全类网站、电子商务网站等）的统一资源定位符（Uniform Resource Locator，URL）以及页面内容，以此来骗取用户的私人信息，转移用户的财产和其他虚拟财物，从而造成用户的个人信息泄露和财产损失，因此，市面上的网络安全产品多具备钓鱼网站识别功能，通过识别、屏蔽钓鱼网站，为用户的互联网浏览行为提供安全保障。目前的网络安全产品仅仅依赖于用户举报的方式，将用户举报的网站标识成钓鱼网站，无法确保钓鱼网站识别结果的准确性。
技术实现思路
本专利技术实施例的目的在于提供一种网页的识别方法，旨在确保钓鱼网站识别结果的准确性。本专利技术实施例是这样实现的，一种网页的识别方法，包括：抓取待识别网页的统一资源定位符URL和网页内容；获取所述待识别网页的URL与目标网页的URL的第一相似度；获取所述待识别网...

【技术保护点】
一种网页的识别方法，其特征在于，包括：抓取待识别网页的统一资源定位符URL和网页内容；获取所述待识别网页的URL与目标网页的URL的第一相似度；获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似度；根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网页，所述获取到的相似度包括所述第一相似度和所述第二相似度。

【技术特征摘要】
1.一种网页的识别方法，其特征在于，包括：
抓取待识别网页的统一资源定位符URL和网页内容；
获取所述待识别网页的URL与目标网页的URL的第一相似度；
获取所述待识别网页的网页内容和所述目标网页的网页内容的第二相似
度；
根据获取到的相似度识别所述待识别网页是否为所述目标网页的相似网
页，所述获取到的相似度包括所述第一相似度和所述第二相似度。
2.如权利要求1所述的方法，其特征在于，所述获取所述待识别网页的网
页内容和所述目标网页的网页内容的第二相似度包括：
分析所述待识别网页的超文本标记语言HTML，提取所述待识别网页中的
文本信息；
对所述文本信息进行关键词提取；
将提取出的关键词与所述目标网页的预设关键词进行匹配，获取所述待识
别网页的网页内容和所述目标网页的网页内容的第二相似度。
3.如权利要求2所述的方法，其特征在于，在所述提取所述待识别网页中
的文本信息之后，所述对所述文本信息进行关键词提取之前，所述方法还包括：
过滤所述文本信息中的不可见部分。
4.如权利要求1－3任一项所述的方法，其特征在于，在所述抓取待识别
网页的URL和网页内容之后，所述根据获取到的相似度识别所述待识别网页是
否为所述目标网页的相似网页之前，所述方法还包括：
获取所述待识别网页的网页内容的截图；
将获取到的截图与预设的所述目标网页的网页内容的截图进行匹配，获取
第三相似度；
则所述获取到的相似度还包括所述第三相似度。
5.如权利要求1－3任一项所述的方法，其特征在于，所述根据获取到的

\t相似度识别所述待识别网页是否为所述目标网页的相似网页包括：
根据所述第一相似度和所述第二相似度计算第一参数；
判断所述第一参数是否位于预设参数区间内；
当所述第一参数位于所述预设参数区间内时，获取所述待识别网页的网页
内容的截图；将获取到的截图与预设的所述目标网页的网页内容的截图进行匹
配，获取第三相似度；根据所述第三相似度识别所述待识别网页是否为所述目
标网页的相似网页；
当所述第一参数不位于所述预设参数区间内时，根据所述第一参数识别所

【专利技术属性】
技术研发人员：刘杰，陆莉，陈旺林，陈秋滢，段文文，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人