当前位置: 首页 > 专利查询>胡辉专利>正文

判断网页内容是否相同的方法技术

技术编号：2820661 阅读：385 留言：0更新日期：2012-04-11 18:40

判断网页内容是否相同的方法，可用于搜索引擎技术领域，过滤网页内容相同的查询结果。根据计算网页标题的相似度和网页正文内容的相似度，根据网页的标题和正文内容的相似度来判断其是否为相同内容。如果二者的相似度达到一定阀值，那么就判定为相同内容的网页，否则就判定为不同内容的网页。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种判断具有相同内容的网页的方法，能有助于过滤搜索引擎中出现的重复的搜索结果。
技术介绍
目前，搜索引擎是将所有与关键词相关的页面根据其特定算法排序后都显示给用户，但由于网络上很多网站会相互转载一些内容相同的文章、新闻等，并且搜索引擎并未对这些内容相同的网页进行过滤，从而导致搜索引擎会返回很多这样的文章内容相同的网页结果给用户，使得用户不得不在大量的冗余结果中寻找有用结果，带来使用上的不便。有的搜索引擎将来自同一网站的相关网页(域名相同，URL不同)归为一组结果，相邻在一起显示出来，但并没有能够将来自不同网站而内容相同的文章、新闻等网页识别并过滤出来。
技术实现思路
目前，有的搜索引擎可以把来自同一网站的相关网页过滤出来，合并为一组相似结果显示出来，但并没有能够将来自不同网站而内容相同的网页识别并过滤出来。本专利技术提供了一种判断相同内容网页的方法。这个方法能解决的问题时可以过滤掉搜索引擎返回的重复结果，降低查询结果的信息冗余度，更方便用户査看搜索结果。本专利技术所采用的技术方案是计算网页标题的相似度和网页正文内容的相似度，根据网页的标题和正文内容的相似度来判断其是否为相同内容，如果二者的相似度达到一定阀值，那么就判定为相同内容的网页。下面分别描述这些方法: 1. 网页标题相似度的计算方法1.1对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle)，去除其公共前缀(即位于标题最开头的相同的公共字符串)或公共后缀(即位于标题最末尾的相同的公共字符串)部分，剩下的内容作为真正的标题(RealSameTi...

【技术保护点】
一种能够判断具有相同文章内容的网页的方法，其特征在于，包含：　对于任意两个网页，　（１）计算二者之间的网页标题相似度；　（２）计算二者之间的网页正文相似度；　（３）根据网页标题相似度和网页正文相似度，按照特定算法判断两个网页是否内容相同。

【技术特征摘要】

【专利技术属性】
技术研发人员：胡辉，
申请(专利权)人：胡辉，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人