当前位置: 首页 > 专利查询>胡辉专利>正文

判断网页内容是否相同的方法技术

技术编号:2820661 阅读:385 留言:0更新日期:2012-04-11 18:40
判断网页内容是否相同的方法,可用于搜索引擎技术领域,过滤网页内容相同的查询结果。根据计算网页标题的相似度和网页正文内容的相似度,根据网页的标题和正文内容的相似度来判断其是否为相同内容。如果二者的相似度达到一定阀值,那么就判定为相同内容的网页,否则就判定为不同内容的网页。

【技术实现步骤摘要】

本专利技术涉及一种判断具有相同内容的网页的方法,能有助于过滤搜索引擎中 出现的重复的搜索结果。
技术介绍
目前,搜索引擎是将所有与关键词相关的页面根据其特定算法排序后都显示 给用户,但由于网络上很多网站会相互转载一些内容相同的文章、新闻等,并 且搜索引擎并未对这些内容相同的网页进行过滤,从而导致搜索引擎会返回很 多这样的文章内容相同的网页结果给用户,使得用户不得不在大量的冗余结果 中寻找有用结果,带来使用上的不便。有的搜索引擎将来自同一网站的相关网页(域名相同,URL不同)归为一组结果,相邻在一起显示出来,但并没有能够 将来自不同网站而内容相同的文章、新闻等网页识别并过滤出来。
技术实现思路
目前,有的搜索引擎可以把来自同一网站的相关网页过滤出来,合并为一组 相似结果显示出来,但并没有能够将来自不同网站而内容相同的网页识别并过 滤出来。本专利技术提供了一种判断相同内容网页的方法。这个方法能解决的问题时可以过滤掉搜索引擎返回的重复结果,降低查询结果的信息冗余度,更方 便用户査看搜索结果。本专利技术所采用的技术方案是计算网页标题的相似度和网页正文内容的相似 度,根据网页的标题和正文内容的相似度来判断其是否为相同内容,如果二者的相似度达到一定阀值,那么就判定为相同内容的网页。下面分别描述这些方法: 1. 网页标题相似度的计算方法1.1对于具有相同域名或目录的所有网页的标题(命为OriginSameTitle),去除其公共前缀(即位于标题最开头的相同的公 共字符串)或公共后缀(即位于标题最末尾的相同的公共字符串)部 分,剩下的内容作为真正的标题(RealSameTitle)。这里说的域名相 同是指完整域名(FQDN)都相同。优先去除相同域名的URL网页标题的 公共字符,然后再去除相同目录的网页标题公共字符。比如以下几个 URL的网页就属于域名相同,都是news. sina. com. cn:http://news. sina. com. cn/c/2008-09-05/062716236203. shtml, http://news. sina. com. cn/c/2008—08-27/221716184284. shtml, http:〃news. sina. com. cn/w/2008-08-28/040716186003. shtml。 并且前面两个URL属于相同目录http:〃news. sina. com. cn/c八 所以先去除上述3个域名同为news. sina. com. cn的标题公共后缀"—新闻 中心—新浪网",然后再看前面两个网页标题是否还有其他标题公共前缀或 后缀,如果有也可以去掉。这里只是以3个网页为例,实际处理必须以所 有符合上述条件的网页为基础,去除所有这些网页标题的公共前缀或后敏 ^。而如下几个URL就不属于域名相同 http:〃news. sina. com. cn/c/2008-08-27/221716184284. shtml,其域名为news. sina. com. cn ; http:〃sports. sina. com. cn/o/2008-08-28/08143907467. shtml, 其域名为sports.sina.com.cn ;http:〃www. google, cn/intl/zh_CN/ads/, 其域名为www.google.cn。 1.2 对所有网页的标题(OriginTitle,也包括经过方法l. l处理后得到 的RealSameTitle)进行清除HTML标记的处理,使得标题中不再包含任 何HTML标记 (HTML标记就是HTMLTAG , 诸如 〈htmlX/html〉〈body〉〈/body〉〈font〉〈/font〉等,参见w3c组织颁布的 最新HTML标准)。这个清除HTML标记的处理是可选的,不是必须的。 1. 3 对经过方法l. l和1 . 2处理后的网页标题内容进行切割,可以任选 如下字符中的一个或多个来作为分隔符,将标题切割为多个部分1) 空格空格(该分隔符只适用于字符集为中文的网页)2) 减号-3) 中文的破折号_4)下划线_5)英文冒号6)中文冒号7)英文逗号,8)中文逗号,9)竖线1IO)英文点号:.ll)中文点号。12)英文圆括号013)中文圆括号()14)英文方括号:[]15) 中文方括号[]16) 中文粗括号17) 英文大括弧{}18) 中文大括弧{}19) 英文尖括号〈〉20) 中文尖括号《》21) 以及所有上述的字符对应的半角和全角字符形式22) 所有上述的字符的HTML编码形式,比如&化3口;代表空格,&gt; 代表尖括号,等等。1.4在用户提交搜索请求时,在通过方法l. 3和1.4切割出来的各个部分 中1) 如果其中只有一部分包含用户查询关键词(经过搜索引擎分词 处理后的关键词),那么就将这部分作为该网页的真实标题(RealTitle);2) 如果该标题分隔后两部分或多个部分都含有用户査询关键词, 那么就以靠近标题左侧的那部分内容作为RealTitle,或者选择 内容更长的部分作为RealTitle,也可以选择任意一部分为 RealTitlej3) 如果各部分都不包含用户査询关键词,则选择内容更长的部分 作为RealTitle,或选择任意一部分为RealTitle。1.5计算出RealTitle的相似度ST, ST计算方式如下假设有两个RealTitle: RTa, RTb。首先将RTa和RTb都统一转换为 UTF-8字符集。Ls代表RTa和RTb中包含的相同字符(或公共字符)的字符数长度,而La和Lb分别代表RTa和RTb的字符数长度,STab即作为网 页A和网页B之间的标题相似度。那么 STab=| LTs/LTa — LTs/LTb |其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字 符集后的字节数。2. 网页正文相似度判定方法2.1网页正文(命名为0riginBody)中包含有很多段被HTML标记分隔开 的文字内容,可以选择其中长度最长的一段内容作为代表该网页的真 正内容(RealBody);或者找出包含用户查询关键词的这些段落,并将 其中长度最长的一段内容作为RealBody。 2.2计算RealBody相似度,其计算方法与RealTitle相似度类似。 RealBody相似度计算方式如下 假设有两个RealBody: RBa, RBb。首先将RBa和RBb都统一转换为UTF-8 字符集。LBs代表RBa和RBb中包含的相同字符(或公共字符)的字符数长 度,而LBa和LBb分别代表RBa和RBb的字符数长度,SBab作为网页A和网页 B之间的正文相似度。那么SBabH LBs/LBa - LBs/LBb | 其中,字符数长度的计算方式是将文本内容统一转换为UTF-8字符集 后的字节数。3. 根据网页标题相似度和网页正文相似度,可以判断出两个网页A和B是 否内容相同。判断方法如下(1) 如果STab小于或等于kl,则判定为内容相同的网页,否则为不同 内容;其中,kl是预先设定的阀值,比如kl二O. 1。伪代码如下If (STab<=kl) Th本文档来自技高网...

【技术保护点】
一种能够判断具有相同文章内容的网页的方法,其特征在于,包含: 对于任意两个网页, (1)计算二者之间的网页标题相似度; (2)计算二者之间的网页正文相似度; (3)根据网页标题相似度和网页正文相似度,按照特定算法判断两个网页是否内容相同。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡辉
申请(专利权)人:胡辉
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1