当前位置: 首页 > 专利查询>南京大学专利>正文

基于句号特征字串的中文网页重复文档检测和过滤方法技术

技术编号:8366781 阅读:288 留言:0更新日期:2013-02-28 05:21
本发明专利技术公开了一种基于句号特征字串的中文网页重复文档检测和过滤方法,包括如下步骤:提取待检测网页的句号特征字串;利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容;计算所述网页主题文本内容的相似度,判定网页之间的重复关系和包含关系;将具有重复关系和包含关系的网页进行聚类。本发明专利技术针对中文网页,尤其是中文新闻网页,首先寻找有效的检测特征,能有效检测出网页上的有效正文部分,过滤掉网页上的广告等与主题正文内容无关的噪音部分;在此基础上,解决两两文档之间的相似性度量问题以及文档重复检测问题;最后解决大规模重复文档检测时的并行化处理问题。

【技术实现步骤摘要】

本专利技术涉及一种文档检测方法,特别涉及一种。
技术介绍
互联网中存在着大量的近似重复的网页(据统计,中文网页的重复率达29%),给搜索引擎带来了很多问题,大大增加了网页爬取、索引建立、空间存储的开销和负担,并大幅影响搜索引擎用户的使用体验、降低了用户的满意度。两个完全相同的网页的检测是比较容易的,然而在实际的情况中,几乎很少有完全相同的网页。重复网页检测的第一个主要难点是,首先很多网站尤其是新闻网站,会转载同一篇报道或文章,因此,这些网页内的主题内容是完全相同的,但各个网站的网页上同时 会加入一些其他的不同内容,比如广告、网站联系信息等,这些与主题内容无关的数据会成为文档检测时的噪音降低文档的相似性比较的准确性;此外,也有一些网页的主题内容的文字描述不完全相同,但在实际所描述的内容上是相同的,对此就要能提取出适当的文档语义特征而不能完全依赖于文档字符串的直接比较。因此,重复网页检测需要能识别出这些看似不同、但实际上内容是相同的网页。重复网页检测的第二个难点是,由于涉及到在数以百万计的文档中进行比较,同时由于每个文档都具有较大的长度,在一定的时间限度内完成海量的文档间的相互比较是一本文档来自技高网...

【技术保护点】
一种基于句号特征字串的中文网页重复文档检测和过滤方法,包括如下步骤:(1)提取待检测网页的句号特征字串;(2)利用所述句号特征字串对待检测网页进行模板信息过滤以便保留和提取网页主题文本内容;(3)计算所述网页主题文本内容的相似度,判定网页之间的重复关系和包含关系;(4)将具有重复关系和包含关系的网页进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄宜华袁春风韦永壮刘玉龙张建
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1