一种基于小世界特性的中文近似网页去重方法技术

技术编号:3847232 阅读:328 留言:0更新日期:2012-04-11 18:40
本发明专利技术为解决内容近似中文网页的自动检测问题,公开了一种基于小世界特性的中文近似网页去重方法。该方法兼顾考虑网页的语法和语义信息,首先根据提取出的网页有效信息构建文本词汇共现图。然后,基于文本的小世界特性提取出文档特征向量,包括关键词的位置信息与关键词条。最后,充分利用检索系统和分类信息,构建出文档关键词倒排索引文件,根据倒排索引文件完成文档特征向量检索匹配,从而进行近似网页检测和排查。本发明专利技术方法能够有效减少噪声信息对算法准确性的不良影响,不仅考虑了网页文本的内容、结构信息,同时充分利用检索和分类系统的优势,获得了去重准确率>90%,平均召回率>80%的良好效果,尤其适用于大规模网页去重。

【技术实现步骤摘要】

本专利技术涉及一种中文近似网页去重方法,属于计算机网络智能信息检索

技术介绍
随着互联网技术和规模的空前发展,Internet已经成为获取信息的主要渠道之一。截至2007年7月的调查中,共统计存在1亿2千5百多万个网站。搜索引擎因其方便快捷的检索功能,成为当今网络用户进行信息检索的主要工具,其中,信息检索的质量及其工作效率将直接影响到搜索引擎的整体性能。根据中国互联网络信息中心2005年7月发布的统计报告显示,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”选项的占44.6%,排名第1位。面对海量的信息,用户不愿意看到一堆内容相同或近似的数据。如何更为快速、准确地帮助用户获取所需要的信息,是网络信息服务面临的新课题。近年来,针对近似网页的检测展开了许多研究,例如网页结构近似性检测,超级链接近似性检测、网页内容近似检测等。 通常,把句法、结构完全相同的文档视为重复文档。重复文档的去除采用传统的剽窃检测技术很容易完成,但对于内容近似的文档检测就不那么容易了。近似网页是指正文内容基本相同的网页,而不论其句法、结构是否完全一致。对于网页内容近似检测本文档来自技高网...

【技术保护点】
一种基于小世界特性的中文近似网页去重方法,其特征在于包括以下步骤: 步骤一、对于新输入的网页,进行网页有效信息的提取,得到有效正文信息; 步骤二、对步骤一提取出的有效正文信息进行处理,构建出词汇共现图; 步骤三、根据词汇共 现图的小世界特性,提取文档特征向量,实现过程如下; 设定d词汇共现图为G↓[L]的特征路径长度,设定移除第i个节点后的词汇共现图为CN↓[i],d↓[i]为CN↓[i]的平均路径长度,设定节点t↓[i]对G↓[L]呈现小世界特征的贡献 率为CB↓[i]=d↓[i]-d; (1)获取词汇共现图G↓[L]的聚度C和特征路径长度d; 对...

【技术特征摘要】

【专利技术属性】
技术研发人员:曹玉娟牛振东赵堃赵育民江鹏
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1