【技术实现步骤摘要】
本专利技术涉及一种中文近似网页去重方法,属于计算机网络智能信息检索
技术介绍
随着互联网技术和规模的空前发展,Internet已经成为获取信息的主要渠道之一。截至2007年7月的调查中,共统计存在1亿2千5百多万个网站。搜索引擎因其方便快捷的检索功能,成为当今网络用户进行信息检索的主要工具,其中,信息检索的质量及其工作效率将直接影响到搜索引擎的整体性能。根据中国互联网络信息中心2005年7月发布的统计报告显示,用户在回答“检索信息时遇到的最大问题”这一提问时,选择“重复信息太多”选项的占44.6%,排名第1位。面对海量的信息,用户不愿意看到一堆内容相同或近似的数据。如何更为快速、准确地帮助用户获取所需要的信息,是网络信息服务面临的新课题。近年来,针对近似网页的检测展开了许多研究,例如网页结构近似性检测,超级链接近似性检测、网页内容近似检测等。 通常,把句法、结构完全相同的文档视为重复文档。重复文档的去除采用传统的剽窃检测技术很容易完成,但对于内容近似的文档检测就不那么容易了。近似网页是指正文内容基本相同的网页,而不论其句法、结构是否完全一致。 ...
【技术保护点】
一种基于小世界特性的中文近似网页去重方法,其特征在于包括以下步骤: 步骤一、对于新输入的网页,进行网页有效信息的提取,得到有效正文信息; 步骤二、对步骤一提取出的有效正文信息进行处理,构建出词汇共现图; 步骤三、根据词汇共 现图的小世界特性,提取文档特征向量,实现过程如下; 设定d词汇共现图为G↓[L]的特征路径长度,设定移除第i个节点后的词汇共现图为CN↓[i],d↓[i]为CN↓[i]的平均路径长度,设定节点t↓[i]对G↓[L]呈现小世界特征的贡献 率为CB↓[i]=d↓[i]-d; (1)获取词汇共现图G↓[L]的聚度C和 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:曹玉娟,牛振东,赵堃,赵育民,江鹏,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。