一种基于Nutch的垂直搜索引擎及方法技术

技术编号：12309648 阅读：96 留言：0更新日期：2015-11-11 18:24

本发明专利技术涉及互联玩搜索引擎技术领域，具体涉及一种基于Nutch的垂直搜索引擎及方法。本发明专利技术提出了一种基于Nutch的垂直搜索引擎及方法，能够围绕某一领域或某一专题展开检索，以满足特定人群对信息检索的个性化要求。本发明专利技术基于Nutch的垂直搜索引擎包括Nutch模块、预处理模块和聚类模块。Nutch模块用于从网络上搜集网页、建立网页的反向索引、利用反向索引搜索用户查找的关键词并向用户反馈检索结果。预处理模块用于文本的中文分词。聚类模块用于对Nutch模块的检索结果的文本聚类。Nutch模块分别与预处理模块和聚类模块双向通信。本发明专利技术垂直搜索引擎的搭建步骤包括（a）系统搭建和（b）服务器端软件配置。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网搜索引擎
，具体涉及。
技术介绍
互联网信息以指数级增长，信息搜索引擎技术也得到空前发展。搜索引擎已经成为人们通过互联网获取信息的重要技术手段。传统搜索引擎，如G00gle、BaidU等由于搜索反馈信息量巨大而使有用的信息被淹没。特殊用户对信息检索准确率有特殊的要求。对于特殊用户来说，开发功能更先进、效率更高、更人性化的信息检索工具显得极为重要。
技术实现思路
本专利技术提出了，能够围绕某一领域或某一专题展开检索，以满足特定人群对信息检索的个性化要求。本专利技术解决其技术问题所采用的技术方案为: 一种基于Nutch的垂直搜索引擎，包括Nutch模块、预处理模块和聚类模块。Nutch模块用于从网络上搜集网页、建立网页的反向索引、利用反向索引搜索用户查找的关键词并向用户反馈检索结果。预处理模块用于文本的中文分词。聚类模块用于对Nutch模块的检索结果的文本聚类。Nutch模块分别与预处理模块和聚类模块双向通信。具体的，Nutch模块包括爬虫子模块和检索子模块。爬虫子模块用于从网络上采集网页数据并建立所述网页的反向索引。检索子模块利用。反向索引对爬虫子模块爬取到本地的网页数据进行关键词检索并将检索结果反馈用户。具体的，预处理模块采用JE分词算法对Nutch模块采集到的网页文本进行中文分Τ.κ| ο具体的，聚类模块为采用lingo聚类算法的Carr0t2开源搜索结果分类引擎。基于Nutch的垂直搜索引擎的搭建方法，步骤如下: (a)系统搭建安装Nutch，配置Nutch，编译Nutch。(b)服务器端软件配置，包括以下...

【技术保护点】
一种基于Nutch的垂直搜索引擎，其特征在于其包括Nutch模块、预处理模块和聚类模块；所述Nutch模块用于从网络上搜集网页、建立所述网页的反向索引、利用所述反向索引搜索用户查找的关键词并向用户反馈检索结果；所述预处理模块用于文本的中文分词；所述聚类模块用于对Nutch模块的检索结果的文本聚类；所述Nutch模块分别与预处理模块和聚类模块双向通信。

【技术特征摘要】

【专利技术属性】
技术研发人员：田青，高凯，陶秋红，
申请(专利权)人：国家电网公司，国网河北省电力公司培训中心，河北科技大学，石家庄职工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人