一种行业垂直搜索引擎系统技术方案

技术编号：12354452 阅读：139 留言：0更新日期：2015-11-19 04:30

本发明专利技术公开了一种行业垂直搜索引擎系统，属于大数据领域。所述行业垂直搜索引擎系统包括数据采集模块、数据处理模块、数据展示模块，所述数据采集模块用于在行业信息相关网站中爬取相关网页，并将网页源文件保存到hbase数据库中；所述数据处理模块对爬取到的相关网页进行数据处理；所述数据展示模块用于接收查询内容并展示搜索结果。与现有技术相比，本发明专利技术的行业垂直搜索引擎系统能够提供比较精准或者细化的搜索服务，且搜索效率高，具有很好的推广应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
【专利说明】一种行业垂直搜索弓I擎系统
本专利技术涉及大数据领域，具体地说是一种涉及数据采集、数据处理、数据挖掘、数据展示的行业垂直搜索弓I擎系统。
技术介绍
随着互联网时代的快速推进，人们接触的信息资源呈爆炸性发展的趋势，同时，人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息，帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。以有技术中应用较为广泛的搜索引擎包括Sphider、RiSearch PHP、XQEngine、JXTA Search等。其中，Sphider是一个轻量级，采用PHP开发的web spider和搜索引擎，使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。但是Sphider非常小，无法应用到大型项目中。RiSearch PHP是一个高效，功能强大的搜索引擎，特别适用于中小型网站。RiSearch PHP非常快，它能够在不到I秒钟内搜索5000-10000个页面。但是RiSearch是一个索引搜索引擎，这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索 XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。JXTA Search是一个分布式的搜索系统。但是设计用在点对点的网络与网站上。solr是由java开...

【技术保护点】
一种行业垂直搜索引擎系统，其特征在于：包括数据采集模块、数据处理模块、数据展示模块，所述数据采集模块用于在行业信息相关网站中爬取相关网页，并将网页源文件保存到hbase数据库中；所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理：1）采用向量空间模型建模；2）采用词频逆文档频权重进行权重计算；3）采用信息增益计算特征项的贡献程度大小；4）采用‑最近邻结点算法对待分类文本进行归类处理；所述数据展示模块用于接收查询内容并展示搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵兵旗，
申请(专利权)人：浪潮软件集团有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人