一种行业垂直搜索引擎系统技术方案

技术编号:12354452 阅读:139 留言:0更新日期:2015-11-19 04:30
本发明专利技术公开了一种行业垂直搜索引擎系统,属于大数据领域。所述行业垂直搜索引擎系统包括数据采集模块、数据处理模块、数据展示模块,所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中;所述数据处理模块对爬取到的相关网页进行数据处理;所述数据展示模块用于接收查询内容并展示搜索结果。与现有技术相比,本发明专利技术的行业垂直搜索引擎系统能够提供比较精准或者细化的搜索服务,且搜索效率高,具有很好的推广应用价值。

【技术实现步骤摘要】
【专利说明】一种行业垂直搜索弓I擎系统
本专利技术涉及大数据领域,具体地说是一种涉及数据采集、数据处理、数据挖掘、数据展示的行业垂直搜索弓I擎系统。
技术介绍
随着互联网时代的快速推进,人们接触的信息资源呈爆炸性发展的趋势,同时,人们获得信息的方式和途径也呈现多元化发展的态势。如何从这些错综复杂的信息中全面、准确无误地提取自己所需信息,帮助用户收集自己所感兴趣的资料成为当前信息科技领域的一大研究热点。以有技术中应用较为广泛的搜索引擎包括Sphider、RiSearch PHP、XQEngine、JXTA Search等。其中,Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。但是Sphider非常小,无法应用到大型项目中。RiSearch PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch PHP非常快,它能够在不到I秒钟内搜索5000-10000个页面。但是RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索 XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索HTML文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。JXTA Search是一个分布式的搜索系统。但是设计用在点对点的网络与网站上。solr是由java开发的,基于Iucene的分布式搜索引擎,提供了类似于Webserver的编程接口,是一个比较成熟的搜索引擎,目前很多公司都在使用。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过http收到一个XML/JSON响应来实现,高效、灵活的缓存功能降低用户的等待时间,高亮显示搜索结果让用户快速定位所需内容,通过索引复制提高可用性,对用户决策起到一定的辅助作用等。
技术实现思路
本专利技术的技术任务是针对上述现有技术的不足,提供一种行业垂直搜索引擎系统。本专利技术的技术任务是按以下方式实现的:一种行业垂直搜索引擎系统,包括数据采集模块、数据处理模块、数据展示模块,所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中; 所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理: 1)采用向量空间模型建模; 2)采用词频逆文档频权重进行权重计算; 3)采用信息增益计算特征项的贡献程度大小; 4)采用-最近邻结点算法对待分类文本进行归类处理; 所述数据展示模块用于接收查询内容并展示搜索结果。作为优选,数据采集模块可以为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,以保证网页信息的实时性。作为优选,所述数据展示模块包括: 1)综合搜索模块,用于接收查询输入内容,提交给SOlr服务,从索引文件中进行查询,返回符合条件的所有网页,并分类显示标题,标题链接具体内容; 2)企业搜索模块,用于接收查询输入内容,提交给solr服务,从索引文件中进行查询,返回符合条件的企业; 3)用户权限管理模块,用于完成系统用户权限管理,并根据权限对上述显示内容进行按需推送。与现有技术相比,本专利技术的行业垂直搜索引擎系统具有以下有益效果: (一)通过对采集后的数据进行分析,采用信息分类方式把不同的数据存储到结构化和非结构化数据库中,提交自己的关键词,即可准确定位到用户所需信息,能取得更精准的搜索结果; (二)使用solrcloud作为分布式搜索服务的基础,利用机器学习算法对互联网数据进行提取解析以及分析挖掘,保障搜索效率及精准性。【附图说明】附图1是本专利技术行业垂直搜索引擎系统的流程图。【具体实施方式】参照说明书附图以具体实施例对本专利技术的行业垂直搜索引擎系统作以下详细地说明。实施例: 本实施例是针对企业的专业搜索引擎,是通用搜索引擎的细分和延伸,通过针对税务领域提供有特定价值的信息和相关服务。如附图1所示,其主要功能模块及采用技术如下: (I)数据采集 根据税务部门要求,对提供的相关纳税人,使用网络爬虫到“百度百科”、招聘网、企业官网、新闻网站、股市信息网站等可能包含与纳税人相关信息的网站爬取相关网页,网页源文件保存到hbase数据库中。为每个数据来源网站建立适用的下载更新策略,启动定时更新任务,保证网页信息的实时性。hbase分布式数据库可以保证各种类型数据无损失保存,并可根据需求进行横向扩展。(2)数据处理 a)模型建立:向量空间模型 采用基于线性代数的简单向量空间模型,允许局部匹配,排除布尔逻辑模型的硬性比对; b)权重计算:词频逆文档频权重 词频逆文档频权重又被叫做 TF-1DF (Term Frequency-1nverse Document Frequency)权重。这种计算方法包含两部分:TF指的词频,即某个特征项在文本中出现了多少次,这个值计算前都会被处理,防以免受到文本长度的影响,所以这种权重计算方法把词频权重的思想引入进来;IDF指的逆文档频率,是对某个特征项普遍性的衡量,计算方法是用总的文档数量除以包含该特征项的文档的数量,再通过对数运算获得最后的值。如果所该特征项仅存在于个别的文档当中,说明该特征项的集中程度越高,它对文档类别的贡献率越高。c)特征降维:信息增益<当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种行业垂直搜索引擎系统,其特征在于:包括数据采集模块、数据处理模块、数据展示模块,所述数据采集模块用于在行业信息相关网站中爬取相关网页,并将网页源文件保存到hbase数据库中;所述数据处理模块通过以下方法对爬取到的相关网页进行数据处理:1)采用向量空间模型建模;2)采用词频逆文档频权重进行权重计算;3)采用信息增益计算特征项的贡献程度大小;4)采用‑最近邻结点算法对待分类文本进行归类处理;所述数据展示模块用于接收查询内容并展示搜索结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵兵旗
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1