基于大数据的垂直搜索引擎系统技术方案

技术编号:10230208 阅读:166 留言:0更新日期:2014-07-18 03:51
本发明专利技术公开了一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。本发明专利技术可以更加快速准确找到用户想要的搜索结果。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。本专利技术可以更加快速准确找到用户想要的搜索结果。【专利说明】基于大数据的垂直搜索引擎系统
本专利技术属于大数据方面的搜索
,尤其涉及一种基于大数据的垂直搜索引擎系统。
技术介绍
通用搜索引擎的出现很大程度上解决了人们在互联网上查找信息的困难,但随着Web上信息的快速增长,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需求。垂直搜索引擎是一种全新的搜索引擎服务模式,它是通用搜索引擎的细化和延伸。垂直搜索引擎(vertical search engine)也被称为专业搜索引擎,或主题搜索引擎,它专门收录某一方面、某一行业或某一主题内的信息,专为查询某一个学科或某一主题的信息提供检索服务,在解决某些实际查询问题的时候比综合搜索引擎更有效。具体而言,垂直搜索引擎就是把网页库中的某类专门信息进行了整合,定向分字段地抽取出需要的数据,然后进行深度加工 处理,如去重、分类、分词、索引等,最后再以某种特定的形式返回给用户。它能为用户提供针对性更强、精确性更高的信息检索服务。垂直搜索引擎的应用方向很多,如地图搜索、音乐搜索、图片搜索、文献搜索、企业信息搜索、求职信息搜索、……涉及各行各业、各类信息都可被细化成相应的垂直搜索对象。
技术实现思路
本专利技术所要解决的技术问题是提供一种可以更加快速准确找到用户想要的搜索结果的基于大数据的垂直搜索引擎系统。为解决上述技术问题,本专利技术提供一种基于大数据的垂直搜索引擎系统,包括Lucene、索引器、检索器、中文分词模块、用户接口模块,其特征在于:所述Lucene与索引器连接,所述索引器与检索器相互连接,所述检索器与中文分词模块连接,所述用户接口模块与中文分词模块连接。进一步的,所述Lucene是一个全文检索引擎的架构。进一步的,所述索引器负责对原始数据库的文档构造索引,并且存储在索引数据库中。进一步的,所述检索器利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。进一步的,所述中文分词模块使用全二分最大匹配快速分词算法。更进一步的,所述用户接口模块为可视化的查询输入和结果输出界面。与现有技术相比,本专利技术的有益效果为: 本专利技术可以更加快速准确找到用户想要的搜索结果。【专利附图】【附图说明】图1为本专利技术结构示意图。图中=LuceneU索引器2、检索器3、中文分词模块4、用户接口模块5。【具体实施方式】以下结合附图和【具体实施方式】对本专利技术做进一步详细说明。参见图1所示,一种基于大数据的垂直搜索引擎系统,包括Lucenel、索引器2、检索器3、中文分词模块4、用户接口模块5,所述Lucenel与索引器2连接,所述索引器2与检索器3相互连接,所述检索器3与中文分词模块4连接,所述用户接口模块5与中文分词模块4连接,所述Lucenel是一个全文检索引擎的架构,所述索引器2负责对原始数据库的文档构造索引,并且存储在索引数据库中,所述检索器3利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户,所述中文分词模块4使用全二分最大匹配快速分词算法,所述用户接口模块,5为可视化的查询输入和结果输出界面,所述一个全二分最大匹配快速分词算法,这种分词算法每次的匹配操作都可以记忆,使得不需要任何的重复匹配操作,而且匹配操作都是使用二分法进行的,这样就最大限度地提高了分词的效率。综上所示,本专利技术可以更加快速准确找到用户想要的搜索结果。以上所述仅为本专利技术的较佳实施方式,本专利技术的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本专利技术所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。【权利要求】1.一种基于大数据的垂直搜索引擎系统,包括Lucene (I )、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene (I)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。2.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述Lucene (I)是一个全文检索引擎的架构。3.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述索引器(2)负责对原始数据库的文档构造索引,并且存储在索引数据库中。4.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述检索器(3)利用索引数据库中的索引来查找与用户查询相匹配的文档,计算各个文档和查询关键词的相关度,并将相关度大于阈值的文档按照相关度递减的顺序排列,返回给用户。5.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述中文分词模块(4)使用全二分最大匹配快速分词算法。6.根据权利要求1所述的一种基于大数据的垂直搜索引擎系统,其特征在于:所述用户接口模块(5)为可视化的查询输入和结果输出界面。【文档编号】G06F17/30GK103927342SQ201410120944【公开日】2014年7月16日 申请日期:2014年3月28日 优先权日:2014年3月28日 【专利技术者】官正轮 申请人:苏州中炎工贸有限公司本文档来自技高网
...

【技术保护点】
一种基于大数据的垂直搜索引擎系统,包括Lucene(1)、索引器(2)、检索器(3)、中文分词模块(4)、用户接口模块(5),其特征在于:所述Lucene(1)与索引器(2)连接,所述索引器(2)与检索器(3)相互连接,所述检索器(3)与中文分词模块(4)连接,所述用户接口模块(5)与中文分词模块(4)连接。

【技术特征摘要】

【专利技术属性】
技术研发人员:官正轮
申请(专利权)人:苏州中炎工贸有限公司
类型:发明
国别省市:江苏;32

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1