一种实时大数据搜索引擎系统技术方案

技术编号:18350415 阅读:16 留言:0更新日期:2018-07-01 23:37
本发明专利技术提供一种实时大数据搜索引擎系统,基于HTTP协议,运用Apache Lucene构建而成,其架构至少包括:采集各种格式的文档和数据的采集器;根据文档的分析处理结果创建对应索引的索引器;储存索引的索引库;集合带有索引的各文档的信息资源库;接收外界用户端输入的查询信息和返回查询结果的搜索器;进行检索工作的大数据内核。本发明专利技术实施例可实现实时流数据的全文搜索。

【技术实现步骤摘要】
一种实时大数据搜索引擎系统
本专利技术涉及互联网
,尤其涉及一种实时大数据搜索引擎系统。
技术介绍
随着信息化技术的发展,尤其是社交网络、移动互联、物联网、大数据应用的迅速崛起和普及,人类社会发展所产生的数据呈现爆炸式增长。如今全球每两天创造的数据就相当于自人类文明开始到2003年人类创造数据的总和,而且还在以每年50%的速度增长。迅速膨胀的数据已经将人类带入到了崭新的“大数据”时代,数据已经成为与自然资源、人力资源同等重要的战略资源和生产要素。面对如此庞大的数据,如何从海量数据中快速获取需要的数据,并发掘需要的知识,是当今面临的一个挑战。传统的网络应用系统架构,主要有C/S模式(或B/S),S是指Server(服务器端),B指Browser(浏览器端),C指Client(客户端),两者之间区别只在于主要业务逻辑是放在客户端还是放在服务器端。以C/S模式为例,客户端通过UI(操作界面)与用户交互产生的数据一般会通过网络方式提交给服务器进行业务处理,处理后的业务数据会存储在数据库或文件系统中,等待二次运用,比如数据查询、统计和数据挖掘等操作。该架构在大数据(通常指TB级的数据量)情况下,数据的分析处理瓶颈主要集中在数据库和文件系统的I/O,内存和CPU处理能力等,会导致系统响应太慢甚至无法响应,而且这种系统通常不具备可扩展性,增加存储和计算资源并不能提高其性能。
技术实现思路
本专利技术所要解决的技术问题在于,提供一种实时大数据搜索引擎系统,能很好实现实时流数据的搜索功能。为了解决上述技术问题,本专利技术提供一种实时大数据搜索引擎系统,采集器,采集来自于所述实时大数据搜索引擎系统外部的各种格式的文档和数据;索引器,对所述采集器所采集到的各种格式的文档以及数据库数据进行信息抽取,并根据文档类型选择相对应的文本分析器进行文本分析,创建各文档对应的索引;索引库,收集并储存所述索引器产生的索引;信息资源库,集合带有索引的各文档,并与所述索引库中的对应索引建立关联;搜索器,接收外界用户端输入的查询信息,并生成并传递搜索请求同时将搜索结果进行排序后反馈给所述外界用户端;大数据内核,接收所述搜索器传递的所述搜索请求,在所述索引库内进行对应的索引检索并在所述信息资源库内提取对应的文件,同时反馈检索的结果和检索到的文件给到所述搜索器。在可选的实施例中,所述实时大数据搜索引擎系统由至少一台服务器实施。在可选的实施例中,所述索引器具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包创建所述各文档对应的索引。在可选的实施例中,所述搜索请求具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包定义的格式,并最终以超文本传输协议的方式进行传输。在可选的实施例中,所述索引器在创建每个所述索引时,将该索引与所对应的文档的ID值进行映射操作;在查找索引时,所述实时大数据搜索引擎根据用户的输入信息检索所述索引库内的对应索引并映射出与该索引对应的所述文档的ID值即可返回查找结果及文档。在可选的实施例中,所述搜索请求包括关键词搜索、全文搜索以及关联搜索中至少一种。在可选的实施例中,所述增加、修改的请求被所述实时大数据搜索引擎接收后且经用户进行确认提交后,在所述搜索器内才能搜索到所述索引及相关文件。在可选的实施例中,当所述删除请求包括ID值时,所述ID值指示删除包括对应ID值的文档,当所述删除请求包括查询索引时,所述查询索引指示删除根据所述查询索引搜到的所有对应文档。在可选的实施例中,所述采集器所采集到的各种格式的文档均以可扩展标记语言(XML)形式存储。在可选的实施例中,具有可扩展的插件系统,通过各类插件完成更快速的数据处理和分析。在可选的实施例中,所述可扩展的插件包括IKAnalyzer、Mmseg4j,Paoding等分词器以及Solr_Pager分页工具。本专利技术实施例的有益效果在于:本专利技术的实时大数据搜索引擎系统,一方面,具有实时流数据的全文搜索和分布式计算功能,可提高数据分析处理的响应速度,适用于有超大数据集的应用程序;一方面,可由多台服务器以扩展的分布式架构能够实现,可便于服务器的动态部署,并通过增加硬件或者配置多个服务器来同时管理数据;再一方面,具有可扩展的插件体系,使得该实时大数据搜索引擎可更快速的处理和分析数据。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一种实时大数据搜索引擎的一个实施例的功能架构示意图。图2是本专利技术一种实时大数据搜索引擎的一个实施例的功能架构及工作流程图。具体实施方式以下各实施例的说明是参考附图,用以示例本专利技术可以用以实施的特定实施例。本专利技术实施例提供一种实时大数据搜索引擎系统,例如为计算机、平板电脑、掌上电脑等智能设备。如图1和图2所示,本专利技术提供的实时大数据搜索引擎系统可包括:采集器1,采集来自于实时大数据搜索引擎系统外部的各种格式的文档和数据;在可选的实施例中,所述采集器1可为上述智能设备与数据源(未图示)连接的数据收发器,例如,USB接口、天线、显示屏等收发模块。所述数据源可为其他智能设备。所述各种格式的文档和数据可包括增加、修改、删除和查询等请求操作。具体实现中,用户可通过HPPT格式向所述采集器发送所述增加、修改、删除和查询等请求操作。索引器2,对采集器1所采集到的各种格式的文档以及数据库数据进行信息抽取,并根据文档类型选择相对应的文本分析器进行文本分析,创建各文档对应的索引;在可选的实施例中,本专利技术的索引器2遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包(ApacheLucene)创建所述索引。索引库5,收集并储存索引器2产生的索引;信息资源库6,集合带有索引的各文档,并与索引库5中的对应索引建立关联;搜索器3,接收外界用户端输入的查询信息,并生成并传递搜索请求给大数据内核4,同时将大数据内核4的搜索结果进行排序后反馈给用户;在可选的实施例中,所述搜索请求包括关键词搜索、全文搜索以及关联搜索中至少一种,所述搜索请求遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包定义的格式,并最终以超文本传输协议(HTTP)的方式进行传输。大数据内核4,接收搜索器3传递的搜索请求,在索引库5内进行对应的索引检索并在信息资源库6内提取对应的文件,同时反馈检索的结果和检索到的文件给到搜索器3。在可选的实施例中,索引器2,索引库5、搜索器3以及大数据内核4可为软件功能模块,这些软件功能模块可分布在不同的硬件模块(例如,多个DSP处理器)或不同的分布式服务器中实现,或者集中由一个中央处理单元(CPU)实现。关于该实时大数据搜索引擎系统(例如,简称为:ROSE系统)如何开展实时大数据高速运算和处理工作进行说明,可参见图2的工作流程图。首先,该ROSE系统的采集器1从系统外部的数据源采集到各类的文档及数据库数据,并对其文档进行分类处理后,由索引器2针对不同类型的文档选择不同的文本分析器进行文本分析,并根据用户端常用的搜索习惯和关键字等方式创建各文档所对应的索引本文档来自技高网...
一种实时大数据搜索引擎系统

【技术保护点】
1.一种实时大数据搜索引擎系统,其特征在于,包括:采集器,采集来自于所述实时大数据搜索引擎系统外部的各种格式的文档和数据;索引器,对所述采集器所采集到的各种格式的文档以及数据库数据进行信息抽取,并根据文档类型选择相对应的文本分析器进行文本分析,创建各文档对应的索引;索引库,收集并储存所述索引器产生的索引;信息资源库,集合带有索引的各文档,并与所述索引库中的对应索引建立关联;搜索器,接收外界用户端输入的查询信息,并生成并传递搜索请求同时将搜索结果进行排序后反馈给所述外界用户端;大数据内核,接收所述搜索器传递的所述搜索请求,在所述索引库内进行对应的索引检索并在所述信息资源库内提取对应的文件,同时反馈检索的结果和检索到的文件给到所述搜索器。

【技术特征摘要】
1.一种实时大数据搜索引擎系统,其特征在于,包括:采集器,采集来自于所述实时大数据搜索引擎系统外部的各种格式的文档和数据;索引器,对所述采集器所采集到的各种格式的文档以及数据库数据进行信息抽取,并根据文档类型选择相对应的文本分析器进行文本分析,创建各文档对应的索引;索引库,收集并储存所述索引器产生的索引;信息资源库,集合带有索引的各文档,并与所述索引库中的对应索引建立关联;搜索器,接收外界用户端输入的查询信息,并生成并传递搜索请求同时将搜索结果进行排序后反馈给所述外界用户端;大数据内核,接收所述搜索器传递的所述搜索请求,在所述索引库内进行对应的索引检索并在所述信息资源库内提取对应的文件,同时反馈检索的结果和检索到的文件给到所述搜索器。2.根据权利要求1所述的实时大数据搜索引擎系统,其特征在于,所述实时大数据搜索引擎系统由至少一台服务器实施。3.根据权利要求1或2所述的实时大数据搜索引擎系统,其特征在于,所述索引器具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包创建所述各文档对应的索引。4.根据权利要求1或2所述的实时大数据搜索引擎系统,其特征在于,所述搜索请求具体用于遵循阿帕奇Web服务器中的开放源代码全文检索引擎工具包定义的格式,并最终以超文本传输协议的方式进行传输。5.根据权利要求1所述的实时...

【专利技术属性】
技术研发人员:张云翔饶竹一
申请(专利权)人:深圳供电局有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1