一种大数据存储解析查询系统技术方案

技术编号:24091261 阅读:32 留言:0更新日期:2020-05-09 08:10
一种大数据存储解析查询系统,包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构和数据可视化展示框架;分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎;数据可视化展示框架采用MVC结构。本发明专利技术通过分布式存储和查询,多个节点同时存储和查询,提高了效率,节省了时间。在海量数据中的查询,相较于传统数据库是全表扫描,时间缓慢,分布式查询技术,同样的数据能达到秒级的速度。解析类型丰富,支持各种数据样本,且支持分布式解析,解析速度大大提升。

A big data storage, analysis and query system

【技术实现步骤摘要】
一种大数据存储解析查询系统
本专利技术涉及大数据处理
,具体涉及一种大数据存储解析查询系统。
技术介绍
随着互联网技术的高速发展,大数据的运用越来越广泛,也吸引了越来越多的关注。大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。这些数据在存储和解析中会花费过多时间和金钱,并且传统的数据库,在数据大量的增长的情况下,查询的速度会严重下降,从而影响效率。
技术实现思路
本专利技术提供了一种大数据存储解析查询系统,以解决在传统的数据库中,在数据大量的增长的情况下,数据库,在数据大量的增长的情况下,查询的速度会严重下降,从而影响效率的问题。为解决上述技术问题,本专利技术通过以下技术方案予以实现:一种大数据存储解析查询系统,其特征在于:包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎;根据本专利技术的一实施方式,所述分布式数据存储架构包括客户端和Hadoop集群;所述客户端将存档文件按64M分成两块,分别为block1和Block2;所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块;所述客户端NameNode节点模块发送写数据请求;所述NameNode节点模块记录block信息,并返回到DataNode节点模块;所述客户端向DataNode节点模块发送block1;发送过程是以流式写入。根据本专利技术的另一实施方式,所述流式写入过程包括以下步骤:步骤1)将64M的block1按64k的package划分;步骤2)将第一个package发送给第一个Datanode1;步骤3)Datanode1接收完后,将第一个package发送给第二个Datanode2,同时client向Datanode1发送第二个package;步骤4)Datanode2接收完第一个package后,发送给Datanode3,同时接收Datanode1发来的第二个package;步骤5)以此类推,直到将block1发送完毕;步骤6)Datanode1,Datanode2,Datanode3向NameNode,Datanode1向Client发送block1发送成功的消息。步骤7)Client收到Datanode1发来的消息后,向Namenode发送消息;此时,block1发送完全结束,跳转到步骤S6,开始写入block2分块,直至block2发送完全结束。根据本专利技术的另一实施方式,所述分布式数据解析架构包括:主节点:用于控制整个Hadoop集群,并监控从节点;从节点:用于计算节点的控制,并控制启动执行器或驱动程序;主控程序:用于应用程序的运行和调度;执行器:为某个应用程序运行在workernode上的一个进程,启动线程池运行任务上,每个应用程序拥有独立的一组执行器;弹性分布式数据集:一组弹性分布式数据集形成执行的有向无环图;DAGScheduler:根据Job构建基于Stage的DAG,并提交Stage给任务调度程序。任务调度程序:将任务分发给执行器执行。Env:线程级别的上下文,存储运行时的重要组件的引用。根据本专利技术的另一实施方式,所述分布式数据搜索架构包括:数据采集模块:用于采集各类数据;索引管理模块:用于针对所述数据库构建索引库;搜索模块:用于获得搜索请求,对所获得的搜索请求进行解析,得到语义;根据语义查找索引库,得到目标索引;用目标索引搜索查找所述数据库,得到搜索结果。根据本专利技术的另一实施方式,所述大数据存储解析查询系统还包括数据可视化展示框架,所述数据可视化展示框架采用MVC结构。本专利技术提供了一种大数据存储解析查询系统。具备以下有益效果:可扩展性强:只需要增加一台服务器,运用少量配置,启动进程即可并入集群;高效性:采用分布式架构,采用分而治之的方式来提升处理效率;高可用:提供复制机制,一个分片可以设置多个复制,使得某台服务器宕机的情况下,集群仍旧可以照常运行,并会把由于服务器宕机丢失的复制恢复到其它可用节点上;这点也类似于HDFS的复制机制,而传统的数据库,数据存储只能存储一份。解析类型多样性:不仅支持一般的sql和文本,而且支持邮件,手机数据,硬盘数据等复杂数据。可视化:可以把大量数据的关联性清晰的展示在页面上。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。图1本专利技术的一种大数据存储解析查询系统的流程示意图;图2本专利技术的一种大数据存储解析查询系统中分布式数据存储架构的分布式写入操作图;图3本专利技术的一种大数据存储解析查询系统中MVC结构的框架图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述。如图1所示,一种大数据存储解析查询系统,包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;本专利技术的分布式数据存储架构为适合运行在通用硬件上的分布式文件系统。其与现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的。它是一个高度容错性的系统,适合部署在廉价的机器上。并且分布式文件系统放宽了POSIX的要求,实现以流的形式访问文件系统中的数据。所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算,包括SQL查询、文本处理、机器学习等;并且支持交互式计算和复杂算法;而且运用高级API剥离了对集群本身的关注,应用开发者可以专注于应用所要做的计算本身;大数据在通过分布式数据解析架构进行解析之后的数据存储在各种数据库中。所述分布式数据搜索架构是一种分布式的海量数据搜索与分析的技术,用于电商网站、门户网站、企业IT系统等各种场景下的分布式的海量数据搜索引擎;通过分布式特性,让其可以支持海量的、PB级的大数据搜索。并且其是分布式执行数据分析操作而生的架构,海量数据量级下的近实时(秒级)性能支持,以及无比强大的搜索和聚合分析的语法支持,让它更加适合进行大数据场景下的数据分析应用。在分布式数据搜索架构中将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。在一些实施本文档来自技高网...

【技术保护点】
1.一种大数据存储解析查询系统,其特征在于:包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;/n所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎。/n

【技术特征摘要】
1.一种大数据存储解析查询系统,其特征在于:包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;
所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎。


2.根据权利要求1所述的一种大数据存储解析查询系统,其特征在于:所述分布式数据存储架构包括客户端和Hadoop集群;
所述客户端将存档文件按64M分成两块,分别为block1和Block2;所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块;所述NameNode节点模块发送写数据请求;所述NameNode节点模块记录block信息,并返回到DataNode节点模块;所述客户端向DataNode节点模块发送block1;发送过程是以流式写入。


3.根据权利要求2所述的一种大数据存储解析查询系统,其特征在于:所述流式写入过程包括以下步骤:
步骤1)将64M的block1按64k的package划分;
步骤2)将第一个package发送给第一个Datanode1;
步骤3)Datanode1接收完后,将第一个package发送给第二个Datanode2,同时client向Datanode1发送第二个package;
步骤4)Datanode2接收完第一个package后,发送给Datanode3,同时接收Datanode1发来的第二个package;
步骤5)以此类推,直到将block1发送完毕;
步骤6)Datanode1,Datanode2...

【专利技术属性】
技术研发人员:李文飞程俊
申请(专利权)人:写逸网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1