一种高可用的大数据平台制造技术

技术编号:19342069 阅读:21 留言:0更新日期:2018-11-07 13:51
本发明专利技术公开了一种高可用的大数据平台,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统;数据计算子平台系统;智能全文检索子平台系统和统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。根据本发明专利技术的高可用的大数据平台,是一个高可用大大数据平台及统一的运维监测系统,从数据采集,存储,计算分析,可视化检索,统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系,减少一般的大数据平台不能形成完整的闭环,造成数据丢失,数据分析不完整的弊端。

A high availability big data platform

The invention discloses a high available large data platform, which comprises a support server and a platform system cluster arranged on the support server. The platform system cluster includes: a data storage sub-platform system; a data integration sub-platform system; a data computing sub-platform system; an intelligent full-text retrieval sub-platform system and a platform system. The unified operation and maintenance monitoring sub-platform system, the unified operation and maintenance monitoring sub-platform system unified installation, deployment and operation and maintenance monitoring management. According to the present invention, the high available large data platform is a high available large data platform and a unified operation and maintenance monitoring system. It is a high available large data system from data acquisition, storage, calculation and analysis, visual retrieval and unified operation and maintenance monitoring management. From data acquisition system to data visualization, an effective and complete system is formed, which reduces the drawbacks of the general large data platform that can not form a complete closed loop, resulting in data loss and incomplete data analysis.

【技术实现步骤摘要】
一种高可用的大数据平台
本专利技术涉及大数据处理
,具体而言,特别涉及一种高可用的大数据平台。
技术介绍
当今世界,信息化浪潮席卷全球,大数据、云计算、物联网等蓬勃发展,使互联网时代迈上一个新台阶,大数据技术无疑是整个信息行业乃至整个社会的热点话题,各行各业都在探讨大数据可以为自身所在的行业带来怎样的变化和提升,以实现“人在干、数在转、云在算”的价值理念为最高目标。大数据平台基于开源分布式框架Hadoop为基础并深度优化,且整合大量优秀开源技术框架,形成以数据分布式采集,大数据聚合传输,数据分布式存储,实时和离线数据分析计算,智能全文检索,大数据可视化等构成大数据生态系统。传统的数据库无法支撑在海量数据全量计算及存储,使用起来十分不便。
技术实现思路
本专利技术旨在至少在一定程度上解决现有技术中的上述技术问题之一。有鉴于此,本专利技术需要提供一种…优点(独立权利要求带来的技术效果,要简洁)的主题)。根据本专利技术实施例的高可用的大数据平台,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统,所述数据集成子平台系统通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统;数据计算子平台系统,所述数据计算子平台系统通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策;智能全文检索子平台系统,所述智能全文检索子平台系统使用自然语言处理技术,倒排序算法实现数据内容全文检索;统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。根据本专利技术的实施例的高可用的大数据平台,是一个高可用大大数据平台及统一的运维监测系统,从数据采集,存储,计算分析,可视化检索,统一运维监测管理的高可用的大数据系统。从数据采集系统到数据到数据可视化形成有效的完整的体系,减少一般的大数据平台不能形成完整的闭环,造成数据丢失,数据分析不完整的弊端。另外,根据本专利技术上述实施例的高可用的大数据平台还可以具有如下附加的技术特征:根据本专利技术的一个实施例,所述平台系统集群进一步包括:大数据可视化平台系统,所述大数据可视化平台系统布置在所述支架服务器上。根据本专利技术的一个实施例,所述数据存储子平台系统支持关系型数据存储于Oracle、SQL或Hive数据库。根据本专利技术的一个实施例,所述数据存储子平台系统支持非结构化数据存储于Hbase和HDFS分布式文件系统。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明图1是根据本专利技术的一个实施例的高可用的大数据平台的架构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。在本专利技术中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。根据本专利技术的实施例的高可用的大数据平台,使用针对特定应用的大数据管理平台,通过使用多项先进技术包括:融合检索引擎、MySQL多引擎机制、Hadoop/HDFS分布式并行计算和多副本机制、关系数据库列存储机制、自然语言处理等先进技术,而设计的大数据聚合分析平台,为各类业务提供大数据分析应用。而引入Federation的最主要原因是简单,其简单性是与真正的分布式Namenode相比而言的。Federation能够快速的解决了大部分单NamenodeHDFS的问题。Federation是简单鲁棒的设计,由于联盟中各个Namenode之间是相互独立的。Federation整个核心设计实现大概用了3.5个月。大部分改变是在Datanode、Config和Tools,而Namenode本身的改动非常少,这样Namenode原先的鲁棒性不会受到影响。比分布式的Namenode简单,虽然这种实现的扩展性比起真正的分布式的Namenode要小些,但是可以迅速满足需求。另外一个原因是Federation良好的向后兼容性,已有的单Namenode的部署配置不需要任何改变就可以继续工作。统一运维管理平台使用Ganglia收集度量指标,用Nagios支持系统报警,当需要引起管理员的关注时(比如,节点停机或磁盘剩余空间不足等问题),系统将向其发送告警。根据本专利技术的实施例的高可用的大数据平台,包括:支架服务器(未示出)和布置在所述支架服务器上的平台系统集群,平台系统集群包括:数据存储子平台系统10、数据集成子平台系统20、数据计算子平台系统30、智能全文检索子平台系统40和统一运维监测子平台系统50。具体而言,数据集成子平台系统20通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统10。数据计算子平台系统30通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策。智能全文检索子平台系统40使用自然本文档来自技高网...

【技术保护点】
1.一种高可用的大数据平台,其特征在于,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统,所述数据集成子平台系统通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统;数据计算子平台系统,所述数据计算子平台系统通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策;智能全文检索子平台系统,所述智能全文检索子平台系统使用自然语言处理技术,倒排序算法实现数据内容全文检索;统一运维监测子平台系统,所述统一运维监测子平台系统统一的安装部署及运维监测管理。

【技术特征摘要】
1.一种高可用的大数据平台,其特征在于,包括:支架服务器和布置在所述支架服务器上的平台系统集群,所述平台系统集群包括:数据存储子平台系统;数据集成子平台系统,所述数据集成子平台系统通过Agent客户端实时采集数据,通过Flume将数据及时传送至Kafka集群,同时不同网络位置Kafak集群将采集数据实时发送至数据存储平台系统;数据计算子平台系统,所述数据计算子平台系统通过MapReduce离线计算,Storm计算流数据框架做数据统计分析,数据关联挖掘和模型预测功能,使用异步通信框架对海量数据,数学建模迭代求优,获取最优参数模型,再使用模型参数预测未来发展趋势,以便于精准控制和智能决策;智能全文检索...

【专利技术属性】
技术研发人员:魏素扬
申请(专利权)人:江苏鸣鹤云科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1