一种大数据一体机制造技术

技术编号:20362391 阅读:27 留言:0更新日期:2019-02-16 16:18
本发明专利技术提供一种大数据一体机,包括多个分布式数据存储模块,分布于相互独立的多个存储器,包括大量的存储节点;数据流模块,用于获取和传输数据流;多个计算机节点,与存储节点一一对应连接,以获取存储节点中存储的数据;数据挖掘模块,连接数据流模块和分布式数据存储模块,将所述数据流分类并根据数据流的类别将数据流传至相应的存储节点中存储;分布式数据管理模块,通过通道选择器与计算机节点连接,以将计算任务指派到与存储着该任务所需数据的存储节点相连接的计算机节点;多个分布式多级容错模块,与存储器一一对应,并连接所述数据流模块、数据挖掘模块、分布式数据管理模块和存储节点,数据流和命令流经对应的分布式多级容错模块。

【技术实现步骤摘要】
一种大数据一体机
本专利技术涉及信息
,尤其涉及一种大数据一体机。
技术介绍
随着信息技术在人类各项生产生活中的应用不断拓展,可分析的数据呈现出爆炸式增长。高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据已经成为各行业信息化面临的重大挑战。一体机是软件与硬件相结合的集成系统产品,其一般集数据处理、数据传输、数据存储三方面于一体。一体机通过预先集成、测试、优化,能够实现快速部署、简化IT基础架构,节省资源。但是组成一体机的软件和硬件时不时的会出现故障和错误,导致死机或运行失败,从而影响计算时间甚至会使数据丢失。所以急需一种具有容错能力、且具有高效运行速度的一体机。
技术实现思路
有鉴于此,本专利技术的实施例提供了一种大数据一体机,具有容错能力,且执行速度快、效率高。本专利技术的实施例提供一种大数据一体机,包括多个分布式数据存储模块,分布于相互独立的多个存储器,包括大量的存储节点;数据流模块,具有输入输出接口,用于获取和传输数据流;多个计算机节点,与每一所述存储器上的大量的所述存储节点一一对应连接,以获取对应的所述存储节点中存储的数据;数据挖掘模块,连接所述数据流模块和所述分布式数据存储模块,所述数据挖掘模块根据挖掘算法将所述数据流分类并根据数据流的类别将数据流传至相应的所述存储器中的相应的所述存储节点中存储;分布式数据管理模块,通过通道选择器与所述多个计算机节点连接,以将计算任务指派到与存储着该任务所需数据的所述存储节点相连接的所述计算机节点;多个分布式多级容错模块,与多个所述存储器至少一一对应,所述分布式多级容错模块连接所述数据流模块、所述数据挖掘模块、分布式数据管理模块和对应的所有所述存储节点,每一所述分布式多级容错模块以等级方式组织进程组,其中一所述进程组为主进程组,处于动态,其他所述进程组的交互状态由所述主进程组的检查点定期更新,若所述主进程组崩溃,采用后备执行选举算法在其他所述进程组中选择一个进程组作为新的主进程组,数据流的传输和存储及所述分布式数据管理模块发出的命令流经对应的所述分布式多级容错模块。进一步地,所述挖掘算法为聚类算法、分类算法和预测算法中的一种或者多种,用于将数据分为访问率高的热点数据和访问率低的冷数据,所述冷数据被所述数据挖掘模块传至低速廉价的所述存储器中,所述热点数据被所述数据挖掘模块根据存储预取算法分配至高速且容量大的所述存储器中。进一步地,分布式数据管理模块包括多个管理节点,每一所述管理节点与一所述存储器对应,且与与之对应的所述存储器中的所有所述存储节点连接,每一所述管理节点包括:本地数据库管理系统,负责管理与本管理节点对应的所述存储器中的数据;和数据连接组件,连接该管理节点与其他所有管理节点。进一步地,所述通道选择器包括多个通道开关,所述通道开关的数量与所述计算机节点的数量一致,且与所述计算机节点一一对应连接。本专利技术的实施例提供的技术方案带来的有益效果是:本专利技术所述的大数据一体机,利用所述分布式数据管理模块通过所述通道选择器,将计算任务指派到与存储着该任务所需数据的所述存储节点相连接的所述计算机节点执行,从而提高了数据传输速度,避免传统分布式计算中严重的数据传输瓶颈。本专利技术所述的大数据一体机具有多个分布式多级容错模块,利用动态的多级容错机制来应对一体机发生的故障和错误,确保任务顺利、高速的执行,能够防止任务中断和数据丢失。附图说明图1是本专利技术大数据一体机的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地描述。请参考图1,本专利技术的实施例提供了一种大数据一体机,包括数据流模块5、数据挖掘模块6、通道选择器、多个分布式数据存储模块2、多个计算机节点3、多个分布式多级容错模块7和分布式数据管理模块。所述多个分布式数据存储模块2分布于相互独立的多个存储器1中,每一所述存储器1中包含一所述分布式数据存储模块2,每一所述分布式数据存储模块2包括大量的存储节点21。所述计算机节点3的数量与所述存储节点21的数量一致,且与所述存储节点21一一对应连接,从而每一所述计算机节点3能够直接且快速的获取与之对应连接的所述存储节点21中存储的数据。所述数据流模块5,具有输入输出接口,用于获取和传输数据流。所述数据挖掘模块6连接所述数据流模块5和所有所述存储节点21,所述数据挖掘模块6根据挖掘算法将所述数据流分类并根据数据流的类别将数据流传至相应的所述存储器1中的相应的所述存储节点21中存储。具体的,所述挖掘算法为聚类算法、分类算法和预测算法中的一种或者多种,用于将数据分为访问率高的热点数据和访问率低的冷数据。所述冷数据被所述数据挖掘模块6传至低速廉价的所述存储器1中,从而可以在小幅牺牲系统整体性能的基础上,大幅降低系统的构建成本和能耗。所述热点数据被所述数据挖掘模块6根据存储预取算法分配至高速且容量大的所述存储器1中,以提高访问性能和运算速度。所述分布式数据管理模块包括多个管理节点4,每一所述管理节点4与一所述存储器1对应,且与与之对应的所述存储器1中的所有所述存储节点21连接,每一所述管理节点4包括本地数据库管理系统41和数据连接组件42。所述本地数据库管理系统41负责管理与本管理节点41对应的所述存储器1中的数据;所述数据连接组件42连接该管理节点4与其他所有管理节点4,从而实现数据共享,便于整体数据的优化管理。所述通道选择器包括多个通道开关,所述通道开关的数量与所述计算机节点3的数量一致,且与所述计算机节点3一一对应连接。所述分布式数据管理模块通过所述通道选择器与所述多个计算机节点3连接,利用并行计算框架智能的将计算任务指派到与存储着该任务所需数据的所述存储节点21相连接的所述计算机节点3,能够缩短数据的传输路径和传输时间,以能够在一定程度上防止数据在传输的过程中出错,从而避免传统分布式计算中严重的数据传输瓶颈。所述多个分布式多级容错模块7与多个所述存储器1至少一一对应,所述分布式多级容错模块7连接所述数据流模块5、所述数据挖掘模块6、分布式数据管理模块和与之对应的所有所述存储节点21,每一所述分布式多级容错模块7以等级方式组织进程组,其中一所述进程组为主进程组,处于动态,其他所述进程组的交互状态由所述主进程组的检查点定期更新,若所述主进程组崩溃,采用后备执行选举算法在其他所述进程组中选择一个进程组作为新的主进程组,数据流的传输和存储及所述分布式数据管理模块发出的命令流经对应的所述分布式多级容错模块。即每一所述分布式多级容错模块用于处理与之对应的所述存储器的故障或者错误问题,且利用动态的多级容错机制来应对这些故障或者错误,确保任务顺利、高速的执行,能够防止任务中断和数据丢失。本专利技术的实施例提供的技术方案带来的有益效果是:本专利技术所述的大数据一体机,利用所述分布式数据管理模块通过所述通道选择器,将计算任务指派到与存储着该任务所需数据的所述存储节点21相连接的所述计算机节点3执行,从而提高了数据传输速度,避免传统分布式计算中严重的数据传输瓶颈。本专利技术所述的大数据一体机具有多个分布式多级容错模块7,利用动态的多级容错机制来应对一体机发生的故障和错误,确保任务顺利、高速的执行,能够防止任务中断和数据丢失。在本文中,所涉及的前、后、上、下本文档来自技高网...

【技术保护点】
1.一种大数据一体机,其特征在于:包括多个分布式数据存储模块,分布于相互独立的多个存储器,包括大量的存储节点;数据流模块,具有输入输出接口,用于获取和传输数据流;多个计算机节点,与每一所述存储器上的大量的所述存储节点一一对应连接,以获取对应的所述存储节点中存储的数据;数据挖掘模块,连接所述数据流模块和所述分布式数据存储模块,所述数据挖掘模块根据挖掘算法将所述数据流分类并根据数据流的类别将数据流传至相应的所述存储器中的相应的所述存储节点中存储;分布式数据管理模块,通过通道选择器与所述多个计算机节点连接,以将计算任务指派到与存储着该任务所需数据的所述存储节点相连接的所述计算机节点;多个分布式多级容错模块,与多个所述存储器至少一一对应,所述分布式多级容错模块连接所述数据流模块、所述数据挖掘模块、分布式数据管理模块和对应的所有所述存储节点,每一所述分布式多级容错模块以等级方式组织进程组,其中一所述进程组为主进程组,处于动态,其他所述进程组的交互状态由所述主进程组的检查点定期更新,若所述主进程组崩溃,采用后备执行选举算法在其他所述进程组中选择一个进程组作为新的主进程组,数据流的传输和存储及所述分布式数据管理模块发出的命令流经对应的所述分布式多级容错模块。...

【技术特征摘要】
1.一种大数据一体机,其特征在于:包括多个分布式数据存储模块,分布于相互独立的多个存储器,包括大量的存储节点;数据流模块,具有输入输出接口,用于获取和传输数据流;多个计算机节点,与每一所述存储器上的大量的所述存储节点一一对应连接,以获取对应的所述存储节点中存储的数据;数据挖掘模块,连接所述数据流模块和所述分布式数据存储模块,所述数据挖掘模块根据挖掘算法将所述数据流分类并根据数据流的类别将数据流传至相应的所述存储器中的相应的所述存储节点中存储;分布式数据管理模块,通过通道选择器与所述多个计算机节点连接,以将计算任务指派到与存储着该任务所需数据的所述存储节点相连接的所述计算机节点;多个分布式多级容错模块,与多个所述存储器至少一一对应,所述分布式多级容错模块连接所述数据流模块、所述数据挖掘模块、分布式数据管理模块和对应的所有所述存储节点,每一所述分布式多级容错模块以等级方式组织进程组,其中一所述进程组为主进程组,处于动态,其他所述进程组的交互状态由所述主进程组的检查点定期更新,若所述主进程组崩溃,采用后...

【专利技术属性】
技术研发人员:张隆显
申请(专利权)人:武汉元鼎创天信息科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1