基于存储与计算分离的大数据多数据源分析方法及系统技术方案

技术编号:30904151 阅读:40 留言:0更新日期:2021-11-22 23:49
本发明专利技术公开了基于存储与计算分离的大数据多数据源分析方法及系统,该方法包括以下步骤:将大数据集群的计算集群和缓存集群进行分离部署,并构建外挂分析平台;采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算;利用分布式技术部署的缓存集群架构,并加速计算集群从数据源抽取数据并提供分布式缓存。有益效果:通过缓存方式解决了实时数据抽取带来的网络带宽和IO的压力,并且使用了多级缓存的技术,结合使用内存和磁盘的方式,解决大表缓存占用大量内存空间的问题;本发明专利技术缓存支持全透明自动化的加载方式,应用端无需关注底层的实现,通过统一的JDBC接口实现访问与查询检索。一的JDBC接口实现访问与查询检索。一的JDBC接口实现访问与查询检索。

【技术实现步骤摘要】
基于存储与计算分离的大数据多数据源分析方法及系统


[0001]本专利技术涉及数据分析领域,具体来说,涉及基于存储与计算分离的大数据多数据源分析方法及系统。

技术介绍

[0002]当前利用大数据技术进行数据分析通常有三种方式:
[0003]方案一:依赖非实时的数据预处理的批量计算,有较长的时延,时效性不理想,无法面对快速变化的数据分析需求。比如需要分析的数据是是分散在多个不同的数据源里面的,甚至数据和存储技术都可能不一致的,传统的做法是通过ETL方式先对不同的数据源进行抽取,清洗和数据统一拉通到一个集中的地方,再进行批量统计分析,最后吐出到结果表,提供JDBC的接口给应用查询
[0004]方案二:使用专用的即席查询分布式系统,一般是存储和计算一体的专用系统,具有部署不灵活,需要在已有的系统的进行改造和数据迁移,额外占用数据存储空间的缺点。
[0005]方案三:计算和存储分离,也是本方案采用的方式,一般的计算和存储分离会存在效率问题,计算节点需要花费大量的实际通过网络进行数据抽取,实际的性能往往比方案二的效果差。
[0006]另外,现有的大数据技术进行数据分析无法解决目前大表实时统计的BI需求,且无法解决数据量巨大和结构复杂带来的时效性较差的问题。
[0007]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0008]针对相关技术中的问题,本专利技术提出基于存储与计算分离的大数据多数据源分析方法及系统,以克服现有相关技术所存在的上述技术问题。r/>[0009]为此,本专利技术采用的具体技术方案如下:
[0010]根据本专利技术的一个方面,提供了基于存储与计算分离的大数据多数据源分析方法,该方法包括以下步骤:
[0011]将大数据集群的计算集群和缓存集群进行分离部署,并构建外挂分析平台;
[0012]采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算;
[0013]利用分布式技术部署的缓存集群架构,并加速计算集群从数据源抽取数据并提供分布式缓存。
[0014]进一步的,所述数据源包括分布式存储HDFS、关系数据库MYSQL、消息中间件KAFKA及文件系统。
[0015]进一步的,所述计算集群具备动态扩展、同步多数据源及实时计算功能;
[0016]其中,计算集群采用分布式架构,并适应性分配计算能力;
[0017]计算集群采用插件的方式连接不同的数据源,并通过不同的连接器的实现方式,
对接不同类型的数据源。
[0018]进一步的,所述缓存集群和所述计算集群基于InfiniBand网络,实现分布式计算的高速连接,且所述缓存集群包括内存、固态硬盘和本地磁盘的三级缓存处理结构,所述缓存集群中的缓存节点对计算节点提供加速能力,且所述缓存节点采用内存、固态存储及硬盘存储的存储介质将数据存储至存储节点。
[0019]进一步的,所述采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算包括利用InfiniBand网络从缓存集群的节点查询数据,缓存节点先从存储节点抽取数据,然后再把数据返回到计算节点,并且缓存节点根据LRU原则,把读取的数据加载到缓存中,方法如下:
[0020]对数据块对应的文件计算哈希值,通过哈希值取模并选择缓存的worker节点;
[0021]计算节点连接选择的缓存worker节点;
[0022]缓存Worker节点判断文件是否已经缓存,如果已经缓存则通过InfiniBand高速网络直接返回到计算节点,否则启动异步线程,从远程HDFS读取数据,并缓存至本地节点;
[0023]缓存worker首先在内存区域寻找空间,如果有空间,则直接把文件下载到内存区域中,否则通过LRU规则,置换内存中已经缓存的文件至硬盘区域中;
[0024]缓存worker节点下载文件完毕后,把结果返回给计算节点。
[0025]根据本专利技术的另一个方面,还提供了基于存储与计算分离的大数据多数据源分析系统,该系统包括部署模块、计算模块及缓存模块;
[0026]其中,所述部署模块,用于将大数据集群的计算集群和缓存集群进行分离部署,并构建外挂分析平台;
[0027]所述计算模块,用于采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算;
[0028]所述缓存模块,用于利用分布式技术部署的缓存集群架构,并加速计算集群从数据源抽取数据并提供分布式缓存。
[0029]进一步的,所述计算集群具备动态扩展、同步多数据源及实时计算功能;
[0030]其中,计算集群采用分布式架构,并适应性分配计算能力;
[0031]计算集群采用插件的方式连接不同的数据源,并通过不同的连接器的实现方式,对接不同类型的数据源。
[0032]本专利技术的有益效果为:
[0033](1)、本专利技术通过设计把大数据集群的存储节点和计算节点进行分离部署,能够解决传统大数据集群的计算和存储一体化,从而造成资源无法有效扩展的问题;通过把计算资源和存储资源进行隔离,计算资源可以实现按需进行动态调整,而不依赖于存储节点的设备限制,基本上不占用存储集群的计算资源。
[0034](2)、本专利技术中的计算层进行抽离后,可以对接多套数据源,甚至可以进行大数据的数据源和传统的关系型数据源,消息中间件等数据源进行关联计算,大大提高了系统的数据分析能力和灵活性。
[0035](3)、通过构建一层分布式的缓存层,用于对数据进行加速处理,缓存利用内存、固态硬盘及本地磁盘的三级处理结构,在性能和成本方面取到一个平衡点;缓存集群和计算集群基于高速的InfiniBand网络,实现分布式计算的高速连接;这种高速的互联技术,允许
缓存集群和计算集群分离部署,降低单节点对内存的需求,提升部署的灵活度。
附图说明
[0036]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析方法的流程示意图;
[0038]图2是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析方法的整体计算框架图;
[0039]图3是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析方法中计算集群架构图;
[0040]图4是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析方法中缓存集群逻辑图;
[0041]图5是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析方法中计算集群运算逻辑图;
[0042]图6是根据本专利技术实施例的基于存储与计算分离的大数据多数据源分析系统的原理框图。
[0043本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于存储与计算分离的大数据多数据源分析方法,其特征在于,该方法包括以下步骤:将大数据集群的计算集群和缓存集群进行分离部署,并构建外挂分析平台;采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算;利用分布式技术部署的缓存集群架构,并加速计算集群从数据源抽取数据并提供分布式缓存。2.根据权利要求1所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述数据源包括分布式存储HDFS、关系数据库MYSQL、消息中间件KAFKA及文件系统。3.根据权利要求1所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述计算集群具备动态扩展、同步多数据源及实时计算功能;其中,计算集群采用分布式架构,并适应性分配计算能力;计算集群采用插件的方式连接不同的数据源,并通过不同的连接器的实现方式,对接不同类型的数据源。4.根据权利要求1所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述缓存集群和所述计算集群基于InfiniBand网络,实现分布式计算的高速连接。5.根据权利要求1所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述缓存集群包括内存、固态硬盘和本地磁盘的三级缓存处理结构。6.根据权利要求5所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述缓存集群中的缓存节点对计算节点提供加速能力,且所述缓存节点采用内存、固态存储及硬盘存储的存储介质将数据存储至存储节点。7.根据权利要求1所述的基于存储与计算分离的大数据多数据源分析方法,其特征在于,所述采用分布式技术部署的计算集群将数据源中的数据抽取至计算节点,并对数据进行实时计算包括利用InfiniBand网络从缓存集群的节点查询数据,缓存节点先从存储节点抽取数据,然...

【专利技术属性】
技术研发人员:叶禧辉肖钟城吴名朝
申请(专利权)人:浩鲸云计算科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1