资产大数据平台查询加速方法技术

技术编号:32616926 阅读:9 留言:0更新日期:2022-03-12 17:45
本发明专利技术提供了一种资产大数据平台查询加速方法,该方法包括:配置节点的多个数据并行集群以与多个数据源通信;将从多个数据源的结构化数据导出的中间数据集存储在并行集群中;利用查询引擎处理对中间数据集和结构化数据的语义查询,并生成查询结果;利用查询转换模块将高级语言查询转换成包括MapReduce查询的低级语言查询,MapReduce查询用于查询中间数据集;通过多个公共接口向查询引擎发送语义查询,并基于转换和处理的步骤接收查询结果。本发明专利技术提出了一种资产大数据平台查询加速方法,将结构化数据与数据仓库全面融合,实现了数据仓库的低成本的扩展同时符合大数据平台的延迟要求低成本的扩展同时满足延迟要求。迟要求低成本的扩展同时满足延迟要求。迟要求低成本的扩展同时满足延迟要求。

【技术实现步骤摘要】
资产大数据平台查询加速方法


[0001]本专利技术涉及大数据平台,特别涉及一种资产大数据平台查询加速方法。

技术介绍

[0002]随着数据仓库维护的数据量不断扩大,现有的数据仓库及其周围构建的解决方案已经无法为数据管理请求提供合理的响应时间。例如金融行业中,每天可能会有数亿甚至数十亿条新数据记录添加到金融资产数据处理系统中。
[0003]为了提高响应时间,一个表的行在多台服务器上用不同的磁盘进行分区,从而能够对大表进行并行输入/输出扫描。集群中每个节点执行的操作是相同的,但是通过结构抽取的数据被自动分区,以允许每个节点独立地处理其操作符,最终使得多个关系操作符同时操作,允许流水线并行,其中产生数据流的操作符与消耗数据流的操作符并行运行。需要为各种商业智能应用分析结构化数据。然而,挖掘分析应用并没有利用数据仓库,结构化数据未来的规模将使数据仓库的解决方案难以扩展。传统解决方案难以同时保证低成本的扩展同时满足延迟要求。

技术实现思路

[0004]为解决上述现有技术所存在的问题,本专利技术提出了一种资产大数据平台查询加速方法,包括:
[0005]配置节点的多个数据并行集群以与多个数据源通信;
[0006]将从多个数据源的结构化数据导出的中间数据集存储在节点的多个数据并行集群中,所述中间数据集从多个数据源卸载;
[0007]利用查询引擎处理对多个数据源的所述中间数据集和所述结构化数据的语义查询,并生成查询结果,其中语义查询的处理基于反向索引映射属性值;
[0008]利用查询转换模块将高级语言查询转换成包括MapReduce查询的低级语言查询,所述MapReduce查询用于查询存储在节点的多个数据并行集群中的中间数据集;
[0009]通过多个公共接口向查询引擎发送语义查询,并基于转换和处理的步骤接收查询结果;
[0010]其中节点的多个数据并行集群还包括与节点相连接的数据并行和计算并行集群;
[0011]其中,在所述查询引擎接收包括高级语言查询的语义查询,其中所述查询引擎将语义查询并行发送到多个数据源和所述查询转换模块,以转换成包括MapReduce查询的低级语言查询;其中,所述多个数据源包括数据仓库;
[0012]所述系统MapReduce对中间数据集的语言查询包括,相比于对所述多个数据源的结构化数据的语义查询进行更快的查询;
[0013]其中,所述查询引擎接收包括高级语言查询的语义查询,进一步包括:
[0014]在所述查询引擎从所述多个公共接口接收包括高级语言查询的语义查询,其中所述查询引擎并行地将所述语义查询发送到所述多个数据源以进行处理,并发送到所述查询
转换模块以转换成集群语言查询,所述集群语言查询用于并行地查询存储在所述多个节点的数据并行集群中的数据。
[0015]优选地,方法进一步包括:
[0016]配置语义查询以进行挖掘分析;
[0017]将查询结果传送给多个商业智能应用或多个数据应用,其中所述商业智能应用被配置成与数据应用通信。
[0018]优选地,利用MapReduce来实现节点的多个数据并行集群。
[0019]本专利技术相比现有技术,具有以下优点:
[0020]本专利技术提出了一种资产大数据平台查询加速方法,将结构化数据与数据仓库全面融合,实现了数据仓库的低成本的扩展同时符合大数据平台的延迟要求。
附图说明
[0021]图1是根据本专利技术实施例的资产大数据平台查询加速方法的流程图。
具体实施方式
[0022]下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。
[0023]本专利技术的一方面提供了一种资产大数据平台查询加速方法。图1是根据本专利技术实施例的资产大数据平台查询加速方法流程图。
[0024]本专利技术从数据仓库提取数据、使用云上的数据并行和计算并行技术以可重用形式存储提取的数据、使用计算并行技术对数据进行查询处理以及使用高级查询语言提供查询的系统和方法,在面临系统和软件故障以及接近实时的负载时提供高可用性。此外,本专利技术的方法从多个数据仓库访问数据,将访问的数据与其他数据源集成,并在集成的数据上应用商业智能算法。
[0025]通过在云平台上并行执行查询的查询语句到MapReduce查询转换模块,将查询语句查询简化为MapReduce查询。商业智能应用使用子组件从资产数据分析系统提供的信息中导出商业智能解决方案。
[0026]首先,配置节点的多个数据并行集群以与多个数据源通信;然后将从多个数据源的结构化数据导出的中间数据集存储在节点的多个数据并行集群中,所述中间数据集从多个数据源卸载;
[0027]利用查询引擎处理对多个数据源的所述中间数据集和所述结构化数据的语义查询,并生成查询结果,其中语义查询的处理基于反向索引映射属性值。
[0028]利用查询转换模块将高级语言查询转换成包括MapReduce查询的低级语言查询,所述MapReduce查询用于查询存储在节点的多个数据并行集群中的中间数据集。
[0029]通过多个公共接口向查询引擎发送语义查询,并基于转换和处理的步骤接收查询结果;其中节点的多个数据并行集群还包括与节点相连接的数据并行和计算并行集群。
[0030]其中,在所述查询引擎接收包括高级语言查询的语义查询,其中所述查询引擎将所述语义查询并行发送到多个数据源和查询转换模块,以转换成包括MapReduce查询的低级语言查询;其中,所述多个数据源包括数据仓库。
[0031]所述系统MapReduce对中间数据集的语言查询包括,相比于对所述多个数据源的结构化数据的语义查询进行更快的查询;
[0032]其中,所述查询引擎接收包括高级语言查询的语义查询,进一步包括:
[0033]在所述查询引擎从所述多个公共接口接收包括高级语言查询的语义查询,其中所述查询引擎并行地将所述语义查询发送到所述多个数据源以进行处理,并发送到所述查询转换模块以转换成集群语言查询,所述集群语言查询用于并行地查询存储在所述多个节点的数据并行集群中的数据。
[0034]在进一步实施例中,可将上述语义查询进行配置以进行挖掘分析;将查询结果传送给多个商业智能应用或多个数据应用,其中所述商业智能应用与数据应用通信。所述节点的多个数据并行集群是利用MapReduce来实现的。
[0035]优选地,使用分区来提高查询性能。在这种情况下,当插入数据时,用户指定该文件所属的分区属性值。如果查询查询超过了分区属性,选择需要评估查询的文件,从而减少查询空间并提高查询性能。而如果查询查询超出了其他属性,则禁止使用分区。因此,使本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资产大数据平台查询加速方法,其特征在于,包括:配置节点的多个数据并行集群以与多个数据源通信;将从多个数据源的结构化数据导出的中间数据集存储在节点的多个数据并行集群中,所述中间数据集从多个数据源卸载;利用查询引擎处理对多个数据源的所述中间数据集和所述结构化数据的语义查询,并生成查询结果,其中语义查询的处理基于反向索引映射属性值;利用查询转换模块将高级语言查询转换成包括MapReduce查询的低级语言查询,所述MapReduce查询用于查询存储在节点的多个数据并行集群中的中间数据集;通过多个公共接口向查询引擎发送语义查询,并基于转换和处理的步骤接收查询结果;其中节点的多个数据并行集群还包括与节点相连接的数据并行和计算并行集群;其中,在所述查询引擎接收包括高级语言查询的语义查询,其中所述查询引擎将语义查询并行发送到多个数据源和所述查询转换模块,以转换成包括MapRed...

【专利技术属性】
技术研发人员:叶桄希刘馨霖林杨徐金鑫魏泽宇
申请(专利权)人:川投信息产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1