资产大数据平台架构优化方法技术

技术编号:31167528 阅读:19 留言:0更新日期:2021-12-04 13:10
本发明专利技术提供了一种资产大数据平台架构优化方法,该方法包括:从客户端应用获取对资产数据仓库服务器的数据库表数据的查询;获取表示资产数据仓库服务器的数据库表的属性的表数据;根据用户偏好或表的多个属性来确定分区策略;由分区策略生成表分区,将用户查询分成多个查询子集;将多个查询子集输出到数据库驱动模块;接收对资产数据仓库服务器的数据库表执行多个查询子集得到的结果数据;将结果转换为数据挖掘工具格式;选择性地执行数据转换操作,以由资产数据仓库服务器的多个组件直接使用。本发明专利技术提出了一种资产大数据平台架构优化方法,降低了大数据平台的查询延迟,并保证了读数据一致性。读数据一致性。读数据一致性。

【技术实现步骤摘要】
资产大数据平台架构优化方法


[0001]本专利技术涉及大数据,特别涉及一种资产大数据平台架构优化方法。

技术介绍

[0002]开源分布式处理框架可用于大数据的分布式存储和处理。以Hadoop为例,通过分布式方式处理大量金融和资产数据,进而从大量结构化和非结构化数据中实现高效的资产数据处理。数据仓库引擎通过结构化查询语言为存储在分布式文件系统的大型数据集提供简单的数据汇总和临时交互式查询。然而,即使对于相对较小的数据集,数据仓库引擎查询的延迟通常也非常高,主要是因为开源分布式处理框架的批处理会导致作业提交和调度的大量开销。此外,分布式查询是在不同的时间点执行的。因此,每个查询的结果在组合时可能违反数据库检索协议规则中的读一致性。

技术实现思路

[0003]为解决上述现有技术所存在的问题,本专利技术提出了一种资产大数据平台架构优化方法,包括:
[0004]从客户端应用获取对资产数据仓库服务器的数据库表中的数据的查询,所述查询包括用户查询数据和用户偏好数据;
[0005]获取表示资产数据仓库服务器的数据库表的多个属性的表数据;
[0006]根据用户偏好或数据库表的多个属性来确定分区策略;
[0007]由所确定的分区策略生成表分区,用于将用户查询分成多个查询子集;
[0008]将所述多个查询子集输出到数据库驱动模块,所述数据库驱动模块包括数据转换逻辑组件和快照API;
[0009]接收由关联的映射器对资产数据仓库服务器的数据库表执行多个查询子集得到的结果数据;<br/>[0010]将所述结果数据从资产数据仓库服务器的数据库表的格式转换为数据挖掘工具格式,以供资产数据仓库服务器的多个组件直接使用;以及
[0011]通过所述数据库驱动组件的快照API使用数据库驱动组件的数据转换逻辑组件来选择性地执行数据转换操作,以将结果数据从资产数据仓库服务器的数据库表格式转换为数据挖掘工具格式,以由资产数据仓库服务器的多个组件直接使用,从而在多个数据库和资产数据仓库服务器之间提供数据传输。
[0012]优选地,其中所述确定分区策略,进一步包括:
[0013]根据用户偏好和所述表的多个属性,从分区策略类型的集合中选择分区策略;
[0014]仅根据表的多个属性来确定分区策略;或者
[0015]仅根据用户偏好来确定分区策略。
[0016]优选地,其中获取表示资产数据仓库服务器的数据库表的多个属性的表数据,进一步包括:获取表示资产数据仓库服务器的数据库表的多个属性的元数据。
[0017]优选地,其中,所述获取表示资产数据仓库服务器的数据库表的多个属性的表数据包括:
[0018]获取表示所选数据仓库引擎层中的外部表的多个属性的表数据;
[0019]所述输出多个查询子集包括:
[0020]将多个查询子集输出到相关联的多个映射器,以由多个映射器作为并行数据处理框架的任务来执行。
[0021]优选地,选择性地将结果数据从资产数据仓库服务器的数据库表格式转换为数据挖掘工具格式,进一步包括,选择性地将结果数据从所述资产数据仓库服务器的数据库表格式转换为可写数据格式。
[0022]本专利技术相比现有技术,具有以下优点:
[0023]本专利技术提出了一种资产大数据平台架构优化方法,降低了大数据平台的查询延迟,并保证了读数据一致性。
附图说明
[0024]图1是根据本专利技术实施例的资产大数据平台架构优化方法的流程图。
具体实施方式
[0025]下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。
[0026]本专利技术的一方面提供了一种资产大数据平台架构优化方法。图1是根据本专利技术实施例的资产大数据平台架构优化方法流程图。
[0027]本专利技术的数据平台架构优化方法在大大小并行分布式数据库环境中分区生成数据库,所述环境包括多个数据库和资产数据仓库服务器,所述资产数据仓库服务器提供多个数据库的数据汇总和查询。在水平扩展的同时提供容错存储的分布式文件系统,并行处理框架可以将处理作业分解成任务,并将任务分布在数据处理集群或大大小并行分布式环境中。将数据处理作业分为以下类型的任务:过滤和转换输入数据以产生键值对的映射任务;以及汇总映射结果以产生最终输出的规约任务。为了在数据处理框架中更好地定义数据处理作业,资产数据仓库服务器的API使用查询语言来查询和管理大型数据集,其中数据集可以驻留在分布式文件系统或任何其他等效的不同系统中。当要查询的数据存储在数据库表的关系表中时,本专利技术基于表的属性和用户偏好动态生成输入划分,将查询分成多个查询子集,以供大大小并行分布式环境使用。并行分布式数据库环境包括多个数据库和提供多个数据库的数据汇总和查询的资产数据仓库服务器。
[0028]本专利技术的分布式数据库环境包括数据库表存取引擎,其中该数据库表存取引擎在接收到对表中数据的查询时,基于表的属性和用户偏好来选择分区策略,以生成表分区,并根据表分区将查询分成多个查询子集。然后,对资产数据仓库服务器中创建的外部表执行每个查询子集,以从表中检索数据进行处理。此外,数据库表存取引擎包括输入格式组件,
用于生成查询子集或调用分区策略来生成查询子集。外部表可以包含用户定义的分区策略类型作为属性。外部表的元数据存储在资产数据仓库服务器中,并用于访问数据库表中的数据。
[0029]当创建某个数据库表的分区时,该数据库表被逻辑划分,使得数据库表的每个分区可以通过外部工具访问,外部工具是用于访问大数据的任何等效的工具,大数据可以被组织并存储在分布式文件系统中,使得能够通过SQL的接口对存储在分布式文件系统的大数据集进行数据汇总和交互式查询。可以基于各种分区策略类型来划分数据库表,分区策略类型用于指示用户对数据库表应该如何划分的偏好。分区策略类型可以包括基于分区、大小、行约束和行ID范围来划分数据库表。在划分数据库表时,数据库表存取引擎还考虑表的属性,并且可以根据这些属性动态划分数据库表。
[0030]数据库表存取引擎基于多个因素使用启发式方法来划分表,因素包括用户提示、表的大小、表是否被拆分。例如,如果数据库表较小,数据库表访问者可以将整个表作为一个单独的分区,并将该分区提供给一个mapreduce作业进行处理。
[0031]数据库访问环境可以从客户端应用接收对数据库中的表中的数据的查询,例如SQL查询。将从表请求的数据传递到数据处理集群,用于通过分布在集群中的mapreduce作业进行处理。
[0032]资产数据仓库服务器是数据处理集群上的抽象层,并且能够使用SQL查询来访问数据库,同时将事务模型保持在事务中。资产数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种资产大数据平台架构优化方法,其特征在于,包括:从客户端应用获取对资产数据仓库服务器的数据库表中的数据的查询,所述查询包括用户查询数据和用户偏好数据;获取表示资产数据仓库服务器的数据库表的多个属性的表数据;根据用户偏好或数据库表的多个属性来确定分区策略;由所确定的分区策略生成表分区,用于将用户查询分成多个查询子集;将所述多个查询子集输出到数据库驱动模块,所述数据库驱动模块包括数据转换逻辑组件和快照API;接收由关联的映射器对资产数据仓库服务器的数据库表执行多个查询子集得到的结果数据;将所述结果数据从资产数据仓库服务器的数据库表的格式转换为数据挖掘工具格式,以供资产数据仓库服务器的多个组件直接使用;以及通过所述数据库驱动组件的快照API使用数据库驱动组件的数据转换逻辑组件来选择性地执行数据转换操作,从而在多个数据库和资产数据仓库服务器之间提供数据传输;其中所述确定分区策略,进一步包括:根据...

【专利技术属性】
技术研发人员:林杨魏泽宇叶桄希徐金鑫刘馨霖
申请(专利权)人:川投信息产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1