一种基于元数据的异构数据同步任务参数优化方法技术

技术编号:39254210 阅读:9 留言:0更新日期:2023-10-30 12:05
本发明专利技术涉及大数据数据仓库、数据湖建设领域,提供一种基于元数据的异构数据同步任务参数优化方法,包括:(1)采集异构数据同步涉及的元数据对象;(2)输入已经开发完成的异构数据同步任务完整信息;(3)通过读取异构数据同步任务,获得数据同步任务执行过程中涉及的对象列表;(4)对获得的对象列表进行成本分析输出建议优化参数值列表;(5)结合实际环境、任务偏向、综合成本分值生成该同步任务的建议参数值列表,使用新生成参数值补充或替换原参数值后提交任务并实际运行异构数据同步任务。可以实现异构数据同步场景下的任务参数优化、任务执行前的影响评估检查,提升异构数据同步的效率,保障整体环境的稳定性。保障整体环境的稳定性。保障整体环境的稳定性。

【技术实现步骤摘要】
一种基于元数据的异构数据同步任务参数优化方法


[0001]本专利技术涉及大数据数据仓库、数据湖建设领域,尤其是一种异构类型数据同步任务的参数自动优化的控制方法。

技术介绍

[0002]在大数据数据仓库、数据湖建设领域中,数据集成是数据开发的重要组成部分,稳定高效地收集加工建设单位信息化环境中的相关数据是一个必要的内容。在单一的数据库内部做数据计算,通常数据库会根据内置的优化器(CBO或RBO等)进行路径探索和成本分析,选择优化后的执行计划进行处理,但在跨服务器环境或跨类型的数据库场景下,通常会需要引入独立的第三方数据同步工具予以支持。目前常见的支持异构数据同步的工具有Sqoop、Kettle、Canal、DataX等,这些工具使用命令或JSON格式定义同步任务,同步任务中包含了数据同步的源端、目的端以及必要的控制参数。虽然这类工具解决了异构数据同步的需求,但总体来说具备几个共同的弱点:
[0003]1.不同数据源之间参数差异性较大,而且默认参数值很难满足高性能需求。
[0004]2.无法根据执行环境和同步对象之间差异性进行性能相关参数的动态调整。
[0005]3.缺少了必要执行前检查,很难发现同步任务可能会引发的故障。
[0006]4.参数设置能力要求较高,对数据开发人员具备一定的经验要求。

技术实现思路

[0007]为了实现上述目的,本专利技术提供以下技术方案:
[0008]本专利技术提供一种基于元数据的异构数据同步任务参数优化方法,包括:
[0009](1)采集异构数据同步涉及的元数据对象;
[0010](2)输入已经开发完成的异构数据同步任务完整信息;
[0011](3)通过读取异构数据同步任务,获得数据同步任务执行过程中涉及的对象列表;
[0012](4)对获得的对象列表进行成本分析,输出建议优化参数值列表;优先分析与环境相关的成本,比如对源端、目的端所在服务器的总内存与同步任务设定的内存大小、服务器的核心数与当前同步任务设定并发数、服务器剩余磁盘存储空间与数据表文件大小进行比例计算,获得相对应的数值,即成本分值。;
[0013](5)结合实际环境、任务偏向、综合成本分值生成该同步任务的建议参数值列表,使用新生成参数值补充或替换原参数值后提交任务并实际运行异构数据同步任务。
[0014]进一步的,异构数据同步涉及的所述元数据对象包括服务器、集群、数据源、数据表、数据文件。所述元数据对象均具有能够辨别唯一性的属性值(唯一标识),如:服务器的IP信息、数据表的完整名称等。
[0015]进一步的,步骤(3)的具体步骤为:
[0016]读取异构数据同步任务(JSON或命令)中源端、目的端和计算逻辑的参数值,参数值为SQL的部分通过Antlr工具进行进一步语法分析,获取输入输出表信息;将源端(含输出
表)、目的端(含输入表)、计算逻辑信息与已采集的元数据对象具备唯一性的属性值进行比对,确定数据同步任务与已采集的元数据进行匹配,如果匹配上,则匹配得到的元数据对象将组成对象列表。
[0017]进一步的,所述元数据对象的属性值包括CPU核心数、内存容量、存储容量、网络带宽、数据表存储量、数据表记录条数、数据文件类型、数据文件大小、函数信息。
[0018]进一步的,所述源端、目的端包含服务器、集群、数据源、表或数据文件;所述计算逻辑包括函数列表;其中所述源端包括输出表,所述目的端包括输入表。
[0019]进一步的,步骤(4)中成本分析的具体步骤为:
[0020](41)将对象列表中的对象逐个与已经采集到的元数据对象进行匹配并提取所有属性数据,并将对象列表中的对象进行分类处理;
[0021](42)对象列表中分类后元数据对象按照计算成本、内存成本、网络传输成本、输入输出成本进行分析;
[0022](43)计算得出四类成本分值,评估任务类型偏向以及综合成本分值;
[0023](44)通过预置计算资源、数据源的优化参数白名单(比如:并发数、容器内存、任务内存、读取速率、写入速率、压缩方式、读取/写入批量条数等),根据获得的任务类型偏向和综合成本分值输出建议优化参数值列表,便于下一步骤数据同步任务的参数替换和最终执行。
[0024]所述计算成本分析包括计算节点元数据对象核心数、计算元数据对象个数;
[0025]所述内存成本包括计算节点元数据对象内存容量、数据元数据对象占用存储、计算元数据对象个数;
[0026]所述网络传输成本和输入输出成本包括数据元数据对象占用存储、元数据对象对象个数;
[0027]进一步的,步骤(43)中四类成本分值的计算方法为:
[0028]计算成本通过评估同步任务并发数与服务器(源端、目的端)CPU核心数的比例值、数据表数据条数与服务器(源端、目的端)CPU核心数的单位核心处理数据量的比例值;
[0029]内存成本通过评估同步任务设定的内存参数与服务器总内存的比例值;
[0030]网络传输成本通过评估数据表文件大小在网络带宽环境下的分钟传输完成比例;
[0031]输入输出成本通过评估数据表文件大小与服务器剩余磁盘存储空间的比例值;
[0032]每类成本分析计算输出对应的成本分值,正常分值区间用0~10的浮点数表示,默认初始成本分值为5,分值越高表示耗费相应的资源越多,分值为10则表示该项成本已经超出当前同步执行环境。
[0033]进一步的,所述对象列表中的对象分类的类别包括:计算节点元数据对象、数据元数据对象和计算元数据对象;
[0034]其中,同步任务中源端、目的端中的服务器、集群对象分类为计算节点元数据对象;同步任务中数据表、数据文件分类为数据元数据对象;同步任务中转换加工使用的函数分类为计算元数据对象。
[0035]进一步的,所述任务类型偏向包括计算偏向、存储偏向和综合偏向;
[0036]其中,默认为综合偏向;
[0037]计算成本分值和内存分值明显高于指定阈值为计算偏向,默认阈值为8.5,也可以
作为全局参数进行设置;
[0038]输入输出成本分值和网络传输明显高于指定阈值为存储偏向,默认阈值为8.5,也可以作为全局参数进行设置;
[0039]计算成本分值、内存成本分值分别用0.35的系数,输入输出成本分值、网络传输成本分值分别用0.15的系数,四个成本分值乘系数后求和后输出综合成本分值,其中任意一个分值为10则综合成本分值为10,数值越大表示优化空间越大。
[0040]进一步的,步骤(5)中如果综合成本分值超出生效的告警阈值,则输出告警信息并停止任务执行,其中默认告警阈值为10,可以作为全局告警参数或数据同步任务告警参数进行不同范围的预设。
[0041]本专利技术具有以下有益效果:
[0042](1)本专利技术提供一种基于元数据的异构数据同步任务参数优化方法,可以实现异构数据同步场景下的任务参数优化、任务执行前的影本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于元数据的异构数据同步任务参数优化方法,其特征在于,包括:(1)采集异构数据同步涉及的元数据对象;(2)输入已经开发完成的异构数据同步任务完整信息;(3)通过读取异构数据同步任务,获得数据同步任务执行过程中涉及的对象列表;(4)对获得的对象列表进行成本分析输出建议优化参数值列表;(5)结合实际环境、任务偏向、综合成本分值生成该同步任务的建议参数值列表,使用新生成参数值补充或替换原参数值后提交任务并实际运行异构数据同步任务。2.根据权利要求1所述的一种基于元数据的异构数据同步任务参数优化方法,其特征在于,异构数据同步涉及的所述元数据对象包括服务器、集群、数据源、数据表、数据文件。3.根据权利要求1所述的一种基于元数据的异构数据同步任务参数优化方法,其特征在于,步骤(3)的具体步骤为:读取异构数据同步任务中源端、目的端和计算逻辑的参数值,将源端、目的端、计算逻辑信息与已采集的元数据对象具备唯一性的属性值进行比对,通过确定数据同步任务与已采集的元数据进行匹配,如果匹配上,则匹配得到的元数据对象将组成对象列表。4.根据权利要求3所述的一种基于元数据的异构数据同步任务参数优化方法,其特征在于,所述元数据对象的属性值包括CPU核心数、内存容量、存储容量、网络带宽、数据表存储量、数据表记录条数、数据文件类型、数据文件大小、函数信息。5.根据权利要求3所述的一种基于元数据的异构数据同步任务参数优化方法,其特征在于,所述源端、目的端包括服务器、集群、数据源、表或数据文件,所述计算逻辑包括函数列表,其中,所述源端包括输出表,所述目的端包括输入表。6.根据权利要求5所述的一种基于元数据的异构数据同步任务参数优化方法,其特征在于,步骤(4)中成本分析的具体步骤为:(41)将对象列表中的对象逐个与已经采集到的元数据对象进行匹配并提取所有属性数据,并将对象列表中的对象进行分类处理;(42)对象列表中分类后的元数据对象按照计算成本、内存成本、网络传...

【专利技术属性】
技术研发人员:赵志武甘云锋江敏
申请(专利权)人:杭州数澜科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1