System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据处理,特别是涉及一种跨集群数据一致性校验方法、装置、计算机设备、存储介质和计算机程序产品。
技术介绍
1、高斯集群通常指的是高斯混合模型(gaussian mixture model,gmm)中的集群,gmm是一种用于对数据进行聚类的统计模型。在机器学习和模式识别领域,gmm被广泛应用于对数据进行聚类分析。gmm假设数据是由若干个高斯分布混合而成的,每个高斯分布对应一个集群。这意味着gmm可以用来发现数据中的不同分布模式,并将数据点分配到不同的集群中。在gmm中,每个集群都由一个高斯分布来表示,包括均值和协方差矩阵。gmm的训练过程通常是基于最大期望(expectation-maximization,em)算法进行的。该算法通过迭代的方式,不断更新每个高斯分布的参数,直到收敛为止。在训练完成后,gmm可以用来对新的数据进行聚类,即将数据点分配到最有可能的高斯分布中。gmm在许多领域都有广泛的应用,包括图像处理、语音识别、模式识别、数据挖掘等。它可以帮助我们发现数据中的潜在模式和结构,从而更好地理解数据。
2、在分布式系统中,数据通常分布在不同的集群或数据中心中。为了确保分布式系统中数据的一致性和完整性,以及在数据迁移、备份恢复等场景下保证数据的准确性,提高系统的可靠性和数据质量。需要定期进行跨集群的数据比对,以检测集群间数据之间的差异和不一致之处。
3、相关技术中,通常通过在系统中挂载能够进行数据实时同步的功能组件程序,通过后台挂载的程序实现数据一致性的监测以及运营管理。
4、
5、在系统中挂载实施监控的功能组件的方式实现数据一致性的校验,比对效率较低,且系统内存占用较多。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高数据比对效率以及比对结果准确度的一种跨集群数据一致性校验方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种跨集群数据一致性校验方法。所述方法包括:
3、响应于数据校验需求,确定参与数据比对的源端数据集群以及目标端数据集群;
4、基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列;
5、基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列;
6、将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果。
7、在其中一个实施例中,所述基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列包括:
8、对所述源端数据集群中的数据进行处理,获取与所述源端数据集群中的数据单元相关联的数据主键,所述数据主键为与所述数据单元相关联的唯一标识;
9、基于所述数据主键对所述源端数据集群进行排序,得到所述源端数据队列。
10、在其中一个实施例中,所述基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列包括:
11、对所述目标端数据集群中的数据进行处理,获取与所述目标端数据集群中的所述数据单元相关联的所述数据主键;
12、基于所述数据主键对所述目标端数据集群进行排序,得到所述目标端数据队列。
13、在其中一个实施例中,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:
14、基于预设的批次截取规则,对所述源端数据队列以及所述目标端数据队列进行截取,得到若干组相对应的源端数据子队列以及目标端数据子队列;
15、在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对。
16、在其中一个实施例中,所述在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对包括:
17、当目标线程中的所述源端数据子队列以及所述目标端数据子队列的比对处理完成后,清空已完成的所述源端数据子队列以及所述目标端数据子队列;
18、在所述目标线程中导入待处理的所述源端数据子队列以及所述目标端数据子队列,并执行比对处理。
19、在其中一个实施例中,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:
20、基于预设的归并排序算法对所述源端数据队列与所述目标端数据队列进行有序比对,得到所述数据一致性校验结果。
21、第二方面,本申请还提供了一种跨集群数据一致性校验装置。所述装置包括:
22、集群确定模块,用于响应于数据校验需求,确定参与数据比对的源端数据集群以及目标端数据集群;
23、源端排序处理模块,用于基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列;
24、目标端排序处理模块,用于基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列;
25、数据有序比对模块,用于将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果。
26、在其中一个实施例中,所述源端排序处理模块包括:
27、源端数据主键计算模块,用于对所述源端数据集群中的数据进行处理,获取与所述源端数据集群中的数据单元相关联的数据主键,所述数据主键为与所述数据单元相关联的唯一标识;
28、源端数据队列模块,用于基于所述数据主键对所述源端数据集群进行排序,得到所述源端数据队列。
29、在其中一个实施例中,所述目标端排序处理模块包括:
30、目标端数据主键计算模块,用于对所述目标端数据集群中的数据进行处理,获取与所述目标端数据集群中的所述数据单元相关联的所述数据主键;
31、目标端数据队列模块,用于基于所述数据主键对所述目标端数据集群进行排序,得到所述目标端数据队列。
32、在其中一个实施例中,所述数据有序比对模块包括:
33、批次截取模块,用于基于预设的批次截取规则,对所述源端数据队列以及所述目标端数据队列进行截取,得到若干组相对应的源端数据子队列以及目标端数据子队列;
34、多线程处理模块,用于在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对。
35、在其中一个实施例中,所述多线程处理模块包括:
36、内存释放模块,用于当目标线程中的所述源端数据子队列以及所述目标端数据子队列的比对处理完成后,清空已完成的所述源端数据子队列以及所述目标端数据子队列;
37、批次处理模块,用于在所述目标线程中导入待处理的所述源端数据子队列以及所述目标端数据子队列,并执行比对处理。
38、在其中一个实施例中,所述数据有序比对模块,包括:
3本文档来自技高网...
【技术保护点】
1.一种跨集群数据一致性校验方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:
5.根据权利要求3所述的方法,其特征在于,所述在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对包括:
6.根据权利要求1所述的方法,其特征在于,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:
7.一种跨集群数据一致性校验装置,其特征在于,所述装置包括:
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种跨集群数据一致性校验方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:
5.根据权利要求3所述的方法,其特征在于,所述在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对包括:
6....
【专利技术属性】
技术研发人员:吴慧辰,王厚玉,许天娇,范铮,
申请(专利权)人:中国人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。