System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于在大数据环境中高效数据复制的方法和系统技术方案_技高网

用于在大数据环境中高效数据复制的方法和系统技术方案

技术编号:40030441 阅读:6 留言:0更新日期:2024-01-16 18:09
本发明专利技术公开了用于在大数据环境中高效数据复制的方法和系统,具体涉及数据处理领域,是通过在变更数据的识别和提取过程中,获取性能稳定、故障趋势和数据完整度进行综合评估,用于生成质量评估系数,用于判断数据源的数据质量。通过将质量评估系数与质量分类阈值比较,识别数据源是否满足预期标准,有助于及早采取纠正措施,优化资源分配,减少不必要的存储和处理成本,确保数据质量。另外,通过数据格式转换和冲突检查,提高了数据一致性和可信度,优先处理高质量数据源,并基于数据冲突的频率程度,为对应的数据源的动态质量评估频率进行调整,能够灵活地管理数据质量和资源分配,减少资源浪费。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,更具体地说,本专利技术涉及用于在大数据环境中高效数据复制的方法和系统


技术介绍

1、数据复制是将数据从一个数据源复制到一个或多个目标位置的过程,旨在确保数据的可用性、冗余性、备份、分发和实时性。数据复制在现代科技中扮演着重要角色,包括提供高可用性、备份和灾难恢复、数据分发、实时数据同步以及数据集成。现有的数据复制方法包括cdc技术、etl过程、文件同步、数据库复制和消息队列等,选择方法应根据数据特性、需求和技术工具来确定。数据复制在数据管理和分析领域中起着关键作用,支持各种企业需求。

2、在多源数据复制的情况下,数据冲突是一个常见的问题,特别是在分布式环境中。数据冲突指的是不同数据源上的相同数据项经历了不一致的变更,导致数据的不一致性。传统的解决方式通常包括以下方法:

3、优先级规则:传统方法中,数据源被分配静态的优先级,其中一个数据源被指定为主要数据源,其变更将覆盖其他数据源的变更。这种方式简单直接,但缺乏灵活性,难以适应不同情况。

4、时间戳规则:传统方法中,数据源的变更被基于时间戳进行排序,最后的变更通常胜出。这种方式有时会忽略了数据源之间的重要性和可信度。

5、然而,传统的解决方式存在一些不足之处:

6、静态性:传统方法通常是静态的,难以适应动态的数据源环境。当数据源的性能、可用性或质量发生变化时,传统方法无法灵活地适应。

7、缺乏智能:传统方法通常缺乏智能和自适应性,难以根据实际情况自动调整数据源优先级或冲突解决策略。

8、为了解决上述问题,现提供一种技术方案。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术的实施例提供,在变更数据的识别和提取过程中,获取性能稳定、故障趋势和数据完整度进行综合评估,用于生成质量评估系数,用于判断数据源的数据质量。通过将质量评估系数与质量分类阈值比较,识别数据源是否满足预期标准,有助于及早采取纠正措施,优化资源分配,减少不必要的存储和处理成本,确保数据质量。另外,通过数据格式转换和冲突检查,提高了数据一致性和可信度,优先处理高质量数据源,并基于数据冲突的频率程度,为对应的数据源的动态质量评估频率进行调整,能够灵活地管理数据质量和资源分配,减少资源浪费,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:步骤s1,对多个数据源进行监测并收集物理属性信息,利用选择型数据库触发器,在数据源发生变更时生成触发信号;

3、步骤s2,使用数据增量捕捉来捕获数据源中的变化,包括记录变更前后的数据快照以及有关变更的变更属性信息,得到变更数据;

4、步骤s3,依据动态质量评估频率的初始值,汇总物理属性信息和变更属性信息得到质量评估系数,对变更数据进行评估,将符合要求的变更数据存储到对应的数据结构中;

5、步骤s4,使用网络传输协议,将变更数据传输到对应的目标位置;

6、步骤s5,将变更数据转换为目标位置对应的数据格式,记录并分析冲突频次来获取动态质量评估频率的动态值。

7、在一个优选的实施方式中,步骤s1具体包括以下内容:

8、在数据复制过程中,监测的具体过程如下:首先,针对多个制定好的数据源进行监测,以检测数据变化,通过轮询机制,实现定期或实时检查数据源以识别变化,利用选择型数据库触发器,在数据源发生特定类型的变更操作时生成触发信号。

9、在一个优选的实施方式中,物理属性信息包括性能稳定指数和故障恶化趋势指数。

10、在一个优选的实施方式中,性能稳定指数的获取过程为:

11、在单位时间内以额定的间隔时间和次数多次获取数据源的延迟数据,以获取一系列的延迟值,这些延迟值将作为计算的输入数据;对于每个相邻的时间间隔,使用勾股定理计算弦,即延迟值之间的距离,将所有延迟值之间的距离进行累加得到性能稳定指数,性能稳定指数的计算如下:其中,c表示性能稳定指数,ai表示第i次采集的时间间隔,bi表示第i次采集的延迟差。

12、在一个优选的实施方式中,故障恶化趋势指数的获取过程为:

13、记录每次数据源发生故障的时间点,这些时间点用于计算故障间隔时间;

14、对于每次故障,计算其与之前一次故障之间的时间间隔,若故障间隔时间小于设定的间隔阈值,则不进行计算,直到间隔时间大于等于间隔阈值,才记录一次时间间隔,使用指数移动平均计算得到ema,统计单位时间内的所有ema值,对于这些ema值,计算每相邻两个ema之间的变化率,使用以下公式:ema变化率=(当前ema-前一个ema)/前一个ema;将所有的ema变化率相加,然后除以ema变化率的数量,得到故障恶化趋势指数:故障恶化趋势指数=σ(ema变化率)/n,其中,n表示ema变化率的数量。

15、在一个优选的实施方式中,步骤s2具体包括以下内容:

16、在获取触发信号后,配置数据增量捕捉工具,定期轮询监测数据源,在捕捉到变更之前,记录变更之前的数据快照,当数据增量捕捉工具检测到数据源中的变化时,记录变更后的数据,包括更新后的记录内容和变更属性信息,得到变更数据。

17、在一个优选的实施方式中,其中变更属性信息包括数据完整指数;

18、完整度指数的获取逻辑为:

19、计算变更前后的数据完整度涉及比较变更前和变更后的数据记录,使用唯一标识符来确定两者之间的匹配程度,匹配规则基于唯一标识符的相等性,逐条比较数据记录,并计算匹配的变更前后数据记录数量,通过将匹配数量除以总的变更前数据记录数量,计算变更前后数据的完整度,即完整度指数。

20、在一个优选的实施方式中,依据设定好的动态质量评估频率的初始值,统计获取同一批变更数据所对应的性能稳定指数、故障恶化趋势指数和完整度指数,将性能稳定指数、故障恶化趋势指数和完整度指数经过去单位处理,将去单位处理后的结果进行综合计算得到质量评估系数;将质量评估系数和质量分类阈值进行比较,若质量评估系数大于等于质量,生成摒弃信号;反之,如果质量评估系数小于质量分类阈值,生成保存信号;针对保存信号,则对变更数据的格式进行识别,基于识别的结果,将变更数据存储到对应的数据结构中。

21、在一个优选的实施方式中,步骤s5具体包括以下内容:

22、依据目标位置的数据格式,将传递到目标位置的变更数据进行数据格式转换,确保转换后的数据格式和目标位置的数据格式一致,在数据格式转换过程中,检查冲突信息,冲突信息是指不同数据源之间的数据冲突,即不同数据源提供的数据可能相互矛盾或不一致,当检测到冲突信息,记录发生冲突信息的变更数据,调取每个变更数据的质量评估系数,依据质量评估系数对变更数据从小到大进行排序,取用排序首位的变更数据进行应用,在每次发生冲突时,调取非排序首位的变更数据源对应的数据源,对其进行排序序号累加操作得到冲突程度值,依据冲突程度值计算每个数据源在单位时间内本文档来自技高网...

【技术保护点】

1.用于在大数据环境中高效数据复制的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于在大数据环境中高效数据复制的方法,其特征在于:

3.根据权利要求2所述的用于在大数据环境中高效数据复制的方法,其特征在于:

4.根据权利要求3所述的用于在大数据环境中高效数据复制的方法,其特征在于:

5.根据权利要求4所述的用于在大数据环境中高效数据复制的方法,其特征在于:

6.根据权利要求5所述的用于在大数据环境中高效数据复制的方法,其特征在于:

7.根据权利要求6所述的用于在大数据环境中高效数据复制的方法,其特征在于:

8.根据权利要求7所述的用于在大数据环境中高效数据复制的方法,其特征在于:

9.根据权利要求8所述的用于在大数据环境中高效数据复制的方法,其特征在于:

10.用于在大数据环境中高效数据复制的系统,用于实现权利要求1-9中任一项所述的用于在大数据环境中高效数据复制的方法,其特征在于,包括:触发模块、捕捉模块、质选模块、传输模块和转换模块;

【技术特征摘要】

1.用于在大数据环境中高效数据复制的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的用于在大数据环境中高效数据复制的方法,其特征在于:

3.根据权利要求2所述的用于在大数据环境中高效数据复制的方法,其特征在于:

4.根据权利要求3所述的用于在大数据环境中高效数据复制的方法,其特征在于:

5.根据权利要求4所述的用于在大数据环境中高效数据复制的方法,其特征在于:

6.根据权利要求5所述的用于在大数据环境中高效数据复...

【专利技术属性】
技术研发人员:张婉张睿
申请(专利权)人:齐齐哈尔诺维网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1