一种基于动态窗口的数据搬运方法、系统及可读存储介质技术方案

技术编号:38584211 阅读:12 留言:0更新日期:2023-08-26 23:27
本发明专利技术公开了一种基于动态窗口的数据搬运方法、系统及可读存储介质,其方法包括步骤:获取数据源信息和目标信息;根据数据的相关性特征进行数据分片;根据服务器集群的性能指标配置动态窗口;按照数据分片生成并行搬运队列;在并行搬运队列中根据配置的动态窗口值搬运数据分片。本发明专利技术解决了相关技术中数据搬运时延长和大数据量搬运效率下降的问题。时延长和大数据量搬运效率下降的问题。时延长和大数据量搬运效率下降的问题。

【技术实现步骤摘要】
一种基于动态窗口的数据搬运方法、系统及可读存储介质


[0001]本专利技术属于大数据
,特别是涉及一种基于动态窗口的数据搬运方法、系统及可读存储介质。

技术介绍

[0002]随着大数据应用领域的不断发展,企业对数据的存储需求和分析处理需求越来越高。数据仓库/集市能实现跨业务线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持,因此得到企业的广泛应用。数据仓库/集市构建过程中,数据是分层或分区域的,不同层或不同区域之间的数据需要相互转换。这一从来源端经过抽取、转换、加载至目的端的过程即为ETL(数据搬运系统,Extract

Transform

Load)。
[0003]随着企业数据量的提升,需要短期内搬运的数据量大大增加。现有的数据搬运系统需要将数据抽取后进行完整存储到磁盘,再将存储到磁盘的数据转换后加载至目的端。大数据量的数据搬运不仅会导致存储和加载的时间延长,而且会占用大量磁盘空间导致磁盘空间不足和性能下降,从而使得搬运效率下降。
[0004]为了降低数据搬运时延和提高数据搬运的效率,提出一种基于动态窗口的数据搬运方法、系统及可读存储介质。

技术实现思路

[0005]本专利技术实施例提出一种基于动态窗口的数据搬运方法、系统及可读存储介质,以至少解决相关技术中数据搬运时延长和大数据量搬运效率下降的问题。
[0006]根据本专利技术的一个实施例,提出一种基于动态窗口的数据搬运方法,包括:
[0007]获取数据源信息和目标信息;
[0008]根据数据的相关性特征进行数据分片;所述数据的相关性特征包括数据属性或数据连续性或数据血缘关系的任一项或多项组合;
[0009]根据服务器集群的性能指标配置动态窗口;所述服务器集群的性能指标包括服务器集群的特征或服务器集群的负载或服务器集群的历史传输信息的任一项或多项组合;
[0010]按照数据分片生成并行搬运队列;
[0011]在并行搬运队列中根据配置的动态窗口值搬运数据分片。
[0012]在一个示例性实施例中,所述数据源信息和目标信息包括数据源和目标的类型信息、地址信息、端口信息、用户信息、密码信息的任一项或多项组合;所述类型信息包括关系型数据库、大数据平台、文件服务器、消息队列。
[0013]在一个示例性实施例中,所述根据数据的相关性特征进行数据分片,包括步骤:
[0014]根据数据的长度和/或数据类型和/或数据时间要求的相似性计算数据之间的属性相似度,即根据数据长度的相似性计算数据之间的属性相似度、或根据数据类型的相似性计算数据之间的属性相似度、或根据数据时间要求的相似性计算数据之间的属性相似度、或根据数据长度和数据类型的相似性计算数据之间的属性相似度、或根据数据长度和
数据时间要求的相似性计算数据之间的属性相似度、或根据数据类型和数据时间要求的相似性计算数据之间的属性相似度、或根据数据长度和数据类型和数据时间要求的相似性计算数据之间的属性相似度;
[0015]根据数据的内容连续性和/或序号连续性和/或时间连续性计算数据之间的连续性,即根据数据的内容连续性计算数据之间的连续性、或根据数据的序号连续性计算数据之间的连续性、或根据数据的时间连续性计算数据之间的连续性、或根据数据的内容连续性和数据的序号连续性计算数据之间的连续性、或根据数据的内容连续性和数据的时间连续性计算数据之间的连续性、或根据数据的序号连续性和数据的时间连续性计算数据之间的连续性、或根据数据的内容连续性和数据的序号连续性和数据的时间连续性计算数据之间的连续性;
[0016]根据数据血缘关系的相似性计算数据之间的血缘相似度;
[0017]根据数据之间的属性相似度和/或连续性和/或血缘相似度计算数据关联性值,即根据数据之间的属性相似度计算数据关联性值、或根据数据之间的连续性计算数据关联性值、或根据数据之间的血缘相似度计算数据关联性值、或根据数据之间的属性相似度和数据之间的连续性计算数据关联性值、或根据数据之间的属性相似度和数据之间的血缘相似度计算数据关联性值、或根据数据之间的连续性和数据之间的血缘相似度计算数据关联性值、或根据数据之间的属性相似度和数据之间的连续性和数据之间的血缘相似度计算数据关联性值;
[0018]将数据关联性值大于预设关联性阈值的数据作为一个数据分片;所述关联性阈值根据数据量和队列承载能力计算得到。
[0019]在一个示例性实施例中,所述根据服务器集群的性能指标配置动态窗口,包括步骤:
[0020]根据服务器集群的数量和/或网络环境计算并行服务能力评估值,即根据服务器集群的数量计算并行服务能力评估值、或根据服务器集群的网络环境计算并行服务能力评估值、或根据服务器集群的数量和服务器集群的网络环境计算并行服务能力评估值;
[0021]根据服务器的CPU使用率和/或内存占用率和/或内存总量和/或内存剩余量和/或磁盘读写速度计算负载能力评估值,即根据服务器的CPU使用率计算负载能力评估值、或根据服务器的内存占用率计算负载能力评估值、或根据服务器的磁盘读写速度计算负载能力评估值、或根据服务器的CPU使用率和服务器的内存占用率计算负载能力评估值、或根据服务器的CPU使用率和服务器的磁盘读写速度计算负载能力评估值、或根据服务器的内存占用率和服务器的磁盘读写速度计算负载能力评估值、或根据服务器的CPU使用率和服务器的内存占用率和服务器的磁盘读写速度计算负载能力评估值;
[0022]根据服务器集群的历史传输速度和/或历史故障率和/或历史内存利用率计算历史传输效率评估值,即根据服务器集群的历史传输速度计算历史传输效率评估值、或根据服务器集群的历史故障率计算历史传输效率评估值、或根据服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史故障率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史故障率和服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史
故障率和服务器集群的历史内存利用率计算历史传输效率评估值;
[0023]根据并行服务能力评估值和/或负载能力评估值和/或历史传输效率评估值与窗口指示值的相关关系计算窗口指示值,即根据并行服务能力评估值与窗口值的相关关系计算窗口指示值、或根据负载能力评估值与窗口值的相关关系计算窗口指示值、或根据历史传输效率评估值与窗口值的相关关系计算窗口指示值、或根据并行服务能力评估值和负载能力评估值与窗口值的相关关系计算窗口指示值、或根据并行服务能力评估值和历史传输效率评估值与窗口值的相关关系计算窗口指示值、或根据负载能力评估值和历史传输效率评估值与窗口值的相关关系计算窗口指示值、或根据并行服务能力评估值和负载能力评估值和历史传输效率评估值与窗口值的相关关系计算窗口指示值;
[0024]根据计算出的窗口指示值配置动态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态窗口的数据搬运方法,其特征在于,包括:获取数据源信息和目标信息;根据数据的相关性特征进行数据分片;所述数据的相关性特征包括数据属性或数据连续性或数据血缘关系的任一项或多项组合;根据服务器集群的性能指标配置动态窗口;所述服务器集群的性能指标包括服务器集群的特征或服务器集群的负载或服务器集群的历史传输信息的任一项或多项组合;按照数据分片生成并行搬运队列;在并行搬运队列中根据配置的动态窗口值搬运数据分片。2.根据权利要求1所述的基于动态窗口的数据搬运方法,其特征在于,所述数据源信息和目标信息包括数据源和目标的类型信息、地址信息、端口信息、用户信息、密码信息的任一项或多项组合;所述类型信息包括关系型数据库、大数据平台、文件服务器、消息队列。3.根据权利要求1所述的基于动态窗口的数据搬运方法,其特征在于,所述根据数据的相关性特征进行数据分片,包括步骤:根据数据长度的相似性计算数据之间的属性相似度、或根据数据类型的相似性计算数据之间的属性相似度、或根据数据时间要求的相似性计算数据之间的属性相似度、或根据数据长度和数据类型的相似性计算数据之间的属性相似度、或根据数据长度和数据时间要求的相似性计算数据之间的属性相似度、或根据数据类型和数据时间要求的相似性计算数据之间的属性相似度、或根据数据长度和数据类型和数据时间要求的相似性计算数据之间的属性相似度;根据数据的内容连续性计算数据之间的连续性、或根据数据的序号连续性计算数据之间的连续性、或根据数据的时间连续性计算数据之间的连续性、或根据数据的内容连续性和数据的序号连续性计算数据之间的连续性、或根据数据的内容连续性和数据的时间连续性计算数据之间的连续性、或根据数据的序号连续性和数据的时间连续性计算数据之间的连续性、或根据数据的内容连续性和数据的序号连续性和数据的时间连续性计算数据之间的连续性;根据数据血缘关系的相似性计算数据之间的血缘相似度;根据数据之间的属性相似度计算数据关联性值、或根据数据之间的连续性计算数据关联性值、或根据数据之间的血缘相似度计算数据关联性值、或根据数据之间的属性相似度和数据之间的连续性计算数据关联性值、或根据数据之间的属性相似度和数据之间的血缘相似度计算数据关联性值、或根据数据之间的连续性和数据之间的血缘相似度计算数据关联性值、或根据数据之间的属性相似度和数据之间的连续性和数据之间的血缘相似度计算数据关联性值;将数据关联性值大于预设关联性阈值的数据作为一个数据分片;所述关联性阈值根据数据量和队列承载能力计算得到。4.根据权利要求1所述的基于动态窗口的数据搬运方法,其特征在于,所述根据服务器集群的性能指标配置动态窗口,包括步骤:根据服务器集群的数量计算并行服务能力评估值、或根据服务器集群的网络环境计算并行服务能力评估值、或根据服务器集群的数量和服务器集群的网络环境计算并行服务能力评估值;
根据服务器的CPU使用率计算负载能力评估值、或根据服务器的内存占用率计算负载能力评估值、或根据服务器的磁盘读写速度计算负载能力评估值、或根据服务器的CPU使用率和服务器的内存占用率计算负载能力评估值、或根据服务器的CPU使用率和服务器的磁盘读写速度计算负载能力评估值、或根据服务器的内存占用率和服务器的磁盘读写速度计算负载能力评估值、或根据服务器的CPU使用率和服务器的内存占用率和服务器的磁盘读写速度计算负载能力评估值;根据服务器集群的历史传输速度计算历史传输效率评估值、或根据服务器集群的历史故障率计算历史传输效率评估值、或根据服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史故障率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史故障率和服务器集群的历史内存利用率计算历史传输效率评估值、或根据服务器集群的历史传输速度和服务器集群的历史故障率和服务器集群的历史内存利用率计算历史传输效率评估值;根据并行服务能力评估值与窗口值的相关关系计算窗口指示值、或根据负载能力评估值与窗口值的相关关系计算窗口指示值、或根据历史传输效率评估值与窗口值的相关关系计算窗口指示值、或根据并行服务能力评估值和负载能力评估值与窗口值的相关关系计算窗口指示值、或根据并行服务能力评估值和历史传输效率评估值与窗口值的相关关系计算窗...

【专利技术属性】
技术研发人员:徐行吴杰严军荣闵良志范能科朱王飞杨幸
申请(专利权)人:杭州衡泰技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1