一种切分数据块的方法及装置制造方法及图纸

技术编号:35499043 阅读:29 留言:0更新日期:2022-11-05 17:03
本发明专利技术提供的一种切分数据块的方法及装置,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载;根据所述数据加载过程中的统计信息判断该节点加载是否结束,并判断缓冲数据的缓冲区所缓冲的数据量是否超过设定阈值,若加载结束或超过设定阈值则进行缓冲区切换;将临时缓存在缓冲区的数据存储至所述节点对应的存储位置,可以同时进行多个节点的数据缓存,充分调用多个计算节点并行加载数据。点并行加载数据。点并行加载数据。

【技术实现步骤摘要】
一种切分数据块的方法及装置


[0001]本专利技术属于分布式数据库
,尤其是涉及一种切分数据块的方法及装置。

技术介绍

[0002]在大规模分布式事务型数据库集群系统中,往往需要加载来自外部数据源的大批量数据。面对大量的数据库集群节点和海量的外部数据,使用尽可能多的集群节点执行并行数据加载,是实现各加载节点间的负载均衡和提高总体加载速度的有效方法。如何高效、可靠地切分连续数据是提高总体加载速度的关键因素。

技术实现思路

[0003]有鉴于此,本专利技术旨在提出一种切分数据块的方法及装置,以实现高效、可靠地切分连续数据。
[0004]为达到上述目的,本专利技术的技术方案是这样实现的:本申请提出一种切分数据块的方法,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,具体步骤包括:S1、所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载;S2、根据所述数据加载过程中的统计信息判断该节点加载是否结束,并判断缓冲数据的缓冲区所缓冲的数据量是否超过设定阈值,若加载结束或超过设定阈值则进行缓冲区切换;S3、将临时缓存在缓冲区的数据存储至所述节点对应的存储位置。
[0005]可选的,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,具体方法如下:根据加载文件数据大小,将加载文件的数据均分到所有用于加载所述加载文件的节点,确定每个节点的加载信息。
[0006]可选的,所述加载信息包括偏移地址和数据长度,所述偏移地址为节点对应加载文件进行数据加载起始位置,所述数据长度为节点加载加载文件的数据长度。
[0007]可选的,步骤S1中,所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载,包括:若加载信息内的偏移地址为零,数据加载步骤如下:S101、加载文件中加载数据的起始位置之前无数据,从偏移地址对应加载文件的数据位置加载数据至接收缓存;S102、所述接收缓存存储到设定条件,将接收缓存中的数据缓存到缓冲区;S103、接收缓存从加载文件中根据上一次结束缓存的位置开始继续进行数据缓存;S104、重复步骤S102

S103;
若加载信息内的偏移地址不为零,数据加载步骤如下:S111、从所述偏移地址对应加载文件的数据位置开始加载数据至接收缓存,并从所述数据位置向后查找分隔符;S112、若找到分隔符则将分隔符后面的数据重新从接收缓存的初始位置进行覆盖原有数据的缓存;S113、所述接收缓存存储到设定条件,将接收缓存中的数据缓存到缓冲区;S114、接收缓存从加载文件中根据上一次结束缓存的位置开始继续进行数据缓存;S115、重复步骤S113

S114。
[0008]可选的,所述统计信息的具体获取步骤如下:统计信息统计所述节点加载本次加载文件时,对应的接收缓存中缓存过的所有数据的数据长度。
[0009]可选的,根据所述数据加载过程中的统计信息判断该节点加载是否结束,具体方法包括:根据统计信息中统计的加载数据长度与所述节点需要加载数据长度对比,若等于或超过所述节点需要加载的数据长度,则加载结束。
[0010]可选的,步骤S2中,若加载结束则进行缓冲区切换,具体方法如下:若加载结束,则从当前数据加载位置开始查找分隔符并继续将数据缓存至接收缓存,直至找到所述分隔符,将接收缓存中的数据缓存到缓冲区,将所述分隔符后面的数据重新从接收缓存的初始位置进行覆盖原有数据的缓存。
[0011]可选的,步骤S2中,若超过设定阈值则进行缓冲区切换,具体方法如下:若超过设定阈值,则设置缓冲区满标志,并从当前数据加载位置开始查找分隔符并继续将数据缓存至接收缓存,直至找到所述分隔符,将接收缓存中的数据缓存到缓冲区,将所述分隔符后面的数据重新从接收缓存的初始位置进行覆盖原有数据的缓存。
[0012]另一方面,本申请还提出一种切分数据块的装置,包括数据获取模块、数据加载模块、缓冲区切换模块和数据存储模块,所述数据获取模块用于根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息;所述数据加载模块用于所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载;所述缓冲区切换模块用于根据所述数据加载过程中的统计信息判断该节点加载是否结束,并判断缓冲数据的缓冲区所缓冲的数据量是否超过设定阈值,若加载结束或超过设定阈值则进行缓冲区切换;所述数据存储模块用于将临时缓存在缓冲区的数据存储至所述节点对应的存储位置。
[0013]相对于现有技术,本专利技术所述的一种切分数据块的方法及装置具有以下有益效果:(1)本专利技术所述的一种切分数据块的方法及装置,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,所述节点基于加载信息内的偏移地址
确定从加载文件中加载数据的起始位置,并进行数据加载;根据所述数据加载过程中的统计信息判断该节点加载是否结束,并判断缓冲数据的缓冲区所缓冲的数据量是否超过设定阈值,若加载结束或超过设定阈值则进行缓冲区切换;将临时缓存在缓冲区的数据存储至所述节点对应的存储位置,可以同时进行多个节点的数据缓存,充分调用多个计算节点并行加载数据。
[0014](2)本专利技术所述的一种切分数据块的方法及装置,节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载,需要考虑偏移地址是否为零,若为零,则可直接进行数据加载,若不为零,则需要从加载文件中加载数据的起始位置向后查找分隔符,保证每条数据加载完整性,避免加载数据起始位置位于每条数据中间位置,加载结束或进行缓冲区切换也要从当前加载数据向后查找分隔符,保证每次保存的每条数据的完整性。
附图说明
[0015]构成本专利技术的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术实施例所述的一种切分数据块的方法流程图。
[0016]图2为本专利技术实施例所述的一种切分数据块的装置结构图。
具体实施方式
[0017]需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0018]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。
[0019]在本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种切分数据块的方法,其特征在于,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,具体步骤包括:S1、所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载;S2、根据所述数据加载过程中的统计信息判断该节点加载是否结束,并判断缓冲数据的缓冲区所缓冲的数据量是否超过设定阈值,若加载结束或超过设定阈值则进行缓冲区切换;S3、将临时缓存在缓冲区的数据存储至所述节点对应的存储位置。2.根据权利要求1所述的一种切分数据块的方法,其特征在于,根据加载文件数据大小及加载所述加载文件的节点个数确定各个节点的加载信息,具体方法如下:根据加载文件数据大小,将加载文件的数据均分到所有用于加载所述加载文件的节点,确定每个节点的加载信息。3.根据权利要求1所述的一种切分数据块的方法,其特征在于,所述加载信息包括偏移地址和数据长度,所述偏移地址为节点对应加载文件进行数据加载起始位置,所述数据长度为节点加载加载文件的数据长度。4.根据权利要求1所述的一种切分数据块的方法,其特征在于,步骤S1中,所述节点基于加载信息内的偏移地址确定从加载文件中加载数据的起始位置,并进行数据加载,包括:若加载信息内的偏移地址为零,数据加载步骤如下:S101、加载文件中加载数据的起始位置之前无数据,从偏移地址对应加载文件的数据位置加载数据至接收缓存;S102、所述接收缓存存储到设定条件,将接收缓存中的数据缓存到缓冲区;S103、接收缓存从加载文件中根据上一次结束缓存的位置开始继续进行数据缓存;S104、重复步骤S102

S103;若加载信息内的偏移地址不为零,数据加载步骤如下:S111、从所述偏移地址对应加载文件的数据位置开始加载数据至接收缓存,并从所述数据位置向后查找分隔符;S112、若找到分隔符则将分隔符后面的数据重新从接收缓存的初始位置进行覆盖原有数据的缓存;S113、所述接收缓存存储到设定条件,将接收缓存中的数据缓存到缓冲区;S114、接收缓存从加载文件中根据上一次...

【专利技术属性】
技术研发人员:吴明远李龙
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1