数据集合处理方法、装置和系统制造方法及图纸

技术编号:27876282 阅读:26 留言:0更新日期:2021-03-31 00:51
本发明专利技术提出一种数据集合处理方法、一种数据集合处理装置和一种数据集合处理系统,所述方法包括:获取初始数据集合的集合大小和集合行数;根据预设内存容量、所述集合大小和所述集合行数得到数据加载行数;根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中。本发明专利技术实施例提供的数据集合处理方法可以避免通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合造成的服务器运行脚本异常问题。

【技术实现步骤摘要】
数据集合处理方法、装置和系统
本专利技术涉及大数据
,尤其涉及一种数据集合处理方法、一种数据集合处理装置和一种数据集合处理系统。
技术介绍
目前,每个项目涉及的大数据集合由于占用磁盘空间过大,从而导致无法有效的释放大数据集合占用的磁盘空间;此外大数据集合所占用服务器资源开销过大,增加服务器资源成本;且大数据集合中历史数据和活跃数据处于共存状态,无法有效地将历史数据归档存储,从而影响历史问题排查分析。现有相关技术中通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合,如此一来运行内存在高突发数据情况下会溢出,造成服务器脚本异常的情况,同时这种方式还会存在一定的服务器风险。
技术实现思路
因此,本专利技术提出一种数据集合处理方法、一种数据集合处理装置和一种数据集合处理系统,以避免现有相关技术中通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合造成的服务器运行脚本异常问题。具体地,第一方面,本专利技术实施例提出一种数据集合处理方法,包括:获取初始数据集合的集合大小和集合行数;根据预设内存容量、所述集合大小和所述集合行数得到数据加载行数;根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中。在现有技术中,通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合,如此一来运行内存在高突发数据情况下会溢出,造成服务器脚本异常的情况,同时这种方式还会存在一定的服务器风险。本专利技术实施例通过根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中,将大数据集合进行合理性拆分重组,避免了现有相关技术中通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合造成的服务器运行脚本异常问题,降低了服务器风险,避免大数据集合占用服务器资源开销过大的情况,可以随时删除原大数据集合,释放磁盘空间降低服务器资源成本,可以根据将历史数据和活跃数据进行分开保存,有效地将历史数据归档,利于历史问题的排查分析。在本专利技术的一个实施例中,所述根据预设内存容量、所述集合大小和所述集合行数计算得到数据加载行数,包括:根据所述集合大小和所述集合行数计算得到每行数据大小;根据所述预设内存容量和所述每行数据大小计算得到所述数据加载行数。在本专利技术的一个实施例中,前述数据集合处理方法还包括:当判断所述第一数据量的行数大于所述数据加载行数时,修改所述预设读取单位得到第一目标读取单位,根据所述第一目标读取单位从所述初始数据集合中读取数据得到第二数据量;判断所述第二数据量的行数是否大于所述数据加载行数,当判断所述第二数据量的行数不大于所述数据加载行数时,将所述第二数据量保存至所述目标数据集合中。在本专利技术的一个实施例中,所述修改所述预设读取单位得到第一目标读取单位包括:将所述预设读取单位拆分为相等的第一时间长度和第二时间长度,并所述第一时间长度作为所述第一目标读取单位。在本专利技术的一个实施例中,前述数据集合处理方法还包括:将所述预设读取单位的所述第二时间长度作为第二目标读取单位;根据所述第二目标读取单位从所述初始数据集合中读取数据得到第三数据量;判断所述第三数据量的行数是否大于所述数据加载行数,当判断所述第三数据量的行数不大于所述数据加载行数时,将所述第三数据量存储至所述目标数据集合中。在本专利技术的一个实施例中,前述数据集合处理方法,还包括:当判断所述第一数据量的行数大于所述数据加载行数时,对所述第一数据量进行处理得到第二数据量;判断所述第二数据量的行数是否大于所述数据加载行数,当判断所述第二数据量的行数不大于所述数据加载行数时,将所述第二数据量保存至所述目标数据集合中。在本专利技术的一个实施例中,所述对所述第一数据量进行处理得到第二数据量,包括:将所述第一数据量拆分为相等的第一子数据量和第二子数据量,将所述第一子数据量作为所述第二数据量。在本专利技术的一个实施例中,前述数据集合处理方法还包括:将第二子数据量作为第三数据量;判断所述第三数据量的行数是否大于所述数据加载行数,当判断所述第三数据量的行数不大于所述数据加载行数时,将所述第三数据量存储至所述目标数据集合中。第二方面,本专利技术实施例提出一种数据集合处理装置,包括:参数获取模块,用于获取初始数据集合的集合大小和集合行数;行数确定模块,用于根据预设内存容量、所述集合大小和所述集合行数得到数据加载行数;数据获取模块,用于根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;数据保存模块,用于判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中。第三方面,本专利技术实施例提出一种数据集合处理系统,包括:处理器和连接所述处理器的存储器;其中所述存储器存储有所述处理器执行的指令,且所述指令使得所述处理器执行操作以进行如前述中任意一项所述的数据集合处理方法。第四方面,本专利技术实施例提出一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令包括用于执行如前述中任一项所述的数据集合处理方法的指令。由上可知,本专利技术实施例可以达成以下一个或多个有益效果:避免了现有相关技术中通过设置内存不受限直接将大数据集合拆分后重新融合成新的数据集合造成的服务器运行脚本异常问题,降低了服务器风险,避免大数据集合占用服务器资源开销过大的情况,可以随时删除原大数据集合,释放磁盘空间降低服务器资源成本,可以根据将历史数据和活跃数据进行分开保存,有效地将历史数据归档,利于历史问题的排查分析。通过以下参考附图的详细说明,本专利技术的其它方面和特征变得明显。但是应当知道,该附图仅仅为解释的目的设计,而不是作为本专利技术的范围的限定。还应当知道,除非另外指出,不必要依比例绘制附图,它们仅仅力图概念地说明此处描述的结构和流程。附图说明下面将结合附图,对本专利技术的具体实施方式进行详细的说明。图1为本专利技术第一实施例提供的一种数据集合处理方法的流程示意图;图2为本专利技术第一实施例提供的一种数据集合处理方法的另一流程示意图;图3为本专利技术第二实施例提供的一种数据集合处理装置的模块示意图;图4为本专利技术第三实施例提供的一种数据集合处理系统的结构流程图;图5为本专利技术第四实施例提供的一种计算机可读介质的示意图。【附图标记说明】S11-S16:数据集合处理方法步骤;20:数据集合处理装置;21:参数获取模块;22:行数确定模块;23:数据获取模块;24:数据保存模块;30:数据集合处理系统;31:处理器;32:存储器;40:计算机可读介质。具体实施方式为使本专利技术的上述目的、特本文档来自技高网...

【技术保护点】
1.一种数据集合处理方法,其特征在于,包括:/n获取初始数据集合的集合大小和集合行数;/n根据预设内存容量、所述集合大小和所述集合行数得到数据加载行数;/n根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;/n判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中。/n

【技术特征摘要】
1.一种数据集合处理方法,其特征在于,包括:
获取初始数据集合的集合大小和集合行数;
根据预设内存容量、所述集合大小和所述集合行数得到数据加载行数;
根据预设读取单位从所述初始数据集合中读取数据得到第一数据量;
判断所述第一数据量的行数是否大于所述数据加载行数,当判断所述第一数据量的行数不大于所述数据加载行数时,将所述第一数据量保存至目标数据集合中。


2.根据权利要求1所述的数据集合处理方法,其特征在于,所述根据预设内存容量、所述集合大小和所述集合行数计算得到数据加载行数,包括:
根据所述集合大小和所述集合行数计算得到每行数据大小;
根据所述预设内存容量和所述每行数据大小计算得到所述数据加载行数。


3.根据权利要求1所述的数据集合处理方法,其特征在于,还包括:
当判断所述第一数据量的行数大于所述数据加载行数时,修改所述预设读取单位得到第一目标读取单位,根据所述第一目标读取单位从所述初始数据集合中读取数据得到第二数据量;
判断所述第二数据量的行数是否大于所述数据加载行数,当判断所述第二数据量的行数不大于所述数据加载行数时,将所述第二数据量保存至所述目标数据集合中。


4.根据权利要求3所述的数据集合处理方法,其特征在于,所述修改所述预设读取单位得到第一目标读取单位包括:将所述预设读取单位拆分为相等的第一时间长度和第二时间长度,并所述第一时间长度作为所述第一目标读取单位。


5.根据权利要求4所述的数据集合处理方法,其特征在于,还包括:
将所述预设读取单位的所述第二时间长度作为第二目标读取单位;
根据所述第二目标读取单位从所述初始数据集合中读取数据得到第三数据量;
判断所述第三数据量的行数是否大于所述数据加载行数,当判断所述第三数据量的行数...

【专利技术属性】
技术研发人员:李强陈庆东韩丹
申请(专利权)人:西安诺瓦星云科技股份有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1