一种数据上传方法及系统技术方案

技术编号:15520429 阅读:63 留言:0更新日期:2017-06-04 09:59
本发明专利技术公开了一种数据上传方法及系统,该方法包括如下步骤,读取数据文件,对数据文件进行数据分片操作、生成数据片段,对数据片段进行完整性管理操作;通过上传数据片段的方式上传数据文件;接收到数据片段后,校验数据片段的完整性;该系统包括客户端和服务器;客户端包括读取模块、分片模块、管理模块及上传模块,服务器包括接收模块和校验模块。本发明专利技术为超级计算提供一种高效、快速的数据上传方法及系统,避免了数据重复上传的问题,有效减少了数据传输时间,极大提高了大规模数据的上传效率,进而使超算作业可以进行实时提交。

Data uploading method and system

The invention discloses a system and a data uploading method, the method includes the following steps: read the data file, the data file data slice, generate data fragments, integrity management operations on the data segment; through upload upload data segment mode data file; receiving the data fragment, integrity check fragments of data; the system includes client and server; the client comprises a read module, chip module, management module and upload module, the server comprises a receiving module and a verification module. The present invention provides a system for data upload and efficient and fast method for supercomputing, avoid duplication of data upload, effectively reduces the data transmission time, which greatly improves the efficiency of large-scale data upload, and then make the supercomputer operations can be carried out by real-time commit.

【技术实现步骤摘要】
一种数据上传方法及系统
本专利技术涉及数据传输
,更为具体来说,本专利技术是一种数据上传方法及系统。
技术介绍
近年来,随着大数据的应用与发展,传统小规模计算集群的能力已经不能适应对大数据处理的需要,而集成众多最新技术的超算中心对解决大数据问题具有巨大优势。随着远程超级计算技术发展和要求,大规模数据上传及高性能计算集群的出现,对计算速度和计算规模的要求越来越高。由于上传的数据量巨大,上传过程中经过的服务器及网络环节众多,因此,对数据上传效率、可靠性、安全性等方面提出了更高的要求。对于传统的远程超算中心结构,采用面向连接的文件上传批量小文件和大文件是一件非常耗时的事情,常用的优化方法是采用多个小文件包装在一个数据集里整体上传,虽然这样能提高上传性能,但是需要用户主动将数据进行打包,当数据集比较大是非常耗费系统资源,并且当上传一个由大文件和小文件混合的目录时,打包也非常不合适,传统的上传方法存在着上传效率低下、上传批量上传小文件时存在负载过重的问题。因此,如何提高数据上传效率、如何解决负载过重的问题,已成为了本领域技术人员亟待解决的技术问题和研究的重点。
技术实现思路
为解决现有的上传方法存在的上传效率低、重复上传等问题,本专利技术公开了一种数据上传方法及系统,从对数据文件处理的角度出发,创新地将数据文件分片和完整性管理,对数据片段进行传输和接收到的文件进行完整性校验,完成大数据的高速传输和增量数据传输,从而提高数据上传效率,解决上传批量小文件占用系统资源过大等问题。为实现上述技术目的,本专利技术公开了一种数据上传方法,该方法包括如下步骤,步骤1,读取数据文件;步骤2,对所述数据文件进行数据分片操作、生成数据片段;步骤3,对所述数据片段进行完整性管理操作;步骤4,通过上传数据片段的方式上传数据文件;步骤5,接收到所述数据片段后,校验接收到的所有数据片段的完整性。本专利技术通过数据分片、完整性管理、上传数据片段、校验完整性操作解决了传统上传过程上传效率低的问题,特别对于批量小文件和大文件的上传,本专利技术极大地提高了大规模数据的上传效率;另外,本专利技术可有效地避免数据重复上传的问题,由于上传及时,本专利技术使超算作业可以进行实时提交。进一步地,步骤1中,判断所述数据文件是否为首次上传:如果是,则步骤4中上传所有的数据片段;如果否,则步骤4中上传发生改变的数据片段。本专利技术针对大规模远程超级计算中客户端数据重复上传带来的大量无用作业占用客户端或服务端的计算网络资源带来的数据上传效率低的问题,本专利技术对于已上传的数据文件,仅上传发生改变的数据片段,即本专利技术设计了基于任务-文件特征值列表以及文件-唯一特征值一一对应的文件增量上传方式,从而避免数据重复上传,提高了数据上传效率。进一步地,步骤3中对待上传的数据片段进行编号;步骤5中,依据所述编号校验接收到的数据文件的完整性。本专利技术采用了数据片段编号这种简单的方式,使得服务器对完整性的验证变得更为容易,使本专利技术更容易实施。进一步地,步骤2中,对已生成的数据片段进行缓存操作;步骤5中,上传成功后,删除缓存中已经上传的数据片段。通过客户端与服务器的通信,当服务器成功接收相关数据片段后,则通知客户端接受结果,客户端根据接收结果判断删除相关数据片段或重发数据片段;避免了冗余数据对客户端缓存的占用而影响其他的文件的上传工作。进一步地,步骤2中,所述数据片段大小符合高速传输协议要求;步骤4中,基于高速传输协议并发上传数据片段。本专利技术创新地将数据文件切割为符合高速传输协议要求的数据片段,为本专利技术能够高速地上传数据文件做了充足的准备。进一步地,所述高速传输协议为无连接协议。本专利技术针对大规模远程超级计算中上传单一超大文件及批量小文件传输速度低、受网络影响传输导致的稳定性差的问题,本专利技术基于无连接网络协议的可靠文件传输方法。提高网络传输速度,保证了文件传输的完整性。本专利技术的另一个专利技术目的在于提供一种数据上传系统,该系统包括客户端和服务器;所述客户端包括读取模块、分片模块、管理模块及上传模块,所述读取模块读取数据文件,所述分片模块对所述数据文件进行数据分片操作、生成数据片段,所述管理模块对所述数据片段进行完整性管理操作,所述上传模块通过上传数据片段的方式上传数据文件;所述服务器包括接收模块和校验模块,所述接收模块用于接收上传模块上传的数据片段,所述校验模块用于校验接收到的所有数据片段的完整性。进一步地,所述客户端还包括判断模块;所述判断模块用于判断所述数据文件是否为首次上传:如果是,则上传模块上传所有的数据片段;如果否,则上传模块上传发生改变的数据片段。进一步地,所述客户端还包括划分模块,所述划分模块对待上传的数据片段进行编号;所述服务器与所述客户端通信,所述校验模块依据所述编号校验接收到的数据文件的完整性。进一步地,所述客户端还包括缓存模块,所述缓存模块用于存储生成的数据片段。本专利技术的有益效果为:本专利技术为超级计算提供一种高效、快速的数据上传方法及系统,避免了数据重复上传的问题,有效减少了数据传输时间,极大提高了大规模数据的上传效率,进而使超算作业可以进行实时提交。本专利技术针对大规模远程超级计算中数据上传问题,提供了一种完整的解决方案,解决了传统远程超级计算系统中依靠面向连接的文件上传方式存在的上传效率低、不能解决数据重复上传的问题,使得大规模数据处理作业无需长时间等待数据上传,即可进行实时提交。附图说明图1为数据上传方法流程示意图。图2为数据上传系统组成示意图。图3为客户端上传流程示意图。图4为服务器接收流程示意图。具体实施方式下面结合说明书附图对本专利技术数据上传方法和系统进行详细的解释和说明。如图1、2、3、4所示,本专利技术公开了一种数据上传方法,该方法是一种高效的上传方法,上传后的数据用于远程超级计算。远程超级计算的高效数据上传方法及系统主要是科学或者面向工程计算的大规模数据的上传方法和传输方法。其中,大数据整体高速上传是通过创建文件特征值列表,大文件分片处理,采用高速传输协议进行并行传输,然后在服务端进行文件重组,为了保证良好的传输效率,远程超级计算的高效数据上传避免了数据重复上传,而且提高传输效率。解决了负载过重的问题,同时自适应传输系统对各种传输方式进行状态监控,以确保传输的可控性和可靠性。该方法具体包括如下步骤:步骤1,读取数据文件,本实施例中,通过客户端读取数据文件,本专利技术中,通过客户端与服务器通信判断数据文件是否为首次上传:如果是,则上传所有的数据片段;如果否,则需上传的数据文件为增量数据,上传发生改变的数据片段,减少了冗余数据的重复上传导致的系统资源浪费,服务器仅接收到发生改变的数据,然后进行文件的重组,完成增量文件接收。步骤2,对数据文件进行数据分片操作、生成数据片段,为满足后序高速传输的要求,本专利技术将数据文件切分成符合高速传输协议要求大小的数据片段;对已生成的数据片段进行缓存操作,或者说,对数据文件进行缓存。为方便后期的远程超级计算,本步骤中对待上传数据文件进行计算。步骤3,对数据片段进行完整性管理操作,以满足后期服务器对数据片段完整性的校验。步骤4,基于高速传输协议,通过上传数据片段的方式上传数据文件;另外,本专利技术通过客户端对于待上传的数据片段进行编号,基于上述编号,服务器端对完整性的检本文档来自技高网...
一种数据上传方法及系统

【技术保护点】
一种数据上传方法,其特征在于:该方法包括如下步骤,步骤1,读取数据文件;步骤2,对所述数据文件进行数据分片操作、生成数据片段;步骤3,对所述数据片段进行完整性管理操作;步骤4,通过上传数据片段的方式上传数据文件;步骤5,接收到所述数据片段后,校验接收到的所有数据片段的完整性。

【技术特征摘要】
1.一种数据上传方法,其特征在于:该方法包括如下步骤,步骤1,读取数据文件;步骤2,对所述数据文件进行数据分片操作、生成数据片段;步骤3,对所述数据片段进行完整性管理操作;步骤4,通过上传数据片段的方式上传数据文件;步骤5,接收到所述数据片段后,校验接收到的所有数据片段的完整性。2.根据权利要求1所述的数据上传方法,其特征在于:步骤1中,判断所述数据文件是否为首次上传:如果是,则步骤4中上传所有的数据片段;如果否,则步骤4中上传发生改变的数据片段。3.根据权利要求1或2所述的数据上传方法,其特征在于:步骤3中对待上传的数据片段进行编号;步骤5中,依据所述编号校验接收到的数据文件的完整性。4.根据权利要求3所述的数据上传方法,其特征在于:步骤2中,对已生成的数据片段进行缓存操作;步骤5中,上传成功后,删除缓存中已经上传的数据片段。5.根据权利要求1所述的数据上传方法,其特征在于:步骤2中,所述数据片段大小符合高速传输协议要求;步骤4中,基于高速传输协议并发上传数据片段。6.根据权利要求5所述的数据上传方法,其特征在于:所述高速传输协议为无...

【专利技术属性】
技术研发人员:周文平陈煜文华中领
申请(专利权)人:酷伴科技北京有限责任公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1