当前位置: 首页 > 专利查询>清华大学专利>正文

电镜数据转储方法、存储介质和装置制造方法及图纸

技术编号:20566383 阅读:25 留言:0更新日期:2019-03-14 09:16
本发明专利技术提供一种电镜数据转储方法、存储介质和装置,包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。基于本发明专利技术提供的电镜数据转储方法,可以实现对电镜数据的快速转储,以支持对电镜数据的大数据管理。

TEM Data Transfer Method, Storage Medium and Device

The invention provides an electron microscope data dump method, storage medium and device, including: step 11: preset dump process number is copynum, determine target bandwidth of source server and target server according to copynum, and configure link bandwidth between source server and target server not less than target bandwidth; step 13: create copynum parallel processes in source server; Each process is used to transfer one of the files to the second default directory under the first default directory; monitor the copynum processes and create a new process to transfer another file to the first default directory after the end of any process until all the files to be transferred under the first default directory have been transferred. Based on the method of transmission electron microscope data dump provided by the present invention, fast transmission of transmission electron microscope data can be realized to support large data management of transmission electron microscope data.

【技术实现步骤摘要】
电镜数据转储方法、存储介质和装置
本专利技术涉及计算机领域,特别涉及一种电镜数据转储方法、存储介质和装置。
技术介绍
随着硬件技术的进步,应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。近年来,不少研究团队基于冷冻电镜技术在国际顶级学术期刊Nature、Science、Cell等发表了数十篇高分辨率的关于蛋白质三维结构解析成果,对生命科学的发展产生了重大影响,而冷冻电镜在这其中发挥着举足轻重的作用。为了重构出高精度的分子结构,冷冻电镜需要拍摄大量二维的高分辨率图像,由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题,从而会导致丢失一些图像信息,为了避免有效信息的丢失,冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成,以弥补单一图像丢失的信息,最终利用所拍摄的大量的高分辨率的二维图像,通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。然而,在重构三维分子结构的过程中,为了构建精确的高分辨率的三维分子结构,冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像,细微的角度变化均需要拍摄大量的二维图像,在电镜满负荷工作的情况下,每天会产生数几十TB的电镜数据,以清华大学生命学院电镜平台Titan为例,每台Titan的拍摄速率7GB/分钟,即每分钟产生7GB左右的图像数据,这样一台电镜在一天中就能产生7GB/分钟*60分钟/小时*24小时=10.08TB的数据,从而导致每年将消耗高达4PB的存储容量。大数据治理,是目前普遍存在的一大问题。对数据分而治之,即对数据进行分门别类式的个性化管理,是数据管理的基本出发点和原则。比如,对冷数据、非重点数据进行数据转储或迁移操作,使之沉淀到低速、低成本、大容量存储系统中,以读写时间为代价换取存储空间和成本的最大收益。事实上,这种代价是完全可以被接受的。但是另一方面,实现大数据治理,首先需要解决如何将大容量的电镜数据从一个存储系统转移到另一个存储系统?
技术实现思路
有鉴于此,本专利技术提供一种电镜数据转储方法、存储介质和装置,可以解决将大容量的电镜数据从一个存储系统快速转移到另一个存储系统的问题。本专利技术提供一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。本专利技术还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的电镜数据转储方法中的步骤。本专利技术还提供一种电镜数据转储装置,包括处理器和上述的非瞬时计算机可读存储介质。本专利技术电镜数据转储方法,并行转储效率高,用时少,可以实现对电镜数据的快速或极速转储,对提高电镜数据解析的高通量能力具有良好的效果,能满足电镜数据的用户使用需求和管理需求,具有较好的应用前景和推广价值。附图说明图1为本专利技术电镜数据转储方法的流程图;图2为本专利技术电镜数据转储系统的结构图;图3为本专利技术电镜数据转储方法的第一实施例;图4为本专利技术电镜数据转储方法的第二实施例;图5为本专利技术电镜数据转储装置的结构图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象,而不必用于描述特定的顺序和先后次序。应该理解,这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在实际工作中,电镜数据存储面临的主要挑战是:成倍数增长的电镜原始数据和过程数据,对存储系统容量、用户配额分配管理策略带来了极大的挑战,并间接影响到科研效率和整体进度。具体包括以下层面:1.数据量弹性大:冷冻电镜领域是当前特别活跃的一个科研领域,各种软硬件技术革新层出不穷;同一套原始数据结合不同的分析流程会产生多种过程和结果数据,数据规模会日趋庞大而复杂;课题组与课题组之间,课题组与校外机构合作研究时会产生大量的数据副本,虽可同时满足数据共享便利性和原始数据完整性等多样化需求,却也为存储系统带来容量压力。因此,电镜采集的数据具备很大的弹性。在存储系统合理化使用和数据副本管理方面缺乏更高效、更经济的管理策略。2.数据管理相关信息孤立分散、缺乏基于内容的感知:大部分电镜数据由科研人员自行管理,尚无统一的管理策略,大量离线数据的日常管理占用了课题组过多精力。同时,管理员基于系统优化目的对数据进行调整、迁移,此类信息如何更加快捷、准确地面向科研人员发布,也是一个有待解决的问题。3.管理滞后:管理员用户权限与数据权限分离,平台管理者难以挖掘用户使用规律并深入配合科研业务需求及时调整平台管理策略和长期运营规划,应对解决方案一定程度上存在滞后性,在辅助科研成果高效产出过程中缺少主动性。4.手工数据迁移任务太繁重:缺乏有效的自动化或半自动化工具软件或脚本,管理员对数据的迁移任务工作量太繁重,并容易导致操作事故。本专利技术针对上述第4个问题,提出一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,如图1所示,该方法包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽。为了实现转储,本专利技术构建了如图2所示的转储系统,包括101源端存储系统、102目标端存储系统、103源端服务器和104目标端服务器,101源端存储系统挂载于103源端服务器,102目标端存储系统挂载于104目标端服务器,103源端服务器与104目标端服务器通过可扩容光纤和/或电缆连接,例如可采用一个或多条单模光纤连接。步骤11还设置了转储进程数copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,例如copynum=50时,copynum×单进程带宽=目标带宽,单进程带宽可以通过测试数据得到,假设计算得到的目标带宽为160G,一条单模光纤的带宽为40G,则源端服务器与目标端服务器至少需配置4条单模光纤,如图2所示。步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。例如,第一预设目录为:/ShareEM2018/TitanD3418/。第二预设目本文档来自技高网
...

【技术保护点】
1.一种电镜数据转储方法,其特征在于,所述方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,所述源端存储系统挂载于源端服务器,所述目标端存储系统挂载于目标端服务器,所述方法包括:步骤11:预设转储进程数为copynum,根据所述copynum确定所述源端服务器与目标端服务器的目标带宽,并配置所述源端服务器与目标端服务器之间的链路带宽不低于所述目标带宽;步骤13:在所述源端服务器创建copynum个并行进程,每个进程用于将所述第一预设目录下的一个待传输文件传输至所述第二预设目录下;监控所述copynum个进程,当任一进程结束后,再创建一个新的进程用于传输所述第一预设目录下另一个待传输文件,直至所述第一预设目录下的所有待传输文件均传输完毕。

【技术特征摘要】
1.一种电镜数据转储方法,其特征在于,所述方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,所述源端存储系统挂载于源端服务器,所述目标端存储系统挂载于目标端服务器,所述方法包括:步骤11:预设转储进程数为copynum,根据所述copynum确定所述源端服务器与目标端服务器的目标带宽,并配置所述源端服务器与目标端服务器之间的链路带宽不低于所述目标带宽;步骤13:在所述源端服务器创建copynum个并行进程,每个进程用于将所述第一预设目录下的一个待传输文件传输至所述第二预设目录下;监控所述copynum个进程,当任一进程结束后,再创建一个新的进程用于传输所述第一预设目录下另一个待传输文件,直至所述第一预设目录下的所有待传输文件均传输完毕。2.根据权利要求1所述的方法,其特征在于,所述步骤13之后还包括:步骤14:判断所述第一预设目录下是否存在传输失败的文件,如果是,则将所述传输失败的文件标记为待传输文件,返回步骤13,如果否,则转储任务完成。3.根据权利要求2所述的方法,其特征在于,所述确定所述第一预设目录是否存...

【专利技术属性】
技术研发人员:杨涛阮华斌王亚坤贾安宝
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1