一种用于超大规模药物数据的分级存储优化方法技术

技术编号:24332774 阅读:61 留言:0更新日期:2020-05-29 20:32
本发明专利技术涉及一种用于超大规模药物数据的分级存储优化方法,属于超大规模数据存储管理领域,步骤为1)构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,2)对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;4)针对各级存储结构及其特征属性设计相应的I/O方法,动态调度I/O请求,优化各级存储结构I/O调度策略。本发明专利技术方法提高超算环境下I/O性能,实现超大规模药物数据的异构存储和平台开发利用。

A hierarchical storage optimization method for large scale drug data

【技术实现步骤摘要】
一种用于超大规模药物数据的分级存储优化方法
本专利技术属于超大规模数据存储管理的
,特别是指一种用于计算机辅助药物设计过程中产生的超大规模、多源、异构药物数据的分级存储优化方法。
技术介绍
计算机辅助药物设计全过程包括虚拟药物筛选、先导优化、靶标预测、动力学模拟等,全过程涉及药物数据或中间结果数据及结果数据具有规模超大、结构多样、以及阶段过程中各种数据之间具有时间关联性(前一阶段的输出为后一阶段的输入)等特点。针对上述过程药物数据特点,设计多级存储资源管理系统,并通过一系列特征化操作、数据分类模型、I/O调度策略优化,以提高超大规模药物数据的I/O效率。传统高性能计算机系统的处理器性能提升速度飞快,相较而言,存储设备的访问速度性能提升则较为缓慢,计算、存储发展不匹配导致两者间存储墙的问题越来越显著,而存储系统的性能瓶颈一般在于I/O,但单台设备每秒I/O有限,且整个集群性能在达到一定程度后提升效果缓慢,系统复用性极低,严重影响系统的总体性能。针对海洋药物研发设计全过程涉及药物数据的规模庞大、结构异构多样、阶段关联性强等特点,应用于海洋药物研发的大规模海洋药物数据管理(包括数据存储、数据读取、数据索引等)需要更高访问性能的存储设备的支持,以支撑海洋药物研发的全过程。
技术实现思路
本专利技术提供一种用于计算机辅助药物设计过程中涉及到的超大规模药物数据的分级存储优化方法,解决了现有超算环境下超大规模药物数据的I/O问题。本专利技术是通过如下技术方案来实现的:一种用于超大规模药物数据的分级存储优化方法,其主要是通过以下技术方案加以实现的:包括以下步骤:1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器,该部分I/O速度快,容量小且造价成本高;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器,该部分较主存I/O速度略慢,容量较大;搭建在存储集群上的分布式大数据服务器集群HDD+SSD,该部分存储容量大,但I/O速度较慢且受带宽影响限制大;光存储结构ODD,该部分存储容量超大,成本低,适合存储少I/O、低利用的冷数据;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。本专利技术基于分布式多级存储结构,搭建包含多类型存储设备以及多层次存储结构的多级存储架构,构建基于分布式多级存储结构的集群存储资源管理系统;多个计算节点作为客户端共同使用分级存储结构的存储资源,集群中存在多个作业同时运行,不同作业任务之间对集群系统资源进行竞争,由于不同作业任务对不同系统资源的需求程度存在差异,依据这种差异性属性,特征化作业任务;依据系统中不同存储资源的特性以及不同作业任务的运行特征条件对系统存储资源进行合理调度,提升系统架构整体的I/O性能。作为一种优选的实施方案,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。作为一种优选的实施方案,所述步骤1)中,光存储结构ODD在数据保存时长、密度、能耗、成本方面都具有很大优势,利用光存储结构ODD来存储冷数据,所述的冷数据也即是少读取、低利用数据,降低数据存储能耗,实现数据节能存储。作为一种优选的实施方案,所述步骤1)中,作业任务产生的数据可直接存储在其计算节点本地存储设备上,该部分存储资源无需网络传输,具有低延迟I/O,但需要注意的是,该部分存储资源存储容量较小,不适宜存储需大存储容量作业任务的结果数据。作为一种优选的实施方案,所述步骤1)中,基于分布式多级存储结构的存储资源管理系统,将超算环境内的所有物理存储设备整合为统一的存储资源,实现分布式集群存储资源的管理,通过统一的存储接口对外提供分布式文件系统高性能数据存取操作,存储设备相互之间通过网络连接在一起,统一的管理系统进行逻辑虚拟化管理、多链路冗余管理和状态监控、故障维护,共同构成多级存储资源。同时管理用户、用户组、作业对存储资源的访问请求,包括认证用户权限,管理用户存储空间,满足客户弹性存储需求等。作为一种优选的实施方案,所述步骤2)中特征化任务类型步骤如下:对超算环境下作业任务进行数据清洗、数据规范化、以及数据特征衍生与提取得到特征全集,对特征全集进行筛选,递归特征消除法得到最优特征子集。作为一种优选的实施方案,所述步骤3)中,从已有作业任务产生结果数据数据类型中动态学习得到数据分类模型,通过研究、改进、集成多种技术方法,得到对分布式及流动性数据分类的数据分类模型。作为一种优选的实施方案,所述步骤3)中,数据分类模型根据特征化作业任务属性,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,直至匹配到最优特征存储资源模块。作为一种优选的实施方案,所述步骤4)中,设计优化I/O方法,在I/O调度策略中动态多轮迭代I/O调度请求,使得I/O调度算法获得最优性能,结合多级存储设备的各级性能,分析上层应用对各级存储设备的I/O性能需求,分别为各级存储设备设置相应约束条件,提高各级存储的I/O性能。本专利技术与现有技术相比的有益效果:本专利技术采用高性能计算集群以及大数据存储服务集群,搭建用于超大规模药物数据的分级存储架构,根据每级存储结构的特征属性,决定每级存储结构存储的数据属性;针对所面本文档来自技高网...

【技术保护点】
1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:/n1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;/n2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;/n3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;/n4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。/n...

【技术特征摘要】
1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。


2.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。

【专利技术属性】
技术研发人员:刘昊杨雁博魏志强
申请(专利权)人:中国海洋大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1