【技术实现步骤摘要】
一种用于超大规模药物数据的分级存储优化方法
本专利技术属于超大规模数据存储管理的
,特别是指一种用于计算机辅助药物设计过程中产生的超大规模、多源、异构药物数据的分级存储优化方法。
技术介绍
计算机辅助药物设计全过程包括虚拟药物筛选、先导优化、靶标预测、动力学模拟等,全过程涉及药物数据或中间结果数据及结果数据具有规模超大、结构多样、以及阶段过程中各种数据之间具有时间关联性(前一阶段的输出为后一阶段的输入)等特点。针对上述过程药物数据特点,设计多级存储资源管理系统,并通过一系列特征化操作、数据分类模型、I/O调度策略优化,以提高超大规模药物数据的I/O效率。传统高性能计算机系统的处理器性能提升速度飞快,相较而言,存储设备的访问速度性能提升则较为缓慢,计算、存储发展不匹配导致两者间存储墙的问题越来越显著,而存储系统的性能瓶颈一般在于I/O,但单台设备每秒I/O有限,且整个集群性能在达到一定程度后提升效果缓慢,系统复用性极低,严重影响系统的总体性能。针对海洋药物研发设计全过程涉及药物数据的规模庞大、结构异构多样、阶段关 ...
【技术保护点】
1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:/n1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些 ...
【技术特征摘要】 【专利技术属性】
1.一种用于超大规模药物数据的分级存储优化方法,其特征在于所述方法包括以下步骤:
1)针对超算集群环境的异质性,构建基于分布式多级存储结构的集群存储资源管理系统,将特定的集群存储资源分配给特定的用户、用户组或作业,其中,集群存储资源包括存储集群和计算集群,整个底层存储结构包括四级,分别为:计算集群主存储器,也即是内存储器;以HDD+SSD为主的计算机集群辅助存储器,也即是外存储器;搭建在存储集群上的分布式大数据服务器集群HDD+SSD;光存储结构ODD;基于底层集群存储资源构建存储资源管理系统综合管理调度集群存储资源,存储资源以map、reduce任务槽形式表示,根据一些事先对执行map和reduce任务所需存储资源的理解,对给定集群主机上任务槽进行配置,在框架层实现并行;
2)根据超算环境下作业运行对资源需求的独特属性,对作业进行特征化处理,划分作业类别,智能化调度作业到作业所需数据块的服务器上;经过对已知作业任务的属性的特征化处理,特征化任务类型分别如下:I/O密集型任务、数据存储密集型任务、数据暂存密集型任务、访问性能要求型任务、带宽性能要求型任务、延迟性能要求型任务;利用已划分特征的任务类别,对提交的作业任务进行智能化分类;存储资源管理系统对已划分属性的超算任务进行智能化分级存储分配,根据已知作业任务I/O特征,匹配作业任务计算所需数据块的存储级别进行计算;
3)设计数据分类模型,应用该模型对计算机辅助药物设计过程中产生的海量结果数据进行映射存储,并将产生数据分割成数据块分别存储在相应存储级别的服务器上;数据分类模型针对作业任务产生结果数据特征匹配多级存储结构,以最优特征匹配为目标值,遍历整个分级存储系统的各级存储,并存储到所匹配的最优存储模块;
4)针对各级存储结构及其特征属性设计相应的I/O方法,针对系统中各级存储资源的状态特性,动态调度I/O请求,优化各级存储结构I/O调度策略,提高各级存储的I/O性能。
2.根据权利要求1所述的一种用于超大规模药物数据的分级存储优化方法,所述步骤1)中,在存储集群上搭建分布式可扩展数据库管理系统;搭建分布式数据库管理系统采用非关系型数据库MongoDB,采用哈希分片的数据分片策略,多节点间的自动负载均衡,实现对计算机辅助药物设计过程中涉及的海量异构药物数据分布式存储以及针对海量异构药物数据基于分布式数据集群的衍生服务平台开发。
技术研发人员:刘昊,杨雁博,魏志强,
申请(专利权)人:中国海洋大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。