一种生物信息深度挖掘分析系统的架构构建方法技术方案

技术编号:26893070 阅读:63 留言:0更新日期:2020-12-29 16:14
本发明专利技术公开了一种生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:S1:构建高通量计算一体化集群网络环境;S2:集成生物信息工具,形成生物信息挖掘分析方法调用库和生物信息挖掘分析流程模板;S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;S4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型本发明专利技术具有提高多个挖掘分析工具之间的数据交换性能,降低挖掘分析过程的复杂程度,减少挖掘分析任务尤其是多个任务并发场景下的执行时间等优点。

【技术实现步骤摘要】
一种生物信息深度挖掘分析系统的架构构建方法
本专利技术涉及生物信息学
,尤其涉及一种生物信息深度挖掘分析系统的架构构建方法,是一种一站式生物信息数据挖掘分析方法。
技术介绍
高通量测序技术与云计算、人工智能、物联网等新兴应用的快速发展使得生物信息数据呈现爆发式的增长,产生了无法估量的动物基因型数据、表型数据、环境数据、育种实验数据、文献数据等。而当前畜牧业动物遗传育种研究中科研条件、专业领域、自身能力的局限性,导致这些数据的挖掘分析十分有限,主要表现在以下几个方面:(1)高通量基因组学分析及其相关生物信息分析软件的部署使用,对高性能计算环境的要求较高,大部分研究团队的平台架构、计算能力、计算网络等均无法满足其需求。(2)动物遗传育种数据涉及动物的基因序列、生物性状、气候、养殖区域等。这些原始数据未经过加工,存在数据项缺失、数据录入错误、超出值域、空值未处理、噪音数据过多等问题,在使用前需要进一步加工处理。同时这些数据通常由不同学科不同领域的团队产生,分布在不同的数据库中,具有多源异构的特点:量纲不同,尺度不同,预处理方法不同,无法直接进行关联分析。于是基于此进行数据治理便成为动物多组学研究中必不可少的一个环节,而数据治理作为一项专业性很强的工作,需要在掌握相关理论方法和工具的基础上,对大规模数据进行加工和质量保证,并构建可用于直接进行主题分析的数据仓库。(3)对于动物多组学数据的挖掘分析,合适的生物信息学工具是关键。而现有的挖掘分析软件通常不易部署升级且使用门槛很高,不仅需要高性能计算环境,还需要计算机科学领域的知识。这些工作于任何一个专业动物遗传育种研究团队都是巨大的挑战,且多个团队同时进行,容易导致研究工作的重复和基础设施建设的冗余。所以,畜牧业动物遗传育种研究亟需为多个团队构建统一多组学数据挖掘分析环境,以便让更多的研究人员可以低学习成本且高效地挖掘分析动物遗传育种相关的数据资源,从而发挥数据的最大价值。
技术实现思路
本专利技术的目的是针对上述问题,提供一种生物信息深度挖掘分析系统的架构构建方法,该架构设计方法解决了当前生物信息深度挖掘分析中存在的计算性能低下、分析工具难以使用、分析过程复杂、分析过程缓慢等问题,构建一种生物信息深度挖掘分析系统。为了实现上述目的,本专利技术的技术方案是:一种生物信息深度挖掘分析系统的架构构建方法,包括如下步骤:S1:构建高通量计算一体化集群网络环境;S2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;S4:基于SparkStreaming构建生物信息挖掘分析任务的调度和处理模型。作为对上述技术方案的改进,所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络;所述管理网络用于服务器的连接和监管;所述计算网络用于需要分布式计算的作业场景中的服务器连接;所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。作为对上述技术方案的改进,所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlopsTeslaV100s的GPU计算资源。作为对上述技术方案的改进,所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口;所述生物信息数据分析软件包括:FASTQC、Browsedata、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、TringTie、Boxplot、Heatmap、Volcanoplot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.31、hmmer-3.2.1、R-3.6.1、Gblocks_0.91b、MUMmer3.23、mauve_snapshot_2015-02-13、SOAPdenovo2-master、GapCloser-v1.12-r6、cmake-3.15.2、allpathslg-52488、jellyfish-2.3.0、DBG2OLC_Linux、canu-master、idba-master、SPAdes-3.13.1-Linux、jmodeltest2-master、tree-puzzle-5.3.rc16、FastTree、phyml-master、standard-RAxML-master、tRNAscan-SE-2.0、infernal-1.1.2-linux-intel-gcc、squid-1.9g、randfold-master、RFsrc、phobius、ViennaRNA-2.4.14、Seurat-2.2、argtable2-13、clustal-omega-1.2.4、Treefinder、TargetFinder-master、miRPlant_V6、trimmomatic-master、augustus.2.5.5、gatk-4.1.4.0。作为对上述技术方案的改进,所述生物信息挖掘分析流程模板包括全基因组重测序分析流程、外显子分析流程、基因组从头测序分析流程、转录组测序分析流程、小RNA分析流程、数字基因表达谱测序数据分析流程、Chip-seq数据分析流程和甲基化数据分析流程。作为对上述技术方案的改进,所述图形化工作流模型基于PiFlow构建,通过流程解析和参数验证等一系列流程提供低学习成本、分析过程可定制、分析模型可迭代、分析结果可重用的挖掘分析服务模式,其中的参数根据所选择的工具设置。作为对上述技术方案的改进,所述调度和处理模本文档来自技高网
...

【技术保护点】
1.一种生物信息深度挖掘分析系统的架构构建方法,其特征在于:包括如下步骤:/nS1:构建高通量计算一体化集群网络环境;/nS2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;/nS3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;/nS4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。/n

【技术特征摘要】
1.一种生物信息深度挖掘分析系统的架构构建方法,其特征在于:包括如下步骤:
S1:构建高通量计算一体化集群网络环境;
S2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;
S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;
S4:基于SparkStreaming构建生物信息挖掘分析任务的调度和处理模型。


2.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络;所述管理网络用于服务器的连接和监管;所述计算网络用于需要分布式计算的作业场景中的服务器连接;所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。


3.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlopsTeslaV100s的GPU计算资源。


4.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口;所述生物信息数据分析软件包括:FASTQC、Browsedata、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、TringTie、Boxplot、Heatmap、Volcanoplot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.3...

【专利技术属性】
技术研发人员:王婷刘娟崔运鹏石运来张晨霍梦佳赵艳博
申请(专利权)人:中国农业科学院农业信息研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1