【技术实现步骤摘要】
一种生物信息深度挖掘分析系统的架构构建方法
本专利技术涉及生物信息学
,尤其涉及一种生物信息深度挖掘分析系统的架构构建方法,是一种一站式生物信息数据挖掘分析方法。
技术介绍
高通量测序技术与云计算、人工智能、物联网等新兴应用的快速发展使得生物信息数据呈现爆发式的增长,产生了无法估量的动物基因型数据、表型数据、环境数据、育种实验数据、文献数据等。而当前畜牧业动物遗传育种研究中科研条件、专业领域、自身能力的局限性,导致这些数据的挖掘分析十分有限,主要表现在以下几个方面:(1)高通量基因组学分析及其相关生物信息分析软件的部署使用,对高性能计算环境的要求较高,大部分研究团队的平台架构、计算能力、计算网络等均无法满足其需求。(2)动物遗传育种数据涉及动物的基因序列、生物性状、气候、养殖区域等。这些原始数据未经过加工,存在数据项缺失、数据录入错误、超出值域、空值未处理、噪音数据过多等问题,在使用前需要进一步加工处理。同时这些数据通常由不同学科不同领域的团队产生,分布在不同的数据库中,具有多源异构的特点:量纲不同,尺度不同,预处理方法不同,无法直接进行关联分析。于是基于此进行数据治理便成为动物多组学研究中必不可少的一个环节,而数据治理作为一项专业性很强的工作,需要在掌握相关理论方法和工具的基础上,对大规模数据进行加工和质量保证,并构建可用于直接进行主题分析的数据仓库。(3)对于动物多组学数据的挖掘分析,合适的生物信息学工具是关键。而现有的挖掘分析软件通常不易部署升级且使用门槛很高,不仅需要高性能计算环 ...
【技术保护点】
1.一种生物信息深度挖掘分析系统的架构构建方法,其特征在于:包括如下步骤:/nS1:构建高通量计算一体化集群网络环境;/nS2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;/nS3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;/nS4:基于Spark Streaming构建生物信息挖掘分析任务的调度和处理模型。/n
【技术特征摘要】
1.一种生物信息深度挖掘分析系统的架构构建方法,其特征在于:包括如下步骤:
S1:构建高通量计算一体化集群网络环境;
S2:集成生物信息工具,形成生物信息挖掘分析方法、工具和流程调用库;
S3:基于PiFlow框架构建面向生物信息深度挖掘分析的图形化工作流模型;
S4:基于SparkStreaming构建生物信息挖掘分析任务的调度和处理模型。
2.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群网络包括管理网络、计算网络和100Gb超算网络;所述管理网络用于服务器的连接和监管;所述计算网络用于需要分布式计算的作业场景中的服务器连接;所述100Gb超算网络用于需要高吞吐量计算和单个作业数据容量过大的作业场景中的服务器连接。
3.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述高通量计算一体化集群还包括集群管理节点、分析节点、存储节点、深度学习计算节点和高通量数据备份平台、可达到计算性能为5.376Tflops的CPU计算资源和计算性能(双精度)为8.2TFlopsTeslaV100s的GPU计算资源。
4.如权利要求1所述的生物信息深度挖掘分析系统的架构构建方法,其特征在于:所述生物信息挖掘分析方法调用库集成有生物信息数据分析软件、机器学习、深度学习的多种语言版本的程序包调用接口;所述生物信息数据分析软件包括:FASTQC、Browsedata、FASTX-Toolkit、Trinity、FPKM、RFKM、BLAST、Tuxedo、TringTie、Boxplot、Heatmap、Volcanoplot、Tablet、IGV、Blast、HMMER、TransDecoder、Omega、RAxML、MEGA、OGDraw_Config_10、exonerate-2.2.0-x86_64、orthomclSoftware-v2.0.9、prottest-3.4-20140123、genemark_suite_linux_64、mireap-master、fasta36-36.3.8、PBSuite_15.8.24、HGAP-3.0-master、r8s1.81、WoLFPSort-master、hisat2-2.1.0、sunloginclient、FastQC、miRDeep_star_v38、BEASTv1.10.4、sspace_basic-master、ncbi-blast-2.9.0、paml4.9i、OrthoFinder-2.3.3、mafft-7.429-with-extensions、abyss-master、sratoolkit.2.10.0-centos_linux64、trinityrnaseq-devel、bowtie-1.2.3、bwa-0.7.17、samtools-1.9、bowtie2-2.3.5.1-linux-x86_64、muscle3.8.3...
【专利技术属性】
技术研发人员:王婷,刘娟,崔运鹏,石运来,张晨,霍梦佳,赵艳博,
申请(专利权)人:中国农业科学院农业信息研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。