一种转录组测序数据计算解读方法技术

技术编号:16301486 阅读:37 留言:0更新日期:2017-09-26 19:35
本发明专利技术公开了一种转录组测序数据计算解读方法,实施步骤包括:输入参考基因组数据、参考转录组数据和原始的测序样本数据并进行预处理;基于CPU调用FPGA上硬件实现的比对器进行比对,将可靠测序样本数据重新装配成转录本;基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考基因组数据及其比对结果进行转录本识别,对可靠测序样本数据和参考转录组数据及其比对结果进行转录本识别;基于CPU调用GPU和DSP进行可视化处理,通过CPU调用FPGA上硬件实现的深度学习模型,进行指定的数据挖掘和分析。本发明专利技术具有转录组测序数据计算解读快速实时、精准深入、通俗易懂、形式多样的优点。

A method of transcription sequence data calculation and interpretation

The invention discloses a method for calculating the interpretation of transcriptome sequencing data, the implementation steps include: input data, reference reference genome transcriptome sequencing data and the original data samples and pretreatment; compare the comparator CPU call FPGA based on hardware, the reliable sequencing sample data reassembled into the transcript; recognition CPU calls GPU on the programming of the transcriptional recognition of reliable sequencing sample data and reference genome data and comparison results based on the identification of transcriptional sequencing reliable sample data and reference data and the comparison results of the transcriptome; CPU calls GPU and DSP visualization based on learning model by implementing the CPU call FPGA on hardware the depth of data mining and analysis of the specified. The invention has the advantages of transcription, sequence, sequencing, data calculation and interpretation, fast, real-time, accurate, thorough, easy to understand and various forms.

【技术实现步骤摘要】
一种转录组测序数据计算解读方法
本专利技术涉及基因测序技术,具体涉及一种转录组测序数据计算解读方法。
技术介绍
近年来,随着下一代测序技术(NextGenerationSequence,NGS)的广泛应用,基因测序的成本迅速下降,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用。其中,基于NGS的转录组(transcriptome)测序是一个非常有应用价值的分支领域,受到广泛的关注。转录组广义上指某一生理条件下,某个物种或者特定细胞类型产生的所有转录本(transcripts)的集合,即各种核糖核酸(RibonucleicAcid,RNA),包括主要的信使RNA(messengerRNA,mRNA)、核糖体RNA(ribosomalRNA,rRNA)、转运RNA(transferRNA,tRNA),还有小分子RNA(smallRNA,sRNA),端体酶RNA(telomeraseRNA,teRNA),反义RNA(antisenseRNA,anRNA),以及被称为生命体中“暗物质”的非编码RNA(Non-codingRNA,ncRNA),如真核生物中的微RNA(MicroRNA,miRNA);狭义上指所有mRNA的集合。以下描述中,如果未加特殊说明,转录组缺省指代广义转录组。RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体,它是以脱氧核糖核酸(Deoxyribo-NucleicAcid,DNA)的一条链为模板,以碱基互补配对原则,转录而形成的一条单链,主要功能是实现遗传信息在蛋白质上的表达,是遗传信息传递过程中的桥梁。RNA的碱基主要有4种,即腺嘌呤(Adenine,A),鸟嘌呤(Guanine,G),胞嘧啶(Cytosine,C),和尿嘧啶(Uracil,U)。其中,尿嘧啶U取代了DNA中的胸腺嘧啶(Thymine,T)而成为RNA的特征碱基。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的直接描述,转录组是连接基因组遗传信息与蛋白质组生物功能的必然纽带,转录水平的调控是生物体最重要的调控方式。因此,转录组研究能够从整体水平研究基因功能以及基因结构,揭示特定的生物学过程以及疾病发生过程中的分子机理,对于生物研究、医疗诊断、药物研发等多个领域具有非常大的应用价值。转录组测序,也称为RNA测序(RNAsequence,RNA-seq)。目前使用NGS技术,能够在单核苷酸(mononucleotide)水平对任意物种及其特定组织或者器官在某一状态下的整体转录活动进行检测,全面快速地获得几乎所有转录本序列信息,为后续的研究打下坚实的基础。相对于传统的芯片杂交平台,基于NGS的转录组测序无需预先针对已知序列设计探针,即可对任意物种及其特定组织或器官在某一状态下的整体转录活动进行检测,而且不存在荧光模拟信号带来的交叉反应和背景噪音问题,能够提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。基于NGS的转录组测序的数据处理流程包括数据计算和数据解读两大步骤,其中的数据计算步骤完成参考基因组和参考转录组的预处理和原始测序数据的修剪、比对、去重等计算任务,以便数据解读时使用;数据解读步骤对数据计算处理后的数据在生物学、医学、健康保健等领域的科学含义进行分析、揭示和解释。目前,基于NGS的转录组测序技术在应用上存在两个方面的瓶颈:一个瓶颈是测序数据产出能力远远大于测序数据处理能力。例如,在基于NGS的转录组测序中比较常用的一个测序数据计算解读协议流程中,参考人类全基因组数据,处理12个样本数据,每个样本数据包含有856K左右、读长为100碱基对(basepair,bp)的双端RNA-seq测序片段(reads),使用一台8核、带8GBRAM、工作主频为2.1GHz的AMDOpteron6172服务器,进行整个计算解读流程中的一个任务——比对(alignment),就耗时大约12.5小时,而Illumina公司的HiSeq4000测序仪在5个小时之内能够产出200M个读长为300bp的reads。因此,一方面,测序生成的原始数据每年3到5倍的增加速度已经远超摩尔定律,而测序数据的计算解读又是高输入/输出密集和高计算密集型任务,对测序数据进行实时的、准确的计算解读和传送变得非常困难,面临着巨大的挑战。另一方面,目前典型的测序数据计算解读方法仍然主要是依托高性能的中央处理器(CentralProcessingUnit,简称CPU),运用基于多线程技术的软件进行处理。但是,在保证准确性的前提下,它能获得的计算解读加速性能仍然无法满足上述挑战的需求。所以,这种方法已经缺乏持续性。另一个瓶颈是测序数据解读的深度、广度无法满足科研人员的需求,与此同时其可读性又无法满足普通大众的需求。目前测序数据解读的典型方法是基于一个参考基因组,然而,当前使用的参考基因组本身就是基于有限的样本,既不足以代表整个相关物种的多样性,又不完备,因此在数据计算解读时会导致偏差,而且缺乏与其它生物、医学信息的广泛地、深度交叉分析,难以满足专业科研人员深入研究的需求。此外,测序数据解读还基本停留在专业领域,面向非专业的大众,又缺乏可读性,即缺乏对测序数据直接的生物意义和间接的健康影响的通俗易懂、形式多样的解读。目前,信息处理领域常见的处理器类型有中央处理器(CentralProcessingUnit,简称CPU)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)、图形处理器(GraphicsProcessingUnit,简称GPU)和数字信号处理器(DigitalSignalProcessor,简称DSP)。高性能CPU通常都包括多个处理器核(ProcessorCore),从硬件上支持多线程,但是其设计目标还是面向通用应用程序,而相对于特殊的计算,通用应用程序的并行性较小,需要较复杂的控制和较低的性能目标。因此,CPU片上的硬件资源主要还是用于实现复杂的控制而不是计算,没有为特殊功能包含专门的硬件,能够支持的计算并行度不高。FPGA是一种半定制电路,优点有:基于FPGA进行系统开发,设计周期短、开发费用低;功耗低;生产后可重新修改配置,设计灵活性高,设计风险小。缺点是:实现同样的功能,FPGA一般来说比专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)的速度要慢,比ASIC电路面积要大。随着技术的发展和演进,FPGA向更高密度、更大容量、更低功耗和集成更多硬核知识产权(IntellectualProperty,IP)的方向发展,FPGA的缺点在缩小,而优点在放大。相比于CPU,FPGA可以用硬件描述语言来定制实现、修改和增加并行计算。GPU最初是一种专门用于图像处理的微处理器,能够从硬件上支持纹理映射和多边形着色等图形计算基本任务。由于图形学计算涉及一些通用数学计算,比如矩阵和向量运算,而GPU拥有高度并行化的架构,因此,随着相关软硬件技术的发展,GPU计算技术日益兴起,即GPU不再局限于图形处理,还被开发用于线性代数、信号处理、数值仿真等并行计算,可以提供数十倍乃本文档来自技高网...
一种转录组测序数据计算解读方法

【技术保护点】
一种转录组测序数据计算解读方法,其特征在于实施步骤包括:1)输入参考基因组数据、参考转录组数据和原始的测序样本数据,根据预设选择通过CPU调用基于FPGA上硬件实现的索引生成器对参考基因组数据、参考转录组数据进行预处理,对原始的测序样本数据进行预处理得到可靠测序样本数据;2)选择执行基于CPU调用FPGA上硬件实现的比对器执行将可靠测序样本数据和参考基因组数据进行比对、将可靠测序样本数据和参考转录组数据进行比对两种任务;3)基于CPU调用FPGA上硬件实现的装配器将可靠测序样本数据重新装配成转录本,选择执行基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考基因组数据及其比对结果进行转录本识别、基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考转录组数据及其比对结果进行转录本识别;4)基于CPU调用GPU和DSP将转录组的识别或重新装配的处理结果进行可视化处理,通过CPU调用FPGA上硬件实现的深度学习模型在可视化处理得到的结果的基础上进行指定的数据挖掘和分析。

【技术特征摘要】
1.一种转录组测序数据计算解读方法,其特征在于实施步骤包括:1)输入参考基因组数据、参考转录组数据和原始的测序样本数据,根据预设选择通过CPU调用基于FPGA上硬件实现的索引生成器对参考基因组数据、参考转录组数据进行预处理,对原始的测序样本数据进行预处理得到可靠测序样本数据;2)选择执行基于CPU调用FPGA上硬件实现的比对器执行将可靠测序样本数据和参考基因组数据进行比对、将可靠测序样本数据和参考转录组数据进行比对两种任务;3)基于CPU调用FPGA上硬件实现的装配器将可靠测序样本数据重新装配成转录本,选择执行基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考基因组数据及其比对结果进行转录本识别、基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考转录组数据及其比对结果进行转录本识别;4)基于CPU调用GPU和DSP将转录组的识别或重新装配的处理结果进行可视化处理,通过CPU调用FPGA上硬件实现的深度学习模型在可视化处理得到的结果的基础上进行指定的数据挖掘和分析。2.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤1)中根据预设选择对参考基因组数据、参考转录组数据进行预处理时,如果需要预处理参考基因组数据,则对参考基因组数据进行预处理的详细步骤包括:读取参考基因组数据,并通过CPU调用基于FPGA上硬件实现的索引生成器为参考基因组数据生成用于后续比对任务的索引,得到带有索引的参考基因组数据;步骤1)中根据预设选择对参考基因组数据、参考转录组数据进行预处理时,如果需要预处理参考转录组数据,则对参考转录组数据进行预处理的详细步骤包括:读取参考转录组数据,并通过CPU调用基于FPGA上硬件实现的索引生成器为参考转录组数据生成用于后续比对任务的索引,得到带有索引的参考转录组数据;步骤1)中对原始的测序样本数据进行预处理的详细步骤包括:读取原始的测序样本数据,所述原始的测序样本数据进行数据质量控制,得到可靠测序样本数据。3.根据权利要求2所述的转录组测序数据计算解读方法,其特征在于,所述数据质量控制包括移除reads上的接头序列、低质量序列、污染物和人造物。4.根据权利要求3所述的转录组测序数据计算解读方法,其特征在于,步骤1)中对参考基因组数据进行预处理、对参考转录组数据进行预处理、对原始的测序样本数据进行预处理分别采用不同的线程或进程并发执行。5.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤2)中将可靠测序样本数据和参考基因组数据进行比对的详细步骤包括:2.1A)读取可靠测序样本数据、读取预处理后的参考基因组数据及其索引;2.2A)根据参考基因组数据的索引,基于CPU调用FPGA上硬件实现的比对器将可靠测序样本数据和参考基因组数据进行比对,建立可靠测序样本数据和参考基因组数据之间的映射关系;2.3A)根据比对结果移除重复的reads;2.4A)输出可靠测序样本数据和参考基因组数据的比对结果信息。6.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤2)中将可靠测序样本数据和参考转录组数据进行比对的详细步骤包括:2.1B)读取可靠测序样本数据、读取预处理后的参考转录组数据及其索引;2.2B)根据参考转录组数据的索引,基于CPU调用FPGA上硬件实现的比对器将可靠测序样本数据和参考转录组数据进行比对,建立可靠测序样本数据和参考转录组数据之间的映射关系;2.3B)根据比对结果移除重复的reads;2.4B)输出可靠测序样本数据和参考转录组数据的比对结果信息。7.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤3)中将可靠测序样本数据重新装配成转录本的详细步骤包括...

【专利技术属性】
技术研发人员:宋卓刘蓬侠李根
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1