The invention discloses a method for calculating the interpretation of transcriptome sequencing data, the implementation steps include: input data, reference reference genome transcriptome sequencing data and the original data samples and pretreatment; compare the comparator CPU call FPGA based on hardware, the reliable sequencing sample data reassembled into the transcript; recognition CPU calls GPU on the programming of the transcriptional recognition of reliable sequencing sample data and reference genome data and comparison results based on the identification of transcriptional sequencing reliable sample data and reference data and the comparison results of the transcriptome; CPU calls GPU and DSP visualization based on learning model by implementing the CPU call FPGA on hardware the depth of data mining and analysis of the specified. The invention has the advantages of transcription, sequence, sequencing, data calculation and interpretation, fast, real-time, accurate, thorough, easy to understand and various forms.
【技术实现步骤摘要】
一种转录组测序数据计算解读方法
本专利技术涉及基因测序技术,具体涉及一种转录组测序数据计算解读方法。
技术介绍
近年来,随着下一代测序技术(NextGenerationSequence,NGS)的广泛应用,基因测序的成本迅速下降,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用。其中,基于NGS的转录组(transcriptome)测序是一个非常有应用价值的分支领域,受到广泛的关注。转录组广义上指某一生理条件下,某个物种或者特定细胞类型产生的所有转录本(transcripts)的集合,即各种核糖核酸(RibonucleicAcid,RNA),包括主要的信使RNA(messengerRNA,mRNA)、核糖体RNA(ribosomalRNA,rRNA)、转运RNA(transferRNA,tRNA),还有小分子RNA(smallRNA,sRNA),端体酶RNA(telomeraseRNA,teRNA),反义RNA(antisenseRNA,anRNA),以及被称为生命体中“暗物质”的非编码RNA(Non-codingRNA,ncRNA),如真核生物中的微RNA(MicroRNA,miRNA);狭义上指所有mRNA的集合。以下描述中,如果未加特殊说明,转录组缺省指代广义转录组。RNA是存在于生物细胞以及部分病毒、类病毒中的遗传信息载体,它是以脱氧核糖核酸(Deoxyribo-NucleicAcid,DNA)的一条链为模板,以碱基互补配对原则,转录而形成的一条单链,主要功能是实现遗传信息在蛋白质上的表达,是遗传信息传递过程中的桥梁。 ...
【技术保护点】
一种转录组测序数据计算解读方法,其特征在于实施步骤包括:1)输入参考基因组数据、参考转录组数据和原始的测序样本数据,根据预设选择通过CPU调用基于FPGA上硬件实现的索引生成器对参考基因组数据、参考转录组数据进行预处理,对原始的测序样本数据进行预处理得到可靠测序样本数据;2)选择执行基于CPU调用FPGA上硬件实现的比对器执行将可靠测序样本数据和参考基因组数据进行比对、将可靠测序样本数据和参考转录组数据进行比对两种任务;3)基于CPU调用FPGA上硬件实现的装配器将可靠测序样本数据重新装配成转录本,选择执行基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考基因组数据及其比对结果进行转录本识别、基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考转录组数据及其比对结果进行转录本识别;4)基于CPU调用GPU和DSP将转录组的识别或重新装配的处理结果进行可视化处理,通过CPU调用FPGA上硬件实现的深度学习模型在可视化处理得到的结果的基础上进行指定的数据挖掘和分析。
【技术特征摘要】
1.一种转录组测序数据计算解读方法,其特征在于实施步骤包括:1)输入参考基因组数据、参考转录组数据和原始的测序样本数据,根据预设选择通过CPU调用基于FPGA上硬件实现的索引生成器对参考基因组数据、参考转录组数据进行预处理,对原始的测序样本数据进行预处理得到可靠测序样本数据;2)选择执行基于CPU调用FPGA上硬件实现的比对器执行将可靠测序样本数据和参考基因组数据进行比对、将可靠测序样本数据和参考转录组数据进行比对两种任务;3)基于CPU调用FPGA上硬件实现的装配器将可靠测序样本数据重新装配成转录本,选择执行基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考基因组数据及其比对结果进行转录本识别、基于CPU调用GPU上编程实现的识别器对可靠测序样本数据和参考转录组数据及其比对结果进行转录本识别;4)基于CPU调用GPU和DSP将转录组的识别或重新装配的处理结果进行可视化处理,通过CPU调用FPGA上硬件实现的深度学习模型在可视化处理得到的结果的基础上进行指定的数据挖掘和分析。2.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤1)中根据预设选择对参考基因组数据、参考转录组数据进行预处理时,如果需要预处理参考基因组数据,则对参考基因组数据进行预处理的详细步骤包括:读取参考基因组数据,并通过CPU调用基于FPGA上硬件实现的索引生成器为参考基因组数据生成用于后续比对任务的索引,得到带有索引的参考基因组数据;步骤1)中根据预设选择对参考基因组数据、参考转录组数据进行预处理时,如果需要预处理参考转录组数据,则对参考转录组数据进行预处理的详细步骤包括:读取参考转录组数据,并通过CPU调用基于FPGA上硬件实现的索引生成器为参考转录组数据生成用于后续比对任务的索引,得到带有索引的参考转录组数据;步骤1)中对原始的测序样本数据进行预处理的详细步骤包括:读取原始的测序样本数据,所述原始的测序样本数据进行数据质量控制,得到可靠测序样本数据。3.根据权利要求2所述的转录组测序数据计算解读方法,其特征在于,所述数据质量控制包括移除reads上的接头序列、低质量序列、污染物和人造物。4.根据权利要求3所述的转录组测序数据计算解读方法,其特征在于,步骤1)中对参考基因组数据进行预处理、对参考转录组数据进行预处理、对原始的测序样本数据进行预处理分别采用不同的线程或进程并发执行。5.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤2)中将可靠测序样本数据和参考基因组数据进行比对的详细步骤包括:2.1A)读取可靠测序样本数据、读取预处理后的参考基因组数据及其索引;2.2A)根据参考基因组数据的索引,基于CPU调用FPGA上硬件实现的比对器将可靠测序样本数据和参考基因组数据进行比对,建立可靠测序样本数据和参考基因组数据之间的映射关系;2.3A)根据比对结果移除重复的reads;2.4A)输出可靠测序样本数据和参考基因组数据的比对结果信息。6.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤2)中将可靠测序样本数据和参考转录组数据进行比对的详细步骤包括:2.1B)读取可靠测序样本数据、读取预处理后的参考转录组数据及其索引;2.2B)根据参考转录组数据的索引,基于CPU调用FPGA上硬件实现的比对器将可靠测序样本数据和参考转录组数据进行比对,建立可靠测序样本数据和参考转录组数据之间的映射关系;2.3B)根据比对结果移除重复的reads;2.4B)输出可靠测序样本数据和参考转录组数据的比对结果信息。7.根据权利要求1所述的转录组测序数据计算解读方法,其特征在于,步骤3)中将可靠测序样本数据重新装配成转录本的详细步骤包括...
【专利技术属性】
技术研发人员:宋卓,刘蓬侠,李根,
申请(专利权)人:人和未来生物科技长沙有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。