一种DNA甲基化测序数据计算解读方法技术

技术编号:16428105 阅读:52 留言:0更新日期:2017-10-21 23:15
本发明专利技术公开了一种DNA甲基化测序数据计算解读方法,实施步骤包括:对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理;通过CPU调用FPGA上硬件实现的比对器将预处理后的测序样本数据和参考基因组进行比对;通过CPU调用GPU上编程实现的识别器、FPGA上硬件实现的深度学习模型,基于比对结果进行甲基化识别;对结果数据进行可视化,通过CPU调用FPGA上硬件实现的深度学习模型对结果数据反映的甲基化功能进行挖掘和分析,且CPU调用GPU上编程处理分析挖掘相关的视频、动画和显示任务,CPU调用DSP上编程处理和分析挖掘相关的图形、图像和音频任务。本发明专利技术具有快速实时、精准深入、通俗易懂、形式多样的优点。

A computational interpretation method for sequencing data of DNA methylation

The invention discloses a method for calculating the interpretation of DNA methylation sequencing data, the implementation steps include: for data reference genome DNA methylation sequencing and sequencing of the original sample data is preprocessed by comparison; implement the CPU call the FPGA on the hardware will be pre processed for sequencing data and reference genome for comparison study; the model is realized by recognizer, CPU calls GPU programming on FPGA hardware depth comparison results for methylation recognition based on; the results are visualized data, through CPU call the FPGA on the hardware of the deep learning methylation function model of the results reflected by the data mining and analysis, and CPU calls on GPU programming analysis of mining related video, animation and display tasks, CPU calls the DSP programming on the processing and analysis of mining graphics, images and audio related Task. The invention has the advantages of fast, real-time, accurate, thorough, easy to understand and various forms.

【技术实现步骤摘要】
一种DNA甲基化测序数据计算解读方法
本专利技术涉及基因测序技术,具体涉及一种DNA甲基化测序数据计算解读方法。
技术介绍
近年来,随着下一代测序技术(NextGenerationSequence,NGS)的广泛应用,基因测序的成本迅速下降,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用。其中,基于NGS的脱氧核糖核酸(Deoxyribo-NucleicAcid,DNA)甲基化测序是一个非常有应用价值的分支领域,受到广泛的关注。甲基化(Methylation)是指从活性甲基化合物(如S-腺苷基甲硫氨酸)上将甲基催化转移到其他化合物的过程。甲基化是表观遗传学(epigenetics)的重要研究内容之一。最常见的甲基化修饰有DNA甲基化和组蛋白甲基化。脊椎动物的DNA甲基化一般发生在CpG位点(sites),即DNA序列中的胞嘧啶(Cytosine)-磷酸(Phosphoricacid)-鸟嘌呤(Guanine)位点,经DNA甲基转移酶催化胞嘧啶转化为5-甲基胞嘧啶。人类基因中约80%-90%的CpG位点已被甲基化,1%-2%人类基因组是CpG群,并且CpG甲基化与转录活性成反比。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,能关闭某些基因的活性,去甲基化则诱导了基因的重新活化和表达。例如,已有的研究表明,人的DNA甲基化与癌症、衰老、老年痴呆等许多疾病密切相关,异常的甲基化往往是许多疾病的起因。因此,DNA甲基化检测对于生物研究、医疗诊断、法医生物学等多个领域具有非常大的应用价值。近年来,科学家们将传统的甲基化检测技术与目标基因组捕获技术以及NGS高通量测序技术相结合,定量测定人及其它物种基因组中甲基化的技术已经进入实用阶段。目前最为常用的是亚硫酸盐测序法(Bisulfitesequencing,BS-Seq),即用亚硫酸盐处理基因组DNA,则未发生甲基化的胞嘧啶被转化为尿嘧啶(Uracil),而甲基化的胞嘧啶不变。随后设计BSP(BisulfitesequencingPCR)引物进行聚合酶链式反应(PolymeraseChainReaction,PCR),在扩增过程中尿嘧啶全部转化为胸腺嘧啶(Thymine),最后对PCR产物进行测序就可以判断CpG位点是否发生甲基化。基于NGS的DNA甲基化测序的数据处理流程包括数据计算和数据解读两大步骤,其中数据计算步骤完成参考基因组的预处理和原始测序数据的去伪、比对、去重等计算任务,以便数据解读时使用;数据解读步骤对数据计算处理后的数据在生物学、医学、健康保健等领域的科学含义进行分析、揭示和解释。目前,基于NGS的DNA甲基化测序技术在应用上存在两个方面的瓶颈:一个瓶颈是测序数据产出能力远远大于测序数据处理能力。例如,在基于NGS的DNA甲基化测序中比较常用的测序数据计算解读软件Methy-Pipe,对典型的、包含300M个读长为75碱基对(basepair,bp)的短测序片段(reads)的单样本数据,在12核Intel至强(Xeon)处理器上进行整个计算解读流程中的一个任务——比对(alignment),就耗时大约5小时,而Illumina公司的HiSeq4000测序仪在5个小时之内能够产出200M个读长为300bp的reads。因此,一方面,测序生成的原始数据每年3到5倍的增加速度已经远超摩尔定律,而测序数据的计算解读又是高输入/输出密集和高计算密集型任务,对测序数据进行实时的、准确的计算解读和传送变得非常困难,面临着巨大的挑战。另一方面,目前典型的测序数据计算解读方法仍然主要是依托高性能的中央处理器(CentralProcessingUnit,简称CPU),运用基于多线程技术的软件进行处理。但是,在保证准确性的前提下,它能获得的计算解读加速性能仍然无法满足上述挑战的需求。所以,这种方法已经缺乏持续性。另一个瓶颈是测序数据解读的深度、广度无法满足科研人员的需求,与此同时其可读性又无法满足普通大众的需求。目前测序数据解读的典型方法是基于一个参考基因组,然而,当前使用的参考基因组本身就是基于有限的样本,既不足以代表整个相关物种的多样性,又不完备,因此在数据计算解读时会导致偏差,而且缺乏与其它生物、医学信息的广泛地、深度交叉分析,难以满足专业科研人员深入研究的需求。此外,测序数据解读还基本停留在专业领域,面向非专业的大众,又缺乏可读性,即缺乏对测序数据直接的生物意义和间接的健康影响的通俗易懂、形式多样的解读。目前,信息处理领域常见的处理器类型有中央处理器(CentralProcessingUnit,简称CPU)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)、图形处理器(GraphicsProcessingUnit,简称GPU)和数字信号处理器(DigitalSignalProcessor,简称DSP)。高性能CPU通常都包括多个处理器核(ProcessorCore),从硬件上支持多线程,但是其设计目标还是面向通用应用程序,而相对于特殊的计算,通用应用程序的并行性较小,需要较复杂的控制和较低的性能目标。因此,CPU片上的硬件资源主要还是用于实现复杂的控制而不是计算,没有为特殊功能包含专门的硬件,能够支持的计算并行度不高。FPGA是一种半定制电路,优点有:基于FPGA进行系统开发,设计周期短、开发费用低;功耗低;生产后可重新修改配置,设计灵活性高,设计风险小。缺点是:实现同样的功能,FPGA一般来说比专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)的速度要慢,比ASIC电路面积要大。随着技术的发展和演进,FPGA向更高密度、更大容量、更低功耗和集成更多硬核知识产权(IntellectualProperty,IP)的方向发展,FPGA的缺点在缩小,而优点在放大。相比于CPU,FPGA可以用硬件描述语言来定制实现、修改和增加并行计算。GPU最初是一种专门用于图像处理的微处理器,能够从硬件上支持纹理映射和多边形着色等图形计算基本任务。由于图形学计算涉及一些通用数学计算,比如矩阵和向量运算,而GPU拥有高度并行化的架构,因此,随着相关软硬件技术的发展,GPU计算技术日益兴起,即GPU不再局限于图形处理,还被开发用于线性代数、信号处理、数值仿真等并行计算,可以提供数十倍乃至于上百倍于CPU的性能。但是目前的GPU存在2个问题:一是,受限于GPU的硬件结构特性,很多并行算法不能在GPU上有效地执行;二是,GPU运行中会产生大量热量,能耗较高。DSP是一种用数字方法对各种信号进行快速分析、变换、滤波、检测、调制、解调等运算处理的微处理器。为此,DSP在芯片内部结构上做了特殊的优化,比如硬件实现高速、高精度的乘法等。随着数字时代的到来,DSP广泛应用于智能设备、资源勘探、数字控制、生物医学、航天航空等各个领域,具有功耗低、精度高、可进行二维与多维处理等特点。综上所述,以上四种计算器件各有特点,又各有局限性。针对前述基于NGS的DNA甲基化测序技术应用发展存在的两个方面的瓶颈,如何利用上述处理器来实现海量本文档来自技高网...
一种DNA甲基化测序数据计算解读方法

【技术保护点】
一种DNA甲基化测序数据计算解读方法,其特征在于实施步骤包括:1)对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理;2)通过CPU调用FPGA上硬件实现的比对器将预处理后的测序样本数据和参考基因组进行比对;3)通过CPU调用GPU上编程实现的识别器、FPGA上硬件实现的深度学习模型基于比对结果进行甲基化识别;4)对结果数据进行可视化,通过CPU调用FPGA上硬件实现的深度学习模型对结果数据反映的甲基化功能进行挖掘和分析,且CPU调用GPU上编程处理分析挖掘相关的视频、动画和显示任务,CPU调用DSP上编程处理和分析挖掘相关的图形、图像和音频任务。

【技术特征摘要】
1.一种DNA甲基化测序数据计算解读方法,其特征在于实施步骤包括:1)对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理;2)通过CPU调用FPGA上硬件实现的比对器将预处理后的测序样本数据和参考基因组进行比对;3)通过CPU调用GPU上编程实现的识别器、FPGA上硬件实现的深度学习模型基于比对结果进行甲基化识别;4)对结果数据进行可视化,通过CPU调用FPGA上硬件实现的深度学习模型对结果数据反映的甲基化功能进行挖掘和分析,且CPU调用GPU上编程处理分析挖掘相关的视频、动画和显示任务,CPU调用DSP上编程处理和分析挖掘相关的图形、图像和音频任务。2.根据权利要求1所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)对参考基因组数据进行预处理的详细步骤包括:对参考基因组数据进行针对甲基化的生信转换,通过CPU调用FPGA上硬件实现的索引生成器为生信转换后的参考基因组数据生成用于后续比对任务的索引,输出生信转换后的参考基因组数据及其索引。3.根据权利要求2所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)对原始的测序样本数据进行预处理的详细步骤包括:对原始的测序样本数据进行数据质量控制得到可靠样本数据,所述数据质量控制包括修剪DNA甲基化测序原始样本数据,移除reads上的接头序列和低质量的碱基,对可靠样本数据进行针对甲基化的生信转换,输出生信转换后的DNA甲基化的测序可靠样本数据。4.根据权利要求3所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)中对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理是在CPU上基于不同的线程并发执行的。5.根据权利要求4所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤2)的详细步骤包括:2.1)读取上述生信转换后的参考基因组数据及其索引;读取上述修剪后的DNA甲基化测序可靠样本数据和生信转换后的DNA甲基化测序可靠样本数据;2.2)根据上述生信转换后的参考基因组数据的索引,通过CPU调用FPGA上硬件实现的比对器将上述生信转换后的DNA甲基化测序可靠样本数据和上述生信转换后的参考基因组数据进行精确比对,建立上述生信转换后的DNA甲基化测序可靠样本数据和上述生信转换后的参考基因组数据之间的映射关系;2.3)判断DNA甲基化测序样本数据是否为双端reads,如果是双端reads,则跳转执行步骤2.4);否则为单端reads,跳转执行步骤2.5);不明确的reads则直接移除;2.4)对于双端reads,在不匹配数受控以及双端reads之间的读距受控条件下,根据上述生信转换后的参考基因组数据的索引,再次通过CPU调用FPGA上硬件实现的比对器将上述生信转换后的DNA甲基化测序...

【专利技术属性】
技术研发人员:宋卓刘蓬侠李根
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1