The invention discloses a method for calculating the interpretation of DNA methylation sequencing data, the implementation steps include: for data reference genome DNA methylation sequencing and sequencing of the original sample data is preprocessed by comparison; implement the CPU call the FPGA on the hardware will be pre processed for sequencing data and reference genome for comparison study; the model is realized by recognizer, CPU calls GPU programming on FPGA hardware depth comparison results for methylation recognition based on; the results are visualized data, through CPU call the FPGA on the hardware of the deep learning methylation function model of the results reflected by the data mining and analysis, and CPU calls on GPU programming analysis of mining related video, animation and display tasks, CPU calls the DSP programming on the processing and analysis of mining graphics, images and audio related Task. The invention has the advantages of fast, real-time, accurate, thorough, easy to understand and various forms.
【技术实现步骤摘要】
一种DNA甲基化测序数据计算解读方法
本专利技术涉及基因测序技术,具体涉及一种DNA甲基化测序数据计算解读方法。
技术介绍
近年来,随着下一代测序技术(NextGenerationSequence,NGS)的广泛应用,基因测序的成本迅速下降,基因测序技术得以在更加广泛的生物、医疗、健康、刑侦、农业等等许多领域被推广应用。其中,基于NGS的脱氧核糖核酸(Deoxyribo-NucleicAcid,DNA)甲基化测序是一个非常有应用价值的分支领域,受到广泛的关注。甲基化(Methylation)是指从活性甲基化合物(如S-腺苷基甲硫氨酸)上将甲基催化转移到其他化合物的过程。甲基化是表观遗传学(epigenetics)的重要研究内容之一。最常见的甲基化修饰有DNA甲基化和组蛋白甲基化。脊椎动物的DNA甲基化一般发生在CpG位点(sites),即DNA序列中的胞嘧啶(Cytosine)-磷酸(Phosphoricacid)-鸟嘌呤(Guanine)位点,经DNA甲基转移酶催化胞嘧啶转化为5-甲基胞嘧啶。人类基因中约80%-90%的CpG位点已被甲基化,1%-2%人类基因组是CpG群,并且CpG甲基化与转录活性成反比。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,能关闭某些基因的活性,去甲基化则诱导了基因的重新活化和表达。例如,已有的研究表明,人的DNA甲基化与癌症、衰老、老年痴呆等许多疾病密切相关,异常的甲基化往往是许多疾病的起因。因此,DNA甲基化检测对于生物研究、医疗诊断、法医生物学等多个领域具有非常大的应用价值。近 ...
【技术保护点】
一种DNA甲基化测序数据计算解读方法,其特征在于实施步骤包括:1)对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理;2)通过CPU调用FPGA上硬件实现的比对器将预处理后的测序样本数据和参考基因组进行比对;3)通过CPU调用GPU上编程实现的识别器、FPGA上硬件实现的深度学习模型基于比对结果进行甲基化识别;4)对结果数据进行可视化,通过CPU调用FPGA上硬件实现的深度学习模型对结果数据反映的甲基化功能进行挖掘和分析,且CPU调用GPU上编程处理分析挖掘相关的视频、动画和显示任务,CPU调用DSP上编程处理和分析挖掘相关的图形、图像和音频任务。
【技术特征摘要】
1.一种DNA甲基化测序数据计算解读方法,其特征在于实施步骤包括:1)对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理;2)通过CPU调用FPGA上硬件实现的比对器将预处理后的测序样本数据和参考基因组进行比对;3)通过CPU调用GPU上编程实现的识别器、FPGA上硬件实现的深度学习模型基于比对结果进行甲基化识别;4)对结果数据进行可视化,通过CPU调用FPGA上硬件实现的深度学习模型对结果数据反映的甲基化功能进行挖掘和分析,且CPU调用GPU上编程处理分析挖掘相关的视频、动画和显示任务,CPU调用DSP上编程处理和分析挖掘相关的图形、图像和音频任务。2.根据权利要求1所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)对参考基因组数据进行预处理的详细步骤包括:对参考基因组数据进行针对甲基化的生信转换,通过CPU调用FPGA上硬件实现的索引生成器为生信转换后的参考基因组数据生成用于后续比对任务的索引,输出生信转换后的参考基因组数据及其索引。3.根据权利要求2所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)对原始的测序样本数据进行预处理的详细步骤包括:对原始的测序样本数据进行数据质量控制得到可靠样本数据,所述数据质量控制包括修剪DNA甲基化测序原始样本数据,移除reads上的接头序列和低质量的碱基,对可靠样本数据进行针对甲基化的生信转换,输出生信转换后的DNA甲基化的测序可靠样本数据。4.根据权利要求3所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤1)中对用于DNA甲基化测序的参考基因组数据和原始的测序样本数据进行预处理是在CPU上基于不同的线程并发执行的。5.根据权利要求4所述的DNA甲基化测序数据计算解读方法,其特征在于,步骤2)的详细步骤包括:2.1)读取上述生信转换后的参考基因组数据及其索引;读取上述修剪后的DNA甲基化测序可靠样本数据和生信转换后的DNA甲基化测序可靠样本数据;2.2)根据上述生信转换后的参考基因组数据的索引,通过CPU调用FPGA上硬件实现的比对器将上述生信转换后的DNA甲基化测序可靠样本数据和上述生信转换后的参考基因组数据进行精确比对,建立上述生信转换后的DNA甲基化测序可靠样本数据和上述生信转换后的参考基因组数据之间的映射关系;2.3)判断DNA甲基化测序样本数据是否为双端reads,如果是双端reads,则跳转执行步骤2.4);否则为单端reads,跳转执行步骤2.5);不明确的reads则直接移除;2.4)对于双端reads,在不匹配数受控以及双端reads之间的读距受控条件下,根据上述生信转换后的参考基因组数据的索引,再次通过CPU调用FPGA上硬件实现的比对器将上述生信转换后的DNA甲基化测序...
【专利技术属性】
技术研发人员:宋卓,刘蓬侠,李根,
申请(专利权)人:人和未来生物科技长沙有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。