System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于DRS的生物遗传样本转录组测序分析方法技术_技高网

基于DRS的生物遗传样本转录组测序分析方法技术

技术编号:41314591 阅读:2 留言:0更新日期:2024-05-13 14:56
本发明专利技术公开了一种基于DRS的生物遗传样本转录组测序分析方法,涉及基因测序技术领域。本方法包括富集mRNA建立直接测序文库;进行二代测序和三代DRS测序;对测序的数据进行质控和纠错校正;纠错的转录本序列与参考基因比对统计,得到新转录本;对新转录本进行功能注释和编码区预测;优化转录本的结构,进行可变剪切分析、融合转录本分析、lncRNA预测、转录本表达定量分析、差异表达和功能富集分析、poly(A)分析、甲基化分析和假尿苷分析。本方法基于nextflow与docker搭建了一体化分析流程,优化了从新转录本识别到定量差异分析的内容,进一步发挥了RNA直接测序的优势;新增了多种分析过程,并与表达关联,对转录本表达进行系统多角度阐释。

【技术实现步骤摘要】

本专利技术涉及基因测序,特别涉及基于drs的生物遗传样本转录组测序分析方法。


技术介绍

1、对生物样本中的核糖核酸(rna)进行测序可以获得丰富的信息,包括细菌和病毒的身份、选择性剪接的细微差别或生物体的转录状态。目前大多数的rna测序技术只能产生相对较短的读取长度,多数方法仍需将rna反转录成cdna(互补脱氧核糖核酸),这不仅会引入错误及偏好,而且效率不高,还会影响rna自身复杂结构的准确表征。传统的第二代高通量测序平台在分析转录组时存在一些限制,例如无法准确得到或组装出完整的转录本,难以区分和定量同源基因、超基因家族和等位基因表达的转录本,同时也无法直接获得转录本上的甲基化修饰信息和poly(a)尾长信息,从而限制了对生命活动的深层次理解。

2、为了克服这些限制,direct rna sequencing(drs)技术应运而生。drs是一种基于牛津纳米孔公司(oxford nanopore technologies,ont)的第三代测序平台的直接rna测序方法。与传统方法不同,drs不需要对rna进行反转录或扩增,可以避免引入假阳性转录本。drs可以检测单碱基的甲基化修饰(m5c、m6a、假尿苷等)及其修饰率、poly(a)尾长、可变剪切、融合基因等信息,反映rna的最原始信息,表征最全面的rna特征。drs一次测序,原始数据可终身使用,随着分析算法的更新,后续可用原始数据分析其他类型的甲基化修饰(m1a、2'-o-甲基化等)。

3、现有的基于drs的转录组三代测序方法,由于读长的限制,不能有效地实现较大rna分子的全长结构分析,如信使rna和核糖体rna。需要pcr扩增也意味着通常不能捕获rna分子上的原生修饰,不能在单分子水平上分析rna结构。


技术实现思路

1、针对现有技术中存在的上述问题,本专利技术提供了一种基于drs的生物遗传样本转录组测序分析方法,利用nextflow与docker软件串行了一套完整、可移植的drs分析技术,能够更准确、更全面地分析rna特征,深入挖掘生命过程中的转录信息,从而为生命科学研究、医学诊断和药物开发等领域提供更多有价值的数据和应用。具体通过以下技术实现。

2、本专利技术提供的基于drs的生物遗传样本转录组测序分析方法,步骤包括:富集样本mrna,建立直接测序文库;

3、基于illumina进行二代测序,基于ont进行三代drs测序,分别得到二代原始测序数据和三代原始测序数据;

4、对所述二代原始测序数据和三代原始测序数据分别进行质控,基于所述二代原始测序数据对所述三代原始测序数据进行纠错校正;将纠错后的转录本序列与参考基因组进行比对,统计得到一致性序列;

5、过滤所述旧转录本中的全长reads,然后将一致性序列与参考基因组的已知转录本进行比对,得到新转录本和新基因;

6、识别所述新转录本的潜在编码区序列,预测所述新转录本和新基因的编码区序列,对所述新转录本和新基因进行功能注释;

7、对转录本的结构进行优化,进行可变剪切分析、融合转录本分析、lncrna预测、转录本表达定量分析、差异表达和功能富集分析、poly(a)分析、甲基化分析和假尿苷分析。

8、进一步地,对所述二代原始测序数据的质控方式为:

9、去除n碱基含量>5%的reads;

10、并且,去除质量值≤5,碱基数目达到50%的reads;

11、并且,去除有adapter污染的reads;

12、并且,去除pcr扩增造成的重复序列;

13、对所述三代原始测序数据的质控方式为:过滤q<9且长度<100bp的reads。进一步地,基于所述二代原始测序数据,使用lrece软件中的run_correction_tools.sh脚本对所述三代原始测序数据进行纠错校正;

14、使用minimap2软件将纠错校正后的转录本序列与参考转录本进行比对,使用samtools软件统计比对结果,得到一致性序列。

15、进一步地,使用lafite软件在所述一致性序列中引入poly(a)鉴定标签过滤去除全长reads;使用gffcompare软件将所述一致性序列与基因组的已知转录本进行比对,发现新转录本和新基因。

16、进一步地,使用transdecoder软件对所述新转录本和新基因进行潜在编码区序列识别,使用orfpy软件对所述新转录本和新基因的编码区进行预测。

17、进一步地,对所述新转录本和新基因进行nr、pfam、uniprot、kegg、go、kog/cog和pathway七个数据库的转录本功能注释。

18、更进一步地,功能注释的方法包括:

19、使用diamond blastp软件将新转录本中转录本编码的蛋白序列与现有蛋白质数据库uniprot和nr进行比对,获得序列的功能信息,以及蛋白可能参与的代谢通路信息;基于数据库之间的关联,得到kog/cog注释结果,进行kog/cog的分类统计及绘图;

20、使用pfam数据库和hmmscan软件进行所述新转录本的结构域预测;使用kofam数据库和kofam_scan软件进行所述新转录本的同源性搜索。

21、进一步地,使用gffcompare软件,将一致性序列与基因组已知转录本进行比较;如果存在转录本在原有转录本边界之外的区域,则将转录本的非翻译区向上下游延伸,修正转录本的边界;通过比较结果,对基因的5’端或3’端进行延长,完成对转录本的结构优化。

22、进一步地,使用laser软件完成转录本的可变剪切分析;

23、使用ctat-lr-fusion软件比对、寻找融合转录本;

24、使用cnci软件、cpc2软件和plek软件对所述新转录本进行lncrna预测;

25、采用tpm作为衡量表达水平的指标,使用bamboo软件进行所述新转录本表达定量分析;

26、使用deseq2软件进行差异表达分析,筛选阈值为padj<0.05,且|log2foldchange|>1;若显著差异转录本数目<10时,筛选阈值为pvalue<0.05,且|log2foldchange|>1;基于gene ontology和kegg pathway方法,使用clusterprofiler软件进行功能富集分析;

27、使用nanopolish软件对有效reads的poly(a)进行计算,使用minimap2软件将reads比对到参考基因组序列后,从bam文件中提取比对到参考基因组的终点位置,再使用quantifypoly(a)软件进行poly(a)位点的鉴定、聚类与注释;

28、使用tombo软件预测出rna分子序列中m5c修饰位点,使用m6anet软件预测出rna分子序列中m6a修饰位点,使用r语言计算并绘制甲基化位点的位置、分布、5bp的motif图,本文档来自技高网...

【技术保护点】

1.基于DRS的生物遗传样本转录组测序分析方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,对所述二代原始测序数据的质控方式为:

3.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,基于所述二代原始测序数据,使用LRECE软件中的run_correction_tools.sh脚本对所述三代原始测序数据进行纠错校正;

4.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,使用LAFITE软件在所述一致性序列中引入poly(A)鉴定标签过滤去除全长reads;使用gffcompare软件将所述一致性序列与基因组的已知转录本进行比对,发现新转录本和新基因。

5.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,使用TransDecoder软件对所述新转录本和新基因进行潜在编码区序列识别,使用orfpy软件对所述新转录本和新基因的编码区进行预测。

6.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,对所述新转录本和新基因进行Nr、Pfam、Uniprot、KEGG、GO、KOG/COG和PATHWAY七个数据库的转录本功能注释。

7.根据权利要求6所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,功能注释的方法包括:

8.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,使用gffcompare软件,将一致性序列与基因组已知转录本进行比较;如果存在转录本在原有转录本边界之外的区域,则将转录本的非翻译区向上下游延伸,修正转录本的边界;通过比较结果,对基因的5’端或3’端进行延长,完成对转录本的结构优化。

9.根据权利要求1所述的基于DRS的生物遗传样本转录组测序分析方法,其特征在于,使用LASER软件完成转录本的可变剪切分析;

...

【技术特征摘要】

1.基于drs的生物遗传样本转录组测序分析方法,其特征在于,步骤包括:

2.根据权利要求1所述的基于drs的生物遗传样本转录组测序分析方法,其特征在于,对所述二代原始测序数据的质控方式为:

3.根据权利要求1所述的基于drs的生物遗传样本转录组测序分析方法,其特征在于,基于所述二代原始测序数据,使用lrece软件中的run_correction_tools.sh脚本对所述三代原始测序数据进行纠错校正;

4.根据权利要求1所述的基于drs的生物遗传样本转录组测序分析方法,其特征在于,使用lafite软件在所述一致性序列中引入poly(a)鉴定标签过滤去除全长reads;使用gffcompare软件将所述一致性序列与基因组的已知转录本进行比对,发现新转录本和新基因。

5.根据权利要求1所述的基于drs的生物遗传样本转录组测序分析方法,其特征在于,使用transdecoder软件对所述新转录本和新基因进行潜在编码区序列...

【专利技术属性】
技术研发人员:杨柳田朝阳郭登理蒋冕李晓静曾维科冀金龙樊鹏宇陈洁
申请(专利权)人:武汉贝纳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1