一种适用于Sequel测序的三代全长转录组测序结果分析方法技术

技术编号：26732476 阅读：27 留言：0更新日期：2020-12-15 14:36

本发明专利技术公开了一种适用于Sequel测序平台的三代全长转录组分析方法，其特征在于，包括如下步骤：步骤一，测序数据过滤步骤；步骤二，测序数据比对步骤；步骤三，转录本注释步骤；步骤四，ORF预测步骤；步骤五，转录本功能注释步骤；步骤六，融合基因分析步骤；步骤七，LncRNA预测步骤；步骤八，可变剪切分析步骤；步骤九，可变多聚腺苷酸化分析步骤。本发明专利技术的运行速度更快，且与常用的matchannot软件相比对转录本的注释更加精细，更加便于分析转录本的类型。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于Sequel测序的三代全长转录组测序结果分析方法
本专利技术涉及基因检测领域，具体涉及适用于Sequel测序平台的三代全长有参转录组分析方法。
技术介绍
转录组是某个物种或者特定细胞类型产生的所有转录本的集合。转录组研究能够从整体水平研究基因功能以及基因结构，揭示特定生物学过程以及疾病发生过程中的分子机理，已广泛应用于基础研究、临床诊断和药物研发等领域。真核生物的蛋白编码基因在3’末端有一段poly(A)尾，所以对于真核生物，提取总RNA后，可以用带有polyT的反转录引物，将RNA序列反转录成cDNA，再以cDNA为模板，制备全长cDNA文库，构建好的文库用Sequel测序仪进行测序。测序后的数据需要进行生物信息学分析，获取样品的转录本结构信息，推断生物学意义。通常一个样品可以获得数百万个测序reads，之前的分析方法存在计算机资源消耗大、运行时间慢等缺点。同时，不断的出现新的分析方法和软件，现有的全长转录组分析流程需要优化和补充。
技术实现思路
为了克服现有技术的上述缺陷，本专利技术的目的在于提供一种适用于Sequel测序平台的三代全长转录组分析方法。为了实现本专利技术的目的，所采用的技术方案是：一种适用于Sequel测序平台的三代全长转录组分析方法，包括如下步骤：步骤一，测序数据过滤步骤：使用pacbio官方的isoseq3流程对原始数据进行处理：使用ccs程序对下机的subreads进行处理，得到每个零模波导孔的一致性序列CCS；<...

【技术保护点】
1.一种适用于Sequel测序平台的三代全长转录组分析方法，其特征在于，包括如下步骤：/n步骤一，测序数据过滤步骤：/n使用pacbio官方的isoseq3流程对原始数据进行处理：/n使用ccs程序对下机的subreads进行处理，得到每个零模波导孔的一致性序列CCS；/n使用lima程序对一致性序列进行接头识别，得到全长序列FL；/n使用isoseq3 refine程序对全长序列进行嵌合去除和polyA识别，得到全长非嵌合序列FLNC；/n使用isoseq3 cluster对全长非嵌合序列进行聚类，得到去冗余的高质量转录本HQisoform；/n步骤二，测序数据比对步骤：/n使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余：/n首先从基因组数据库中下载对应物种的参考基因组；/n将高质量序列比对到参考基因组上；/n根据转录本在基因组上的剪切模式，将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并，作为样品识别到的转录本；/n步骤三，转录本注释步骤：/n使用SQUANTI2将合并后的转录本与参考转录本注释进行比较，具体为：...

【技术特征摘要】
1.一种适用于Sequel测序平台的三代全长转录组分析方法，其特征在于，包括如下步骤：
步骤一，测序数据过滤步骤：
使用pacbio官方的isoseq3流程对原始数据进行处理：
使用ccs程序对下机的subreads进行处理，得到每个零模波导孔的一致性序列CCS；
使用lima程序对一致性序列进行接头识别，得到全长序列FL；
使用isoseq3refine程序对全长序列进行嵌合去除和polyA识别，得到全长非嵌合序列FLNC；
使用isoseq3cluster对全长非嵌合序列进行聚类，得到去冗余的高质量转录本HQisoform；
步骤二，测序数据比对步骤：
使用minimap2和cDNA_Cupcake软件将聚类后的高质量转录本与参考基因组进行比对并进一步去除冗余：
首先从基因组数据库中下载对应物种的参考基因组；
将高质量序列比对到参考基因组上；
根据转录本在基因组上的剪切模式，将剪切模式相同、3’端位点相近、仅5’端不同的转录本合并，作为样品识别到的转录本；
步骤三，转录本注释步骤：
使用SQUANTI2将合并后的转录本与参考转录本注释进行比较，具体为：
将两种转录本的位置和剪切模式进行比较；
步骤四，ORF预测步骤：
使用Transdecoder软件对转录本进行ORF预测，具体是：
使用TransDecoder.LongOrfs识别转录本序列中的长度大于300的ORF结构；
对识别的ORF进行Swissprot同源序列比对和Pfam结构域预测，作为ORF结果可信度的一个判断依据；
使用TransDecoder.Predict对ORF进行检验，每个转录本保留最优的ORF结果，得到相应的CDS和蛋白质序列；
步骤五，转录本功能注释步骤：
对预测得到的转录本蛋白质序列进行功能分析，具体是：
使用diamond软件将转录本比对NR数据库，获得同源蛋白信息；
使用blast2go软件，根据NR注释结果，提取GO注释；
使用diamond软件将转录本比对到KEGG数据库，然后使用kobas预测转录本的KEGG编号；
使用diamond软件将转录本比对到eggNOG数据库，获得转录本的直系同源信息；
使用diamond软件将转录本比对到SwissPort数据库，获得转录本的SwissProt同源蛋白信息；
步骤六，融合基因分析步骤：
用cDNA_Cupcake...

【专利技术属性】
技术研发人员：沈立，姜丽荣，孙子奎，
申请(专利权)人：南京派森诺基因科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人