【技术实现步骤摘要】
无参考基因组序列的转录组分析方法及系统
[0001]本专利技术涉及转录组测序数据分析领域,具体而言,涉及一种无参考基因组序列的转录组分析方法及系统。
技术介绍
[0002]二代测序技术是指基于边合成边测序的原理开发的第二代测序技术。illumina测序平台是广泛应用的二代测序技术,其优点是测序通量高,成本低,测序结果较准确。其缺点是,测序读长短(500bp以下),样本制备过程繁琐。
[0003]三代测序技术是指基于单分子测序技术原理开发的第三代测序技术。纳米孔测序平台(Oxford Nanopore Technology,ONT)是近年来兴起的第三代基因测序技术。其原理是将纳米孔蛋白固定于一层电阻率极高的薄膜上,使DNA或RNA分子从孔中穿过,检测其电信号,之后解析其序列。其优点是超长读长(平均长度为6-15kb,最长可达150kb),高通量,可以获得完整的全长转录组序列,而缺点是,测序准确率较低。
[0004]转录组测序是指在细胞或组织的特定状态下,针对其染色体所转录出的mRNA进行测序,并进行样品间的差异比较,从而获得不同样品差异表达的基因及其功能注释。目前,使用ONT测序技术进行转录组测序已经有部分公司和科研机构在开展,然而大多是针对有参考基因组序列的物种展开的。
[0005]无参考基因组序列的转录组测序是指针对没有参考基因组序列的生物样品进行的mRNA序列测序技术,可以研究样品间转录水平的差异表达。在现有的方法中,常用二代测序或三代测序单独进行测序,而已有的三代测序ONT技术也是针对有 ...
【技术保护点】
【技术特征摘要】
1.一种无参考基因组序列的转录组分析方法,其特征在于,所述分析方法包括:获取待测样本的二代RNA有效测序数据和三代RNA有效测序数据;利用所述二代RNA有效测序数据对所述三代RNA有效测序数据进行校正,得到三代校正有效数据;对所述三代校正有效数据进行去冗余获得unigene序列;将所述二代RNA有效测序数据与所述unigene序列进行序列比对,得到比对文件;利用所述比对文件,对每个所述unigene序列上的reads数进行统计,获得每个基因的表达水平FPKM值。2.根据权利要求1所述的分析方法,其特征在于,利用所述二代RNA有效测序数据对所述三代RNA有效测序数据进行校正,得到三代校正有效数据包括:将所述二代RNA有效测序数据中的reads分解成k-mer,利用德布鲁因图对所述三代RNA有效测序数据进行校正,得到所述三代校正有效数据。3.根据权利要求1所述的分析方法,其特征在于,对所述三代校正有效数据进行去冗余获得unigene序列包括:根据序列相似度对所述三代校正有效数据进行序列聚类,然后挑选每一类中序列最长的片段作为对应基因的转录本,而将冗余的序列去除,形成所述unigene序列。4.根据权利要求1所述的分析方法,其特征在于,在获得所述unigene序列之后,所述分析方法还包括,根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件;优选地,根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件包括:将所述已知数据库中的序列进行模拟建库,得到模拟测序序列;将所述unigene序列与所述模拟测序序列比对并找到相似度匹配的序列;根据所述相似度匹配的序列,在所述unigene序列后面追加所述已知数据库中相应片段的注释信息,从而获得所述参考转录组注释文件。5.根据权利要求1至4中任一项所述的分析方法,其特征在于,所述待测样本为多个,多个所述待测样本在分别获得各基因的表达水平FPKM值后,所述分析方法还包括:筛选出多个所述待测样本间的差异表达的基因;优选地,筛选出多个所述待测样本间的差异表达的基因包括:将多个所述待测样本中的相同基因的FPKM值进行变化倍数运算和可信度运算,获得变化倍数和可信度;保留所述变化倍数和所述可信度符合筛选条件的基因,作为多个所述待测样本间的差异表达的基因;更优选地,所述筛选条件为|log(变化倍数)|值大于1,且所述可信度大于99.5%。6.根据权利要求5所述的分析方法,其特征在于,在获得多个所述待测样本间的所述差异表达的基因之后,所述分析方法还包括:根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件;利用所述参考转录组注释文件对所述差异表达的基因进行GO和KEGG通路富集分析;根据所述通路富集分析的结果绘制通路富集分析图。
7.根据权利要求1至3中任一项所述的分析方法,其特征在于,在得到所述unigene序列后,所述分析方法还包括对mRNA进行结构分析和/或对LncRNA进行预测分析:优选地,对mRNA进行结构分析包括分析如下任意一种或多种:CDS预测、转录因子预测及SSR鉴定。8.根据权利要求7所述的分析方法,其特征在于,对LncRNA进行预测分析包括:采用多个软件对所述unigene序列进行编码能力预测,取每个软件预测的无法编码蛋白质的序列的交集;将所述交集与已知蛋白数据库比对,保留与所述已知蛋白数据库无交集的部分,即为LncRNA;优选地,在预测得到所述LncRNA之后,所述分析方法进一步包括:对所述LncRNA进行差异表达分析和/或富集分析。9.一种无参考基因组序列的转录组分析系统,其特征在...
【专利技术属性】
技术研发人员:田振阳,王苹,
申请(专利权)人:天津现代创新中药科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。