无参考基因组序列的转录组分析方法及系统技术方案

技术编号:27449846 阅读:16 留言:0更新日期:2021-02-25 04:28
本发明专利技术提供了一种无参考基因组序列的转录组分析方法及系统。该分析方法包括:获取待测样本的二代RNA有效测序数据和三代RNA有效测序数据;利用二代RNA有效测序数据对三代RNA有效测序数据进行校正;对三代校正后的有效数据进行去冗余获得unigene序列;将二代RNA有效测序数据与unigene序列进行序列比对,利用比对文件,对每个unigene序列上的reads数进行统计,获得每个基因的表达水平FPKM值。该分析方法整合了二代和三代测序技术的优势,解决了目前尚无利用三代测序数据进行对无参考基因组序列的转录组进行分析的问题。序列的转录组进行分析的问题。序列的转录组进行分析的问题。

【技术实现步骤摘要】
无参考基因组序列的转录组分析方法及系统


[0001]本专利技术涉及转录组测序数据分析领域,具体而言,涉及一种无参考基因组序列的转录组分析方法及系统。

技术介绍

[0002]二代测序技术是指基于边合成边测序的原理开发的第二代测序技术。illumina测序平台是广泛应用的二代测序技术,其优点是测序通量高,成本低,测序结果较准确。其缺点是,测序读长短(500bp以下),样本制备过程繁琐。
[0003]三代测序技术是指基于单分子测序技术原理开发的第三代测序技术。纳米孔测序平台(Oxford Nanopore Technology,ONT)是近年来兴起的第三代基因测序技术。其原理是将纳米孔蛋白固定于一层电阻率极高的薄膜上,使DNA或RNA分子从孔中穿过,检测其电信号,之后解析其序列。其优点是超长读长(平均长度为6-15kb,最长可达150kb),高通量,可以获得完整的全长转录组序列,而缺点是,测序准确率较低。
[0004]转录组测序是指在细胞或组织的特定状态下,针对其染色体所转录出的mRNA进行测序,并进行样品间的差异比较,从而获得不同样品差异表达的基因及其功能注释。目前,使用ONT测序技术进行转录组测序已经有部分公司和科研机构在开展,然而大多是针对有参考基因组序列的物种展开的。
[0005]无参考基因组序列的转录组测序是指针对没有参考基因组序列的生物样品进行的mRNA序列测序技术,可以研究样品间转录水平的差异表达。在现有的方法中,常用二代测序或三代测序单独进行测序,而已有的三代测序ONT技术也是针对有参考基因组序列的物种展开的,而对于无参考基因组序列的转录组,其测序数据的分析方法和系统目前还没有建立。

技术实现思路

[0006]本专利技术的主要目的在于提供一种无参考基因组序列的转录组分析方法及系统,以解决现有技术中尚无能够利用三代测序数据进行对无参考基因组序列的转录组进行分析的问题。
[0007]为了实现上述目的,根据本专利技术的一个方面,提供了一种无参考基因组序列的转录组分析方法,该分析方法包括:获取待测样本的二代RNA有效测序数据和三代RNA有效测序数据;利用二代RNA有效测序数据对三代RNA有效测序数据进行校正,得到三代校正有效数据;对三代校正有效数据进行去冗余获得unigene序列;将二代RNA有效测序数据与unigene序列进行序列比对,得到比对文件;利用比对文件,对每个unigene序列上的reads数进行统计,获得每个基因的表达水平FPKM值。
[0008]进一步地,利用二代RNA有效测序数据对三代RNA有效测序数据进行校正,得到三代校正有效数据包括:将二代RNA有效测序数据中的reads分解成k-mer,利用德布鲁因图对三代RNA有效测序数据进行校正,得到三代校正有效数据。
[0009]进一步地,对三代校正有效数据进行去冗余获得unigene序列包括:根据序列相似度对三代校正有效数据进行序列聚类,然后挑选每一类中序列最长的片段作为对应基因的转录本,而将冗余的序列去除,形成unigene序列。
[0010]进一步地,在得到unigene序列之后,该分析方法还包括根据已知数据库对unigene序列进行基因注释,得到参考转录组注释文件;优选地,根据已知数据库对unigene序列进行基因注释,得到参考转录组注释文件包括:将已知数据库中的序列进行模拟建库,得到模拟测序序列;将unigene序列与模拟测序序列比对并找到相似度匹配的序列;根据相似度匹配的序列,在unigene序列后面追加已知数据库中相应片段的注释信息,从而获得参考转录组注释文件。
[0011]进一步地,待测样本为多个,多个待测样本在分别获得各基因的表达水平FPKM值后,分析方法还包括:筛选出多个待测样本间的差异表达的基因;优选地,筛选出多个待测样本间的差异表达的基因包括:将多个待测样本中的相同基因的FPKM值进行变化倍数运算和可信度运算,获得变化倍数和可信度;保留变化倍数和可信度符合筛选条件的基因,作为多个待测样本间的差异表达的基因;更优选地,筛选条件为|log(变化倍数)|值大于1,且可信度大于99.5%。
[0012]进一步地,在获得多个待测样本间的差异表达的基因以及参考转录组注释文件之后,分析方法还包括:利用参考转录组注释文件对差异表达的基因进行GO和KEGG通路富集分析;根据通路富集分析的结果绘制通路富集分析图。
[0013]进一步地,在得到unigene序列后,分析方法还包括对mRNA进行结构分析和/或对LncRNA进行预测分析:优选地,对mRNA进行结构分析包括分析如下任意一种或多种:CDS预测、转录因子预测及SSR鉴定。
[0014]进一步地,对LncRNA进行预测分析包括:采用多个软件对unigene序列进行编码能力预测,取每个软件预测的无法编码蛋白质的序列的交集;将交集与已知蛋白数据库比对,保留与已知蛋白数据库无交集的部分,即为LncRNA;优选地,在预测得到LncRNA之后,分析方法进一步包括:对LncRNA进行差异表达分析和/或富集分析。
[0015]根据本专利技术的第二个方面,提供了一种无参考基因组序列的转录组分析系统,分析系统包括:获取模块,用于获取待测样本的二代RNA有效测序数据和三代RNA有效测序数据;校正模块,用于利用二代RNA有效测序数据对三代RNA有效测序数据进行校正,得到三代校正有效数据;去冗余模块,用于对三代校正有效数据进行去冗余获得unigene序列;第一比对模块,用于将二代RNA有效测序数据与unigene序列进行序列比对,得到比对文件;表达统计模块,用于利用比对文件,对每个unigene序列上的reads数进行统计,获得每个基因的表达水平FPKM值。
[0016]进一步地,校正模块为lordec、proovread或Jabba;优选地,去冗余模块为cdhit、CupCake或cuffmerge。
[0017]进一步地,该分析系统还包括参考注释模块,用于根据已知数据库对unigene序列进行基因注释,得到参考转录组注释文件;优选地,参考注释模块包括:模拟建库模块,用于将已知数据库中的序列进行模拟建库,得到模拟测序序列;第二比对模块,用于将unigene序列与模拟测序序列比对并找到相似度匹配的序列;以及注释添加模块,用于根据相似度匹配的序列,在unigene后面追加已知数据库中相应片段的注释信息,从而获得参考转录组
注释文件;优选地,模拟建库模块为diamond和eggnog。
[0018]进一步地,待测样本为多个,分析系统还包括:差异基因筛选模块,用于筛选出多个待测样本间的差异表达的基因;优选地,差异基因筛选模块包括:运算模块,用于将多个待测样本中的相同基因的FPKM值进行变化倍数运算和可信度运算,获得变化倍数和可信度;第一筛选保留模块,用于保留变化倍数和可信度符合筛选条件的基因,作为多个待测样本间的差异表达的基因;更优选地,筛选条件为|log(变化倍数)|值大于1,且可信度大于99.5%。
[0019]进一步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无参考基因组序列的转录组分析方法,其特征在于,所述分析方法包括:获取待测样本的二代RNA有效测序数据和三代RNA有效测序数据;利用所述二代RNA有效测序数据对所述三代RNA有效测序数据进行校正,得到三代校正有效数据;对所述三代校正有效数据进行去冗余获得unigene序列;将所述二代RNA有效测序数据与所述unigene序列进行序列比对,得到比对文件;利用所述比对文件,对每个所述unigene序列上的reads数进行统计,获得每个基因的表达水平FPKM值。2.根据权利要求1所述的分析方法,其特征在于,利用所述二代RNA有效测序数据对所述三代RNA有效测序数据进行校正,得到三代校正有效数据包括:将所述二代RNA有效测序数据中的reads分解成k-mer,利用德布鲁因图对所述三代RNA有效测序数据进行校正,得到所述三代校正有效数据。3.根据权利要求1所述的分析方法,其特征在于,对所述三代校正有效数据进行去冗余获得unigene序列包括:根据序列相似度对所述三代校正有效数据进行序列聚类,然后挑选每一类中序列最长的片段作为对应基因的转录本,而将冗余的序列去除,形成所述unigene序列。4.根据权利要求1所述的分析方法,其特征在于,在获得所述unigene序列之后,所述分析方法还包括,根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件;优选地,根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件包括:将所述已知数据库中的序列进行模拟建库,得到模拟测序序列;将所述unigene序列与所述模拟测序序列比对并找到相似度匹配的序列;根据所述相似度匹配的序列,在所述unigene序列后面追加所述已知数据库中相应片段的注释信息,从而获得所述参考转录组注释文件。5.根据权利要求1至4中任一项所述的分析方法,其特征在于,所述待测样本为多个,多个所述待测样本在分别获得各基因的表达水平FPKM值后,所述分析方法还包括:筛选出多个所述待测样本间的差异表达的基因;优选地,筛选出多个所述待测样本间的差异表达的基因包括:将多个所述待测样本中的相同基因的FPKM值进行变化倍数运算和可信度运算,获得变化倍数和可信度;保留所述变化倍数和所述可信度符合筛选条件的基因,作为多个所述待测样本间的差异表达的基因;更优选地,所述筛选条件为|log(变化倍数)|值大于1,且所述可信度大于99.5%。6.根据权利要求5所述的分析方法,其特征在于,在获得多个所述待测样本间的所述差异表达的基因之后,所述分析方法还包括:根据已知数据库对所述unigene序列进行基因注释,得到参考转录组注释文件;利用所述参考转录组注释文件对所述差异表达的基因进行GO和KEGG通路富集分析;根据所述通路富集分析的结果绘制通路富集分析图。
7.根据权利要求1至3中任一项所述的分析方法,其特征在于,在得到所述unigene序列后,所述分析方法还包括对mRNA进行结构分析和/或对LncRNA进行预测分析:优选地,对mRNA进行结构分析包括分析如下任意一种或多种:CDS预测、转录因子预测及SSR鉴定。8.根据权利要求7所述的分析方法,其特征在于,对LncRNA进行预测分析包括:采用多个软件对所述unigene序列进行编码能力预测,取每个软件预测的无法编码蛋白质的序列的交集;将所述交集与已知蛋白数据库比对,保留与所述已知蛋白数据库无交集的部分,即为LncRNA;优选地,在预测得到所述LncRNA之后,所述分析方法进一步包括:对所述LncRNA进行差异表达分析和/或富集分析。9.一种无参考基因组序列的转录组分析系统,其特征在...

【专利技术属性】
技术研发人员:田振阳王苹
申请(专利权)人:天津现代创新中药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1