适配于ONT测序的有参转录组测序数据的分析方法及系统技术方案

技术编号:37375719 阅读:8 留言:0更新日期:2023-04-27 07:19
本发明专利技术涉及一种适配于ONT测序的有参转录组测序数据的分析方法及系统,其方法包括:获取基于ONT的三代测序数据,并对所述三代测序数据进行质控;基于质控结果、预设引物序列和参考基因组比对,得到转录本集;将所述转录本集与参考注释的转录本集进行比对,并对所述转录本集进行分类,得到新转录本和新基因;对新转录本和新基因进行功能注释,并对其进行CDS和Protein序列预测,根据预测结果进行lncRNA分析;基于已知转录本和新转录本进行可变剪切分析、可变多聚腺苷酸化分析、基因和转录本表达水平定量分析和差异表达分析。本发明专利技术获取了更长的测序数据,实现了全长转录组测序和表达定量分析,提高测序数据分析的全面性。提高测序数据分析的全面性。提高测序数据分析的全面性。

【技术实现步骤摘要】
适配于ONT测序的有参转录组测序数据的分析方法及系统


[0001]本专利技术属于基因测序
,具体涉及一种适配于ONT测序的有参转录组测序数据的分析方法及系统。

技术介绍

[0002]转录组测序(RNA

Seq)技术已经成为了转录组学研究的重要手段之一,转录组测序的研究对象为细胞在某一功能状态下所能转录出来的所有RNA的总和,主要包括mRNA和非编码RNA,对mRNA和非编码RNA进行测序,能够全面快速的获得某一物种特定组织或器官在某一状态下的几乎所有转录本信息。
[0003]现有的二代测序技术是对逆转录得到的cDNA进行测序,将reads比对至参考基因组序列,统计reads在参考序列上的分布情况,计算不同基因的表达量,分析基因结构和表达水平以及差异表达基因,预测新转录本,鉴定融合基因、识别可变剪切位点、编码序列单核苷酸多态性等一系列相关分析,然而,由于二代平台技术限制,存在比对不够准确,reads读长较短无法针对全长转录本分析,无法从转录本表达层面进行分析等问题。
[0004]三代测序技术又称单分子测序技术(Single molecule sequencing),具有超长读长的特点,被认为是进行全基因组denovo组装、全长转录本测序以及表观遗传学测序的理想测序平台。目前主流的三代测序平台有PacBio公司的单分子实时测序技术(Single molecule real time sequencing,SMRT

seq)和Oxford Nanopore Technologies的纳米孔单分子测序平台。其中,纳米孔测序技术(Oxford Nanopore Technologies,ONT)采用一种特殊纳米孔,当不同的DNA碱基序列通过纳米孔时,会产生不同的电荷变化,从而不同程度的影响电流强度,通过检测电流变化幅度鉴定碱基,这一测序方式能够得到更长的读长、更全的测序数据,但是对于数据的分析,现有技术并不能够分析的很全面,即为了适配于ONT三代测序技术,全长转录组分析方法急需优化和补充。
[0005]由II lumina平台测序所得的数据称为raw reads或raw data,随后要对raw reads进行质控(QC),以确定测序数据是否适用于后续分析。质控后,经过滤得到clean reads,将clean reads比对到参考序列。比对完,通过统计reads在参考序列上的分布情况及覆盖度,判断比对结果是否通过第二次质控(QC of alignment)。若通过,则进行基因表达、可变剪切、预测新转录本、SNP检测、基因结构优化等一系列后续分析,并从基因表达结果中,筛选出样品间差异表达的基因,基于差异表达基因,进行GO功能显著性富集分析和KEGG pathway显著性富集分析,分析内容不够全面。
[0006]因此,现有分析方法存在比对不够准确,reads读长较短无法针对全长转录本分析,无法从转录本表达层面进行分析等问题。现有的转录组数据的分析方法可以做的转录组分析有限,无法针对转录本水平分析,无法分析转录本差异表达,转录本差异使用,差异可变剪切,可变多聚腺苷酸化分析等内容,分析不够全面完整,无法很好的适配于ONT三代测序数据。

技术实现思路

[0007]为适配于ONT三代测序技术的全长转录组的分析,提高分析的全面性和准确性,在本专利技术的第一方面提供了一种适配于ONT测序的有参转录组测序数据的分析方法,包括:获取基于ONT的三代测序数据,并对所述三代测序数据进行质控;基于质控结果、预设引物序列和参考基因组比对,得到转录本集;将所述转录本集与参考注释的转录本集进行比对,并对所述转录本集进行分类,得到新转录本和新基因;对新转录本和新基因进行功能注释,并对其进行CDS和Protein序列预测,根据预测结果进行IncRNA分析;基于已知转录本和新转录本进行可变剪切分析、可变多聚腺苷酸化分析、基因和转录本表达水平定量分析和差异表达分析。
[0008]在本专利技术的一些实施例中,所述基于质控结果、预设引物序列和参考基因组比对,得到转录本集包括:基于质控得到的全长读长序列比对到参考基因组;从对比结果中提取多个基因,并从所述多个基因中筛选出满足预设读长支持度的一个或多个序列;基于所述多个基因和满足预设读长支持度的一个或多个序列,构建转录本集。
[0009]在本专利技术的一些实施例中,所述对所述转录本集进行分类,得到新转录本和新基因包括:将转录本集与参考注释的转录本集进行比较;根据比较结果将转录本分为参考注释中已知的转录本、已知基因的新转录本和新基因的转录本。
[0010]在本专利技术的一些实施例中,所述对新转录本和新基因进行功能注释包括:对所述新的基因及其转录本进行GO、KEGG、NR、Swissprot和KOG五个数据库的功能注释;对新的基因及其转录本进行CDS和Protein序列预测,并根据可靠性和完整度将预测结果分为多个类型。
[0011]进一步的,所述对新转录本和新基因进行功能注释,进行lncRNA预测分析包括:将被分为likely

NA和suspicious

NA的和未被预测出的CDS序列一起进行lncRNA预测;基于已知转录本和新转录本进行可变剪切分析、可变多聚腺苷酸化分析、基因和转录本表达水平定量分析和差异表达分析。
[0012]在上述的实施例中,还包括根据所述功能注释结果进行饱和曲线检查分析。
[0013]本专利技术的第二方面,提供了一种适配于ONT测序的有参转录组测序数据的分析系统,包括:获取模块,用于获取基于ONT的三代测序数据,并对所述三代测序数据进行质控;基于质控结果、预设引物序列和参考基因组比对,得到转录本集;分类模块,用于将所述转录本集与参考注释的转录本集进行比对,并对所述转录本集进行分类,得到新转录本和新的基因;预测模块,用于对新转录本和新基因进行功能注释,并对其进行CDS和Protein序列预测,根据预测结果进行lncRNA分析;分析模块,用于对新转录本和新基因进行功能注释,并根据功能注释结果进行lncRNA预测分析、可变剪切分析、可变多聚腺苷酸化分析、基因和转录本表达水平定量分析和差异表达分析。
[0014]本专利技术的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术在第一方面提供的适配于ONT测序的有参转录组测序数据的分析方法。
[0015]本专利技术的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本专利技术在第一方面提供的适配于ONT测序的有参转录
组测序数据的分析方法。
[0016]本专利技术的有益效果是:
[0017]本分析方法适配于ONT测序平台,reads读长较二代测序更长,能更好进行全长转录组分析。由于能在转录本水平进行表达定量,因而能够进行基于转录本水平的分析,包括差异转录本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适配于ONT测序的有参转录组测序数据的分析方法,其特征在于,包括:获取基于ONT的三代测序数据,并对所述三代测序数据进行质控;基于质控结果、预设引物序列和参考基因组比对,得到转录本集;将所述转录本集与参考注释的转录本集进行比对,并对所述转录本集进行分类,得到新转录本和新基因;对新转录本和新基因进行功能注释,并对其进行CDS和Protein序列预测,根据预测结果进行lncRNA分析;基于已知转录本和新转录本进行可变剪切分析、可变多聚腺苷酸化分析、基因和转录本表达水平定量分析和差异表达分析。2.根据权利要求1所述的适配于ONT测序的有参转录组测序数据的分析方法,其特征在于,所述基于质控结果、预设引物序列和参考基因组比对,得到转录本集包括:基于质控得到的全长读长序列比对到参考基因组;从对比结果中提取多个基因,并从所述多个基因中筛选出满足预设读长支持度的一个或多个序列;基于所述多个基因和满足预设读长支持度的一个或多个序列,构建转录本集。3.根据权利要求1所述的适配于ONT测序的有参转录组测序数据的分析方法,其特征在于,所述对所述转录本集进行分类,得到新转录本和新基因包括:将转录本集与参考注释的转录本集进行比较;根据比较结果将转录本分为参考注释中已知的转录本、已知基因的新转录本和新基因的转录本。4.根据权利要求1所述的适配于ONT测序的有参转录组测序数据的分析方法,其特征在于,所述对新转录本和新基因进行功能注释包括:对所述新的基因及其转录本进行GO、KEGG、NR、Swissprot和KOG五个数据库的功能注释;对新的基因及其转录本进行CDS和Protein序列预测,并根据可靠性和完整度将预测结果分为多个类型。5.根据权利要求4所述的适配于ONT测序的有参转录组测序数据的分析方法,其特征在于,对新转录本和新基因进行功能注释,并对其进行CDS和Protein序列预测,根据预测结果进行lncRNA分析包括:将被预测为likely-NA和suspiciou...

【专利技术属性】
技术研发人员:孙宗毅雷语婷封力王洋梁帆汪德鹏
申请(专利权)人:武汉希望组生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1