一种转录本的分类方法技术

技术编号:26306189 阅读:18 留言:0更新日期:2020-11-10 20:05
本发明专利技术属于生物技术信息领域,具体涉及一种转录本分类方法,该方法是通过准确定位剪切位点对转录本进行分类,具体包括以下步骤:对测序所得全长转录本结果质控,获得高质量全长转录本;将高质量全长转录本与参考基因组比对,获得相同基因模型下的所有转录本信息,去冗余,一个基因模型下的一种剪切模式只保留唯一最长的转录本;根据剪切位点,对全长转录本进行分类,获得初步分类结果;过滤初步分类结果,获得最终分类结果。该方法分类准确,假阳性率很低,适用性广泛,有效解决了现有技术不准确、分类不理想的缺陷。

【技术实现步骤摘要】
一种转录本的分类方法
本专利技术属于生物技术信息领域,尤其涉及一种转录本的分类方法。
技术介绍
三代测序技术能够对全长转录本进行测序,不需要进行碱基序列的读长拼接,可以避免拼接导致的碱基错误,因此,三代测序技术可以获得样本的全长转录本信息。一个基因转录出来的初始转录本正因为有不同的剪切方式,才形成了不同种类的成熟转录本(mRNA)。通过和现有已知的基因组的注释文件进行比较,根据转录本剪切位点位置信息的不同,有新剪切位点的转录本即可被认为是新的转录本。目前现有确定新转录本的技术仅是通过比较外显子的重叠,没有准确定位到剪切位点,这就会导致原本是新的转录本被误判为已知的转录本。如图1所示,转录本a的3号外显子被参考基因组的3号外显子完全覆盖,但明显看出转录本a的3号外显子出现了不同的内含子剪切方式,形成了更短的外显子。同理,转录本b的4号外显子也出现了不同的剪切方式,形成了更长的外显子。正是因为这些因剪切位点的差异,才直接导致了新转录本的形成。但现有技术中,会把转录本a、b与参考基因组归为相同转录本。现主流的软件为Matchannot和Gffcompare。Matchannot软件会把测得的转录本序列的文件和已有的基因组注释文件进行比较,然后根据每个转录本外显子的覆盖程度比较进行分类。比对上已知基因的转录本再根据匹配程度的不同,进行打分。而比对上未知位置的转录本直接被定义为“nogenefound”。其分析结果粗略,不明晰,得分在3分及以下的转录本比对模糊;缺乏二代数据的验证,最终获得的新转录本的假阳性率偏高;也没有对三代测序数据进行矫正。Gffcompare软件是利用测得的转录本序列文件与已有基因组注释文件进行比对,然后根据外显子的覆盖程度比较,把转录本分成了15个类别,种类繁多复杂。其结果粗略,分得的种类多而杂;对于参考基因组注释信息不是很完善的动植物物种,适用性低,结果差;没有对三代测序数据进行矫正。
技术实现思路
针对现有技术的不足,本专利技术提供了一种转录本分类方法,通过准确定位剪切位点,进而将转录本分成了9个类别,该方法分类准确,假阳性率很低,适用性广泛。为了实现上述目的,本专利技术采用如下技术方案:一种转录本分类方法,所述方法是通过准确定位剪切位点对转录本进行分类,具体包括以下步骤:S1、对测序所得全长转录本结果质控,获得高质量全长转录本;S2、将S1中获得的高质量全长转录本与参考基因组比对,将相同基因模型下的所有转录本进行聚类,去冗余,一个基因模型下的一种剪切模式只保留唯一最长的转录本;S3、根据剪切位点,对全长转录本进行分类,获得初步分类结果;S4、过滤初步分类结果,获得最终分类结果。进一步地,在上述技术方案中,步骤S1所述全长转录本结果通过三代测序技术得到,所述质控方法具体为:筛选原始下机数据中碱基准确率大于99.9%和全长片段数大于等于2的序列。进一步地,在上述技术方案中,步骤S2所述聚类具体为:根据3'端的外显子和剪切位点的完全匹配对相似转录本进行聚类。进一步地,在上述技术方案中,还可以通过参考基因组序列对步骤S2所得的唯一最长的转录本序列进行碱基序列的矫正。进一步地,在上述技术方案中,步骤S3所述剪切位点需要通过二代转录组数据进行验证,其验证的方法具体为:对二代转录组数据进行质控,过滤掉低质量、N数目过多的序列,得到合格质量的短片段序列,再通过比对软件把短片段序列比对到参考基因组上获取准确的剪切位点的信息;所述对二代转录组数据进行质控的条件为:过滤掉接头序列,允许的最大错配数为2,palindrome模式下匹配碱基数大于30,simple模式下的匹配碱基数大于5,序列长度大于100bp,切除首端碱基质量小于3的或者N的碱基。进一步地,在上述技术方案中,步骤S3将所述全长转录本分成了9类,具体为:完全匹配的转录本,部分匹配的转录本,包含已知剪切位点重新组合的转录本,包含新剪切位点的转录本,反义转录本,融合转录本,内含子区的转录本,基因间区的转录本以及跨内含子和外显子区域的转录本。其中,所述完全匹配的转录本是指测序得到的全长转录本的剪切位点与参考基因组中的已知注释信息完全一致的转录本;所述部分匹配的转录本是指测序得到的全长转录本的剪切位点与参考基因组中的已知注释信息只有部分序列信息相同;所述包含已知剪切位点重新组合的转录本是指测序得到的全长转录本的各个剪切位点均是已知的,因剪切位点间间形成了新的排列组合,生成了不同的转录本;所述包含新剪切位点的转录本是指测序得到的全长转录本中出现新的剪切位点;所述反义转录本是指测序得到的全长转录本的序列方向和参考基因组的序列方向相反;所述融合转录本是指测序得到的全长转录本跨越两个不同的基因;所述内含子区的转录本是指测序得到的全长转录本完全比对到了基因组的内含子区域;所述基因间区的转录本是指测序得到的全长转录本位于不同基因间的区域;所述跨内含子和外显子区域的转录本是指测序得到的全长转录本一半位于内含子区域一半位于外显子区域。进一步地,在上述技术方案中,步骤S4是指对S3所获得的初步分类结果中“包含已知剪切位点重新组合形成的转录本”和“包含新的剪切位点的转录本”两类转录本进行过滤,过滤方法为通过编写脚本实现过滤,其具体过滤内容为:过滤掉二代转录组数据在测序所得全长转录本内含子剪切位点覆盖度低于3的测序所得全长转录本;过滤掉测序所得全长转录本3′端下游20个碱基中A含量低于80%的测序所得全长转录本;过滤掉剪切位点5′端外显子末端碱基与剪切位点3′内含子末端碱基序列不一致的测序所得全长转录本,具体的方法为:两个末端至少8bp的重复序列匹配,重复序列匹配位置的可变碱基数最大为1,不允许碱基的错配。本专利技术的有益效果为:(1)基于剪切位点对转录本进行确定并分类,分类清晰易懂,并且对相同基因模型下相似的转录本去冗余,降低假阳性率。(2)充分利用二代数据的测序碱基质量高,测序深度饱和的优势,准确获得与三代数据来源相同样本的转录本剪切位点的位置信息。然后把三代测序数据与二代数据的转录本剪切位点位置信息相比较,来判断新转录的存在。这种方法获得新转录本即得到二代数据的验证,也避免了三代测序技术本身造成的随机碱基测序错误。(3)利用参考基因组序列对全长转录本序列进行碱基序列的矫正,可以矫正三代测序技术的随机单碱基错误问题,更重要的是,矫正后数据的碱基错误率和比对错配的数目远小于矫正前的结果,更利于后续分析结果的准确性。(4)对初步分类结果进行过滤,有效的去除了在实际的测序实验建库过程和测序平台技术本身是会引入一定的人为错误,主要有PolyAintraPriming和RTSwitching,进一步降低了分类结果的假阳性率。附图说明图1:转录本的外显子比较图;图2:本专利技术中实施例1的流程示意图;图3:相同基因模型下转录本去冗余过程示意图;图4:本专利技术中转录本分类示意图。具体实施方式下面结合实施例对本本文档来自技高网
...

【技术保护点】
1.一种转录本分类方法,其特征在于,所述方法是通过准确定位剪切位点对转录本进行分类,具体包括以下步骤:/nS1、对测序所得全长转录本结果质控,获得高质量全长转录本;/nS2、将S1中获得的高质量全长转录本与参考基因组比对,将相同基因模型下的所有转录本进行聚类,去冗余,一个基因模型下的一种剪切模式只保留唯一最长的转录本;/nS3、根据剪切位点,对全长转录本进行分类,获得初步分类结果;/nS4、过滤初步分类结果,获得最终分类结果。/n

【技术特征摘要】
1.一种转录本分类方法,其特征在于,所述方法是通过准确定位剪切位点对转录本进行分类,具体包括以下步骤:
S1、对测序所得全长转录本结果质控,获得高质量全长转录本;
S2、将S1中获得的高质量全长转录本与参考基因组比对,将相同基因模型下的所有转录本进行聚类,去冗余,一个基因模型下的一种剪切模式只保留唯一最长的转录本;
S3、根据剪切位点,对全长转录本进行分类,获得初步分类结果;
S4、过滤初步分类结果,获得最终分类结果。


2.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S1所述质控方法具体为:筛选原始下机数据中碱基准确率大于99.9%和全长片段数大于等于2的序列。


3.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S2所述聚类具体为:根据3'端的外显子和剪切位点的完全匹配对相似转录本进行聚类。


4.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S2所述的唯一最长的转录本序列需要通过参考基因组序列进行碱基序列的矫正。


5.根据权利要求1所述的一种转录本分类方法,其特征在于,步骤S3所述剪切位点需要通过二代转录组数据进行验证。


6.根据权利要求5所述的一种转录本分类方法,其特征在于,所述通过二代转录组数据验证剪切位点的方法具体为:对二代转录组数据进行质控,过滤掉低质量、N数目过多的序列,得到合格质量的短片段序列,再...

【专利技术属性】
技术研发人员:封力汤冬王毓博李净净梁帆胡江汪德鹏
申请(专利权)人:武汉未来组生物科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1