【技术实现步骤摘要】
一种基于三代测序检测多样本量比较转录组分析方法
本专利技术属于生物信息学
,尤其涉及一种基于三代测序检测多样本量比较转录组分析方法。
技术介绍
随着测序技术的飞速发展,许多基因组已经完成组装,比较基因组学也成为了研究这些物种与近缘物种进化关系、查找与物种间进化相关基因的重要手段。但相对于已完成基因组测序的物种,未完成基因组测序的物种依然占据绝大多数。这有两方面的原因,一是基于目前的测序技术,组装一个基因组的费用依然十分昂贵;二是某些物种的基因组比较复杂,如大基因组物种、多倍体物种等,组装难度很大,目前的组装技术很难实现。对于这些物种,可以用比较转录组的方法,利用它们的转录组数据开展相应的研究,该方法已经在一些科属中成功运用。全长转录组是指基于三代测序技术测出的转录组,主要有以下优点:(1)可以直接获得全长转录本;(2)三代全长无GC偏好性,无需组装,结果更准确;(3)数据准确性高,覆盖更加全面。随着测序费用的逐年下降,越来越多的科研工作者倾向于多样本量的测序分析,但是目前基于比较转录组的分析方法还比较少见。r>专利技术本文档来自技高网...
【技术保护点】
1.一种基于三代测序检测多样本量比较转录组分析方法,其特征在于,包括:/n三代测序下机数据质控,得到质控数据结果;/n基于所述质控数据结果,获取三代全长转录本,对所述三代全长转录本进行CDS和PEP预测,得到预测结果;/n基于预测结果进行基因家族聚类,获取直系同源基因、旁系同源基因和物种特有基因;/n对所述直系同源基因进行宏观进化分析、SSR检测和标记开发,以及;/n对所述直系同源基因进行功能基因定位,挖掘研究材料不同亚种或近源物种快速进化基因;/n对所述旁系同源基因进行WGD事件检测和个别家族的基因家族树分析;/n对所述物种特有基因进行数据库注释,明确研究材料的特有基因的特有功能。/n
【技术特征摘要】 【专利技术属性】
1.一种基于三代测序检测多样本量比较转录组分析方法,其特征在于,包括:
三代测序下机数据质控,得到质控数据结果;
基于所述质控数据结果,获取三代全长转录本,对所述三代全长转录本进行CDS和PEP预测,得到预测结果;
基于预测结果进行基因家族聚类,获取直系同源基因、旁系同源基因和物种特有基因;
对所述直系同源基因进行宏观进化分析、SSR检测和标记开发,以及;
对所述直系同源基因进行功能基因定位,挖掘研究材料不同亚种或近源物种快速进化基因;
对所述旁系同源基因进行WGD事件检测和个别家族的基因家族树分析;
对所述物种特有基因进行数据库注释,明确研究材料的特有基因的特有功能。
2.根据权利要求1所述的分析方法,其特征在于,所述三代测序下机数据质控,得到质控数据结果包括:
针对Nanopore平台测序数据进行过滤接头,过滤掉质量值小于7的reads,且过滤掉长度小于300bp的reads;
针对Pacbio平台测序数据进行过滤接头,过滤掉长度小于300bp的reads。
3.根据权利要求2所述的分析方法,其特征在于,所述基于所述质控数据结果,获取三代全长转录本,对所述三代全长转录本进行CDS和PEP预测,得到预测结果包括:
针对Nanopore平台测序数据,基于对应的质控数据结果,采用pychopper中的cdna_classifier.py程序进行全长转录本检测,同时利用pinfish针对获取的全长转录本进行自纠错,进而获得高质量的全长转录本;
针对Pacbio平台测序数据,基于对应的质控数据结果,采用软件smrtlink7.0,结合参数minPredictedAccuracy和hp_min_accuracy进行分析,获取质量值在0.99以上的高质量全长转录本;
基于所述全长转录本,利用TransDecoder-3.0.1进行CDS和PEP预测,每个全长转录本预测多个开放阅读框ORF,选择最长的ORF作为全长转录本的预测结果。
4.根据权利要求2所述的分析方法,其特征在于,所述基于预测结果进行基因家族聚类,获取直系同源基因、旁系同源基因和物种特有基因包括:
预测的PEP信息,利用blastp程序进行all-vs-all最佳互惠比对,以E-value为1e-10进行搜索,选择besthitstop5%;采用最小二乘法将top5%的分数值拟合成一个线性模型,利用比特值进行模型转换;基于PEP长度和系统发育距离对blastp比特值得分进行标准化,使用RBNH方法,确定同源组序列性相似度的阈值线,构建出高质量的直系同源组图;
基于直系同源组图,构建直系同源正交组,通过归一化的比特值画出正交组的边缘连接,作为MCL的输入文件;
基于MCL,将直系同源正交组进行聚类,基于聚类结果判断研究材料为直系同源基因或特有基因家族或共有基因家族或旁系同源基因;
其中,所述基于聚类结果判断研究材料为直系同源基因或特有基因家族或共有基因家族或旁系同源基因包括:
如果在某一个基因家族,所有研究材料只有一个单拷贝基因,将所有研究材料定义为直系同源基因;
如果某基因家族只有一个研究材料的基因,将研究材料定义为特有基因家族;
如果所有研究材料在某个基因家族至少包含一个基因,将研究材料定义为共有基因家族;
技术研发人员:郑洪坤,王运通,李绪明,
申请(专利权)人:北京百迈客生物科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。