基于RNA‑seq数据的真核生物可变剪接分析方法和系统技术方案

技术编号:17407498 阅读:255 留言:0更新日期:2018-03-07 05:10
本发明专利技术提供一种基于RNA‑seq数据的真核生物可变剪接分析方法和系统。包括通过illumina二代测序平台获取某一具有参考基因组和注释的真核生物的一个或多个样品的转录组原始测序数据;将质量不合格的数据过滤掉,留下的数据作为待分析的数据;接着进行基础分析:将各个转录组样本待分析数据分别比对到所述物种的参考基因组,筛选出唯一比对的结果;计算各样本基因的表达量;筛选出显著差异表达的基因;对差异基因进行功能注释和分析;然后进行可变剪接分析:已知可变剪接事件的鉴定;新的可变剪接事件的鉴定;样品(组)间可变剪接事件差异分析;可变剪接与基因表达关联分析;可变剪接分析结果统计和报表生成;可变剪接可视化图生成。

Eukaryotic splicing of RNA SEQ data analysis method and system based on

【技术实现步骤摘要】
基于RNA-seq数据的真核生物可变剪接分析方法和系统
本专利技术涉及生物信息
,尤其涉及一种基于RNA-seq数据的真核生物可变剪接分析方法和系统。
技术介绍
在真核生物中,有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternativesplicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。高通量测序技术(High-throughputsequencing)又称“下一代”测序技术("Next-generation"sequencingtechnology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。而RNA-seq测序技术利用高通量测序平台已经成为非常广泛被使用的研究RNA的技术。而使用RNA-seq技术来研究可变剪接比其他技术拥有更多的好处。到目前为止,RNA-seq分析方法主要集中在基因表达水平的评估和发现新的外显子,以及转录本的组装和注释,对外显子选择从表达水平进行量化和研究。可本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201610707885.html" title="基于RNA‑seq数据的真核生物可变剪接分析方法和系统原文来自X技术">基于RNA‑seq数据的真核生物可变剪接分析方法和系统</a>

【技术保护点】
一种基于RNA‑seq数据的可变剪接分析方法,其特征在于,包括:1)通过illumina二代测序平台获取某一具有参考基因组和注释的真核生物的一个或多个样品的转录组原始测序数据;2)对上述各组原始测序数据进行过滤,将质量不合格的数据过滤掉,留下的数据作为待分析的数据,过滤的条件是:截掉adapter接头及之后的序列;截掉序列末尾质量低于20的碱基;丢掉序列长度小于16的序列;去掉50%碱基质量低于20的序列;3)对各个转录组的待分析数据进行基础分析和可变剪接分析,其中,所述的基础分析包括:(1)将所述各个转录组样本待分析数据分别比对到所述物种的参考基因组,获取发生剪接的比对结果,并筛选出唯一比对...

【技术特征摘要】
1.一种基于RNA-seq数据的可变剪接分析方法,其特征在于,包括:1)通过illumina二代测序平台获取某一具有参考基因组和注释的真核生物的一个或多个样品的转录组原始测序数据;2)对上述各组原始测序数据进行过滤,将质量不合格的数据过滤掉,留下的数据作为待分析的数据,过滤的条件是:截掉adapter接头及之后的序列;截掉序列末尾质量低于20的碱基;丢掉序列长度小于16的序列;去掉50%碱基质量低于20的序列;3)对各个转录组的待分析数据进行基础分析和可变剪接分析,其中,所述的基础分析包括:(1)将所述各个转录组样本待分析数据分别比对到所述物种的参考基因组,获取发生剪接的比对结果,并筛选出唯一比对的结果;(2)计算各样本基因的表达量:基于RPKM标准化方法使用python编写程序,计算基因表达量信息;(3)将各样品按照样品间或样品组间进行差异分析,筛选出显著差异表达的基因:样本(组)间差异分析使用R软件包edgeR进行,显著差异基因的筛选标准为:pvalue小于等于0.01,foldchange大于等于2;(4)对差异基因进行功能注释和分析:包括样品间相关性分析,差异基因聚类分析,差异基因GO富集分析,差异基因KEGGPathway分析;所述的可变剪接分析包括:(1)参考基因组注释文件中已知可变剪接事件的鉴定;(2)新的可变剪接事件的鉴定;(3)样品(组)间可变剪接事件差异分析;(4)可变剪接与基因表达关联分析;(5)可变剪接分析结果统计和报表生成;(6)可变剪接可视化图生成:使用perl编写程序,绘制可变剪接事件的可视化图。2.根据权利要求1所述的方法,其特征在于,所述的基础分析的比对使用tophat2软件进行,软件的参数具体设置如下:设置比对reads的错配数为4;设置Bowtie2片段比对最大错配数为1;设置reads最大的多位置比对结果输出个数为2;设置线程数为16;其他均使用软件默认设置。3.根据权利要求1所述的方法,其特征在于,各个转录组样本待分析数据分别比对到所述物种的参考基因组得到结果后,筛选出唯一比对结果的方法如下:检查bam文件中每条比对结果TAG的NH,如果匹配“NH:i:1”,则表示该reads是唯一比对的结果,保留下来,否则就丢掉;最后筛选留下的结果使用samtools工具转换为bam文件,并建立index;该bam用于后续分析;Tophat2可以提取出发生剪接的reads比对结果,并生成bed文件:junctions.bed,该文件是后序可变剪接分析的输入文件。4.根据权利要求1所述的方法,其特征在于,可变剪接分析中研究的可变剪接事件包括的类别如下:外显子跳跃事件(ES/cassetteExon),互斥外显子事件,可变3’剪接事件,可变5’剪接事件,可变的第一个外显子事件,可变的最后一个外显子事件,同时外显子跳跃和可变3’剪接的事件,同时外显子跳跃和可变5’剪接的事件,内含子保留事件。5.根据权利要求1所述的方法,其特征在于,参考基因组注释文件中已知可变剪接事件的鉴定步骤为:首先为每个基因定义一个基因模型,也就是genemo...

【专利技术属性】
技术研发人员:张翼程超
申请(专利权)人:武汉生命之美科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1