一种RNA测序数据的基因表达量计算方法技术

技术编号:25712227 阅读:40 留言:0更新日期:2020-09-23 02:58
本发明专利技术公开了一种RNA测序数据的基因表达量的计算方法,仅需要两个非专业性的参数就可以自动地生成基于alignment‑based和alignment‑free的基因表达量,可以在提高基因表达量的定量精度的同时方便用户与其他的研究结果进行横向地比较;此外,本发明专利技术可以同时适用于定量化已发表的公开RNA‑seq数据和用户自己新测序得到的数据,避免了用户需要掌握和使用不同的软件来处理不同类型数据的困扰,节省用户大量的时间和精力。

【技术实现步骤摘要】
一种RNA测序数据的基因表达量计算方法
本专利技术属于基因表达数据分析
,具体涉及一种RNA测序数据基因表达量计算方法。
技术介绍
对基因表达数据进行分析是分子生物学的核心手段,近年来,随着高通量测序技术的发展,RNA-seq技术成为了测定基因表达量的主要手段,海量的原始RNA-seq数据得到了积累,这些公开的数据对于研究者而言具有十分重要的意义。然而,将原始RNA-seq序列读段(reads)转化为定量化的基因表达数据这一过程涉及了很多的专业软件,例如序列的质量控制,序列的比对和组装等。这些软件的使用需要一定的生物信息学背景和编程知识,这给使用RNA-seq数据带来了一定的门槛。因此,很多研究学者都视图降低这一门槛,目前的工具有两种,一种是对公开的RNA-seq数据进行收集和处理,提供整合的基因表达定量数据库,该方法的缺点是需要花费大量的人力和物力,因此主要集中在生物医疗方面的RNA-seq数据,此外,该方法具有一定的时滞性,通常没有囊括最新发表的数据;另一种是提供软件服务,允许用户直接对符合其研究兴趣的RNA-seq数据进行下载和定量化,然而,这种方法仍然涉及了很多专业的参数和技术性细节需要用户花费时间学习和设置;另外以上两种方法都只允许用户利用公开发表的RNA-seq数据,不能帮助他们对自己的测序数据进行定量化,再者,目前主要存在两种基于RNA-seq定量基因表达量的方案:依赖参考序列对比(alignment-based)或者不依赖参考序列比对(alignment-free),两种方案各有优缺点;目前不论是整合的数据库或者是软件服务都只采用了一种方案,这一方面可能会降低RNA-seq技术的准确性,另一方面也给横向比较基因的表达量带来了障碍。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的RNA测序数据的基因表达量计算方法解决了上述
技术介绍
中的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种RNA测序数据的基因表达量计算方法,包括以下步骤:S1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;若是,则进入步骤S3;若否,则进入步骤S2;S2、对质量检测不合格的序列进行修剪,进入步骤S3;S3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;S4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;S5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算。进一步地,所述步骤S1中,RNA测序数据包括用户构建的测序数据和公开的测序数据;当获取的RNA测序数据为公开的测序数据时,将其转换成FASTQ格式文本,FASTQ格式文本保存有测序序列及其测序质量得分信息,用于对公开的测序数据的序列进行质量检测。进一步地,所述步骤S1中,对序列进行质量检测包括测序质量检测和测序接头检测,当测序质量检测不合格或测序接头检测不合格时,序列的质量检测不合格;进行测序质量检测时,基于测序质量得分信息,当序列中存在测序质量小于设定阈值的碱基或该序列子集的平均测序质量小于设置阈值时,测序质量检测不合格;进行测序接头检测时,当序列中有超过设定阈值的读段含有测序接头时,测序接头检测不合格。进一步地,进行测序接头检测时,检测的测序接头包括illumina3端接头、illumina5端接头、illuminauniversal接头、NexteraTransposaseSequence接头和SOLiD接头。进一步地,所述步骤S2中,对质量检测不合格的序列进行修剪包括去除序列中低于设定阈值的碱基或去除超过设定阈值的测序接头;进一步地,所述步骤S4中,在基因和转录本之间的对应关系中,一个基因对应一个或多个转录本。进一步地,所述步骤S5具体为:A1、基于基因和转录本之间的对应关系,利用HISAT2将质量合格的序列或修剪后的序列对比到参考基因组中对其进行定位,将其保存并转化为BAM格式;A2、利用StringTie将BAM格式的序列组装成转录本,并以GTF格式保存;A3、基于GTF格式文本及基因和转录本之间的对应关系,利用alignment-based方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。进一步地,所述步骤A3中,基于GTF格式文本,质量合格的序列或修剪后的序列在转录组水平上的表达量的计算公式为:Count转录本=coverage*length/read_len式中,Count转录本是转录本的数量,即基因表达量,coverage为转录本的覆盖度,length为转录本的长度,read_len为序列读段的平均长度;基于基因和转录本之间的对应关系,质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:Count基因=∑(Count转录本)式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。进一步地,所述步骤S5具体为:B1、基于基因和转录本之间的对应关系,利用Salmon将质量合格的序列或修剪后的序列伪对比到参考转录组,将其保存为quant.sf格式纯文本;B2、基于quant.sf格式纯文本,利用alignment-free方法计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现基因表达量的计算。进一步地,所述步骤B2中,将quant.sf格式纯文本转换为csv格式,得到质量合格的序列或修剪后的序列在转录组水平上的表达量;所述质量合格的序列或修剪后的序列在基因水平上的表达量的计算公式为:Count基因=∑(Count转录本)式中,Count基因为某个基因的表达量,Count转录本为基因转录的某个转录本的数量。本专利技术的有益效果为:本专利技术提供的RNA测序数据的基因表达量的计算方法,仅需要两个非专业性的参数就可以自动地生成基于alignment-based和alignment-free的基因表达量,可以在提高基因表达量的定量精度的同时方便用户与其他的研究结果进行横向地比较;此外,本专利技术可以同时适用于定量化已发表的公开RNA-seq数据和用户自己新测序得到的数据,避免了用户需要掌握和使用不同的软件来处理不同类型数据的困扰,节省用户大量的时间和精力。附图说明图1为本专利技术提供的RNA测序数据的基因表达量计算方法流程图。图2为本专利技术提供的用户处理公开的RNA-seq数据时所需要输入的命令和参数参考示意图。图3为本专利技术提供的检测序列的测序质量的参考示意图。图4为本专利技术提供的处理用户自己的RNA-seq测序数据时所需要输入的命令和参数参考示意图。图5为本专利技术提的利用注释数据得到的本文档来自技高网
...

【技术保护点】
1.一种RNA测序数据的基因表达量计算方法,其特征在于,包括以下步骤:/nS1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;/n若是,则进入步骤S3;/n若否,则进入步骤S2;/nS2、对质量检测不合格的序列进行修剪,进入步骤S3;/nS3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;/nS4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;/nS5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算。/n

【技术特征摘要】
1.一种RNA测序数据的基因表达量计算方法,其特征在于,包括以下步骤:
S1、获取RNA测序数据,并对其序列进行质量检测,判断序列质量是否合格;
若是,则进入步骤S3;
若否,则进入步骤S2;
S2、对质量检测不合格的序列进行修剪,进入步骤S3;
S3、根据测序对象的通用名或科学命名,获取对应的参考基因组、参考转录组及注释数据,进入步骤S4;
S4、基于注释数据,提取参考基因组及参考转录组中基因和转录本之间的对应关系;
S5、基于基因和转录本之间的对应关系,计算质量合格的序列或修剪后的序列在基因水平上和转录组水平上的表达量,实现测序对象的基因表达量的计算。


2.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S1中,RNA测序数据包括用户构建的测序数据和公开的测序数据;
当获取的RNA测序数据为公开的测序数据时,将其转换成FASTQ格式文本,FASTQ格式文本保存有测序序列及其测序质量得分信息,用于对公开的测序数据的序列进行质量检测。


3.根据权利要求2所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S1中,对序列进行质量检测包括测序质量检测和测序接头检测,当测序质量检测不合格或测序接头检测不合格时,序列的质量检测不合格;
进行测序质量检测时,基于测序质量得分信息,当序列中存在测序质量小于设定阈值的碱基或该序列子集的平均测序质量小于设置阈值时,测序质量检测不合格;
进行测序接头检测时,当序列中有超过设定阈值的读段含有测序接头时,测序接头检测不合格。


4.根据权利要求3所述的RNA测序数据的基因表达量计算方法,其特征在于,进行测序接头检测时,检测的测序接头包括illumina3端接头、illumina5端接头、illuminauniversal接头、NexteraTransposaseSequence接头和SOLiD接头。


5.根据权利要求3所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S2中,对质量检测不合格的序列进行修剪包括去除序列中低于设定阈值的碱基或去除超过设定阈值的测序接头。


6.根据权利要求1所述的RNA测序数据的基因表达量计算方法,其特征在于,所述步骤S4中,在基因和转录本之间的对应关系中,一个基因对应一个或多个转录...

【专利技术属性】
技术研发人员:邹权孙善文
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1