基因表达的定量方法及装置制造方法及图纸

技术编号:10182793 阅读:120 留言:0更新日期:2014-07-03 13:28
本发明专利技术公开了一种基因表达的定量方法和装置,包括:获取含有核酸序列信息的读段序列;将读段序列与所有参考基因进行比对,获取比对上的读段序列;对比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;对于已过滤的读段序列,使用RPKM对目标基因表达进行定量。通过将读段序列与参考基因进行比对,而不是现有的与参考基因组进行比对,可以简化比对过程,提高比对效率。

【技术实现步骤摘要】
基因表达的定量方法及装置
本专利技术涉及基因组学及生物信息学
,具体涉及一种基因表达的定量方法及装置。
技术介绍
转录组测序技术(RNA-seq,RNAsequencing)是把小RNA(RibonucleicAcid,核糖核酸)、mRNA和非编码RNA等或者其中一些用高通量测序技术把它们的序列测出来。目前RNA-seq测序平台有多种,包括Hiseq、RocheFLX、IlluminaSolexa、ABIsolid等。不同测序平台的测序原理有所不同,但测序步骤基本包括文库制备,聚合酶链式反应(PCR,PolymeraseChainReaction)扩增等。通过RNA-seq,科研工作者能够获得生物中基因表达的情况,研究不同个体、不同时期、不同形态的组织的基因表达水平的差异。中国专利申请(申请号:201110283718.2,名称:一种分析基因表达定量的方法)基于Illumina平台公开一种分析基因表达定量的方法,可以克服数字基因表达谱(DGE,DigitalGeneExpression)技术对CATG位点和参考基因完整性依赖性强的缺点。但是,该方法测序分析需时较长,劳动效率有待提高。
技术实现思路
本专利技术提供一种基因表达的定量方法及装置,可以快速地完成基因表达的定量。依据本专利技术的一方面提供一种基因表达的定量方法,包括:获取含有核酸序列信息的读段序列;将读段序列与所有参考基因进行比对,获取比对上的读段序列;对比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;对于已过滤的读段序列,使用每百万读段序列中来自目标基因每千碱基长度的读段序列数目RPKM对所述目标基因表达进行定量,定义为RPKM=(比对到目标基因对应的参考基因的读段序列的数目)*109/(比对到所有参考基因的读段序列的数目*目标基因的长度)。优选地,比对到目标基因对应的参考基因的读段序列的数目是指只能比对到目标基因对应的参考基因上,而且能够比对到所述参考基因的至少一个转录本的读段序列的数目;目标基因的长度是指目标基因的所有转录本中最长的转录本的长度。依据本专利技术的另一方面提供一种基因表达的定量装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述基因表达的定量方法。本专利技术的有益效果是:通过将读段序列与参考基因进行比对,而不是现有的与参考基因组进行比对,可以简化比对过程,提高比对效率。特别地,比对到目标基因对应的参考基因的读段序列的数目是指只能比对到目标基因对应的参考基因上,而且能够比对到所述参考基因的至少一个转录本的读段序列的数目,则不会认为这部分读段序列是重复比对而需要被过滤,从而提高RPKM和QPCR的相关性,即提高基因表达定量的准确性。附图说明图1为现有技术中RNA-seq的流程图;图2为本专利技术实施例一的流程图(A);图3为本专利技术实施例一的流程图(B);图4为本专利技术实施例一的读段序列选择示意图;图5是本专利技术实施例一的HBRR标准品和QPCR标准的相关性结果图;图6是本专利技术实施例一的HBRR标准品的重复性结果图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。现有的高通量测序平台有多种,包括Roche454,IonPGM和IonProton等。本专利技术中的实施例以IonProton测序平台作说明,其他测序平台亦同样适用本专利技术所提供的方法,测序平台并不构成本专利技术的限制。RNA样本的文库构建一般包括将RNA反转录为DNA来进行文库构建,RNA的提取、构建文库等均可利用现有技术进行,测序文库构建步骤一般包括打断、末端修复、加proton接头、扩增等,请参考图1,测序步骤及参数可以根据不同测序平台的建议操作说明、测试样本种类进行调整,不构成对本专利技术的限制。实施例中未注明具体条件的,按照常规条件或制造商建议的条件进行;所用试剂或仪器未注明生产厂商的,均为可以通过市面购买获得的常规产品。实施例一:本实施例采用RNA样本构建文库。RNA样本使用人组织混合液RNA的微阵列质量控制标准品(UHRR-MAQC,UniversalHumanReferenceRNA-MicroArrayQualityControl)和人脑混合液RNA微阵列质量控制标准品(HBRR-MAQC,HumanBrainReferenceRNA-MicroArrayQualityControl),其中UHRR-MAQC标准品采购自安捷伦公司(AgilentTechnologies,Inc.),HBRR-MAQC购自Ambion公司。在其他具体实施方式中,亦可以使用其他种类的RNA标准品,或是采购自其他公司所生产的RNA标准品,对本专利技术不构成限制。本实施例构建文库的过程如下:取总RNA样品,用DEPC(diethylpyrocarbonate,焦碳酸二乙酯)水稀释,混匀,65℃变性,使用dT(DynalbeadsOligo)25磁珠将总RNA中的信使RNA(mRNA)调取出来并纯化;将所得mRNA与打断试剂混合得到打断的mRNA,再与试剂I混合进行一链合成反应;将一链合成反应后的体系与试剂II混合,进行二链合成反应,反应完成后,用AmpureXP磁珠纯化二链产物;所得二链产物与试剂III混合进行末端修复,并用AmpureXP磁珠纯化末端修复产物;所得末端修复产物与试剂IV混合进行加接头,并用AmpureXP磁珠纯化加接头产物;采用PCR仪扩增,并用AmpureXP磁珠纯化PCR产物,获得测序文库。构建转录本文库或其它RNA文库亦可利用现有方法,文库构建并不构成本专利技术的限制。试剂I:0.5μl的100mM二硫苏糖(DTT,DL-Dithiothreitol)、0.5μl的10mM脱氧核糖核苷三磷酸(dNTPMix,deoxy-ribonucleosidetriphosphate)、0.5μl的RNases抑制剂(RNaseInhibitor)。试剂II:10μlGEXSecondStrandBuffer、2μl10mMdNTPMix,0.2μl逆转录酶RNaseH、2.5μlDNA聚合酶I(DNAPolI)。试剂III:5μl10X末端修复缓冲液(EndRepairBuffer)、0.4μl25mMdNTPMix、1.2μlT4DNA聚合酶(T4DNAPolymerase)、0.2μlKlenowDNA聚合酶(KlenowDNAPolymerase)、1.2μlT4多聚核苷酸激酶(T4PNK)。试剂IV:2μlT4DNA连接酶(T4DNALigase)、2μlprotonAdapterOligoMix(12um)、25μl2XRapidT4DNALigaseBuffer。利用Agilent2100质检构建得的文库,上机测序,获得测序序列,即获得读段序列(reads)。请参考图2至图6,本实本文档来自技高网...
基因表达的定量方法及装置

【技术保护点】
一种基因表达的定量方法,其特征在于,包括:获取含有核酸序列信息的读段序列;将所述读段序列与所有参考基因进行比对,获取比对上的读段序列; 对所述比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,所述软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;所述比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;对于已过滤的读段序列,使用每百万读段序列中来自目标基因每千碱基长度的读段序列数目RPKM对所述目标基因表达进行定量,定义为RPKM=(比对到目标基因对应的参考基因的读段序列的数目)*109/(比对到所有参考基因的读段序列的数目*目标基因的长度)。

【技术特征摘要】
1.一种基因表达的定量方法,其特征在于,包括:获取含有核酸序列信息的读段序列;将所述读段序列与所有参考基因进行比对,获取比对上的读段序列;对所述比对上的读段序列进行过滤,舍去软剪切比例超过第一预设值,序列长度小于第二预设值,以及比对得分小于第三预设值的读段序列,所述软剪切比例是指没有比对上的碱基数目占该读段序列总碱基数目的比例;所述比对得分是按照每个读段序列与参考基因的匹配程度以及读段序列的长度而确定的数值;对于已过滤的读段序列,使用每百万读段序列中来自目标基因每千碱基长度的读段序列数目RPKM对所述目标基因表达进行定量,定义为RPKM=(比对到目标基因对应的参考基因的读段序列的数目)*109/(比对到所有参考基因的读段序列的数目*目标基因的长度);所述比对到目标基因对应的参考基因的读段序列的数目是指只能比对到目标基因对应的参考基因上,而且能够比对到所述参考基因的至少一个转录本的读段序列的数目。2.如权利要求1中所述的方法,其特征在于,所述第一预设值为[10%,30%],所述第二预设值为[15,25]。3.如权利要求2中所述的方法,其特征在于,所述第一预设值为20%,第二预设值为20。4.如权利要求1中所述的方法,其特征在于,所述目标基因的长度是指目标基因的所有转录本中最长的转录本的长度。5.如权利要求1中所述的方法,其特征在于,所述读段序列与参考基因进行比对的步骤之前还包括:对读段序列进行修剪,去除接头、低质量的读段序列和3’端位置相同的读段序列,所述低质量的读段序列是指测序准确度低于第四预设值的碱基的数目超过该读段序列总碱基数目的第五预设值的读段序列。6.如权...

【专利技术属性】
技术研发人员:黄文潘卢志远龚梅花章文蔚席凤韩鸿雁
申请(专利权)人:深圳华大基因科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1