一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法技术

技术编号:19320907 阅读:100 留言:0更新日期:2018-11-03 11:08
本发明专利技术属于基因组学技术领域,具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。本发明专利技术包括对总DNA进行高通量测序;测序数据的质控;基于类似宏基因组的序列拼接;线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装,具有实验简单,样本质量要求低,拼接完整度好,可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。

A method for sequencing and copy number determination of mitochondria based on high throughput sequencing

The invention belongs to the technical field of genomics, in particular to a method for directly determining mitochondrial sequence and copy number of eukaryotic organisms by high throughput sequencing (next generation sequencing, second generation sequencing, depth sequencing). The invention includes high throughput sequencing of total DNA, quality control of sequencing data, sequence splicing based on similar macrogenome, and calculation of mitochondrial content. This method realizes the assembly of mitochondria with less sequencing data without the need of mitochondrial enrichment. It has the characteristics of simple experiment, low sample quality requirement, good stitching integrity, and can measure the relative content of mitochondria. To a certain extent, it can meet the needs of scientific research and application.

【技术实现步骤摘要】
一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
本专利技术属于基因组学
,具体涉及一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。
技术介绍
线粒体是真核生物细胞中提供能量的细胞器,在生物体的能量转换和新陈代谢过程中占有核心地位。线粒体内部含有DNA,称为线粒体DNA(mitochondrialDNA,mtDNA),mtDNA组成了与细胞核不同的基因组,即线粒体基因组。线粒体基因组大小远小于核基因组,通常后生动物的线粒体基因组只有十几kb大小,植物线粒体基因组则稍大,为数百kb左右。不同细胞中线粒体DNA拷贝数量差异很大,如肝脏细胞中可有1000-2000个线粒体,而红细胞内则没有线粒体。在不同个体间同样的组织中,线粒体数量的差异与个体间的健康状况有关,线粒体数量较少的个体表现得更加孱弱,线粒体数量的改变也与部分肿瘤的恶性转化、肿瘤进展、转移以及预后密切相关。对线粒体基因组进行测序的方法主要分为两种:Sanger测序法和高通量测序法。目前大多数的线粒体测序工作由Sanger法完成,通过对线粒体的一些区域设计十几对引物进行PCR反应,再对PCR产物逐段进行测序。该法有着成本高、实验周期长和不能测定线粒体拷贝数和变异的缺点。近年来随着技术的进步,高通量测序已经广泛地应用在生物学和医学的多个领域之中,其中也包括线粒体基因组的测序。利用高通量测序测定线粒体基因组序列遇到的主要问题是线粒体基因组在细胞总DNA中的占比很小,需要通过一定的手段将其放大。目前主流的方法一是通过设计多条引物,利用PCR或等温扩增的方法来增加线粒体基因组的比例;二是对样本进行处理,将线粒体从细胞中提取出来,再提取线粒体中的DNA。第一种方法仍然需要设计多对引物和进行扩增,具有设计麻烦和操作繁琐的缺点。第二种方法对样本质量要求较高,一些在酒精中保存的标本不能应用该方法。
技术实现思路
有鉴于此,针对上述的问题,本专利技术提供一种利用高通量测序(下一代测序、第二代测序、深度测序)技术直接测定真核生物线粒体序列及拷贝数的方法。为实现上述目的,本专利技术采用技术方案为:一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法,1)利用高通量测序技术对线粒体进行组装拼接;2)测序数据与上述组装拼接进行比对;3)使用Reseqtools软件计算经过质量控制数据的总碱基数,记为Ntotal;4)计算拼接后的线粒体DNA总长度,记为Smito;5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数,记为Nmito;6)归一化计算样本的拷贝数M=(Nmito/Smito)/Ntotal。所述对线粒体进行组装拼接为:(1)利用高通量测序技术对样本进行测序;(2)对高通量测序数据进行质量控制;(3)基于类似宏基因组方法的序列拼接;(4)从拼接数据中筛选出线粒体序列。所述步骤(1)中用作测序的样本不需要专门的线粒体分离或线粒体DNA分离。测序实验包括DNA提取、pair-end测序文库库的的构建和高通量测序。所有实验均可使用市售试剂盒进行。进一步地,所述步骤1中高通量测序的测序量应不低于所测样本基因组大小的25%。优选地,与所测样本基因组大小相等。根据本专利技术的技术方案,所述步骤2中,测序数据的质量控制包括去除测序接头、无插入片段序列和低质量数据等不需要的数据。进一步的说所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。所述步骤(3)基于类似宏基因组方法使用SPAdes软件进行序列拼接;并且使用宏基因组拼接模式。所述使用SPAdes软件进行序列拼接时使用--meta参数开启宏基因组模式;拼接的kmer值选择33,55,77,优选为55。所述步骤(4)从拼接数据中筛选出线粒体序列的具体方法为:①对在所述步骤(3)中给出的拼接结果,按照输出的kmer覆盖度排序;②使用blast软件将覆盖度较大的序列与已知的线粒体DNA序列进行比对,alignmentlength大于7kb者可确定为线粒体DNA序列(因为线粒体的拷贝数远大于基因组,因此结果中覆盖度较大的scaffold即可能为线粒体DNA序列)。所述所述步骤2)中使用bowtie,bowtie2或bwa软件将原始样本测试数据reads比对到拼接好的线粒体序列上并输出bam格式文件。优选地,使用bowtie2将原始reads比对到拼接好的线粒体序列上。所述所述步骤6)中归一化拷贝数M的量纲为copy/bp;对于来源于同一物种的样本,该数值可以直接进行比较。本专利技术所具有的优点:本专利技术使用高通量测序的方法进行线粒体DNA测序,实验周期较一代测序短,单位成本低;与其它线粒体高通量测序方法相比,本方法在不需要进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装。本方法实验简单,样本质量要求低,对于长时间保存的样本也能获得完整度较好的拼接结果。同时,由于不进行扩增,可以保持样本中线粒体DNA含量信息,因此可以计算样本的线粒体相对含量。本专利技术的技术方案在中华绒螯蟹上进行了验证,而本专利技术之方法在理论上可以适用于所有真核生物。因此,本专利技术可以在一定程度上满足科研及应用需求。附图说明图1为本专利技术的流程示意图。具体实施方式为了更好的说明本专利技术,下面结合具体实施方式做进一步说明。除有特殊说明外,本专利技术中所用的试剂、设备或方法等都是本领域技术人员所熟知的,在此不再赘述。本专利技术包括对总DNA进行高通量测序;测序数据的质控;基于类似宏基因组的序列拼接;线粒体含量的计算。本方法实现了在不需进行线粒体富集操作的前提下使用较少测序数据进行线粒体的组装,具有实验简单,样本质量要求低,拼接完整度好,可以测量线粒体相对含量的特点。可以在一定程度上满足科研及应用需求。实施例1三例中华绒螯蟹的线粒体DNA测序与拼接,包括以下步骤:1.对3只中华绒螯蟹的肌肉组织总DNA,进行超声打断至500-700bp,并使用DNA文库构建试剂盒构建高通量测序文库。2.对构建高通量测序文库并使用NextSeq500高通量测序仪进行测序,每个样本测序量为2G。并使用bcl2fastq软件将测序结果转化为fastq格式。3.使用Trimmomatic软件对测序数据进行质量控制,具体关键参数为:LEADING:5TRAILING:5SLIDINGWINDOW:4:15MINLEN:30,得到高质量的测序数据。4.使用SPAdes软件对上述高质量的测序数据进行拼接,具体关键参数为:--meta-k55(参见表1)。5.对照组使用velvet软件对上述高质量的测序数据进行拼接,具体关键参数为:-cov_cutoff30-ins_length700-ins_length_sd100-exp_covauto-min_contig_lgth100。拼接结果在contigs.fa中,之后使用blast软件与已知序列比对,其比对e-value最小者为拼接的线粒体DNA序列(参见表1)。6.对照组使用bowtie2软件对上述高质量测序数据比对到已公开的中华绒螯蟹线粒体DNA序列上,再将比对成功的序列使用velvet软件进行拼接,具体关键参数同步骤5。拼接结果在conti本文档来自技高网
...

【技术保护点】
1.一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:1)利用高通量测序技术对线粒体进行组装拼接;2)测序数据与上述组装拼接进行比对;3)使用Reseqtools软件计算经过质量控制数据的总碱基数,记为Ntotal;4)计算拼接后的线粒体DNA总长度,记为Smito;5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数,记为Nmito;6)归一化计算样本的拷贝数M=(Nmito/Smito)/Ntotal。

【技术特征摘要】
1.一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:1)利用高通量测序技术对线粒体进行组装拼接;2)测序数据与上述组装拼接进行比对;3)使用Reseqtools软件计算经过质量控制数据的总碱基数,记为Ntotal;4)计算拼接后的线粒体DNA总长度,记为Smito;5)使用samtools计算比对到线粒体DNA序列的reads的总碱基数,记为Nmito;6)归一化计算样本的拷贝数M=(Nmito/Smito)/Ntotal。2.按权利要求1所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述对线粒体进行组装拼接为:(1)利用高通量测序技术对样本进行测序;(2)对高通量测序数据进行质量控制;(3)基于类似宏基因组方法的序列拼接;(4)从拼接数据中筛选出线粒体序列。3.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(1)中高通量测序的测序量应不低于所测样本基因组大小的25%。4.按权利要求2所述的基于高通量测序的线粒体序列拼接及拷贝数测定的方法,其特征在于:所述步骤(2)中测序数据的质量控制使用Trimmomatic软件对原始序列中低质量及接头序列进行去除。5.按权利要求2所述...

【专利技术属性】
技术研发人员:王尧峰薛金会郭海燕王伟伟程恩泽
申请(专利权)人:胤安国际辽宁基因科技股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1