一种线粒体高通量测序数据处理方法及系统技术方案

技术编号:15330197 阅读:155 留言:0更新日期:2017-05-16 13:42
本发明专利技术涉及一种线粒体高通量测序数据处理方法及系统,涉及生物信息技术领域。对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则将对比成功后的测序数据进行基因组学注释。本发明专利技术可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。

Mitochondrial high throughput sequencing data processing method and system

The invention relates to a mitochondrial high-throughput sequencing data processing method and a system, relating to the field of biological information technology. Sequencing of mitochondrial high-throughput sequencing data sources for data acquisition and recording format; quality control analysis to determine whether the sequencing data quality standards for the identification of the data, if the sequencing data quality standards, the exit process and report quality control is not required; if the sequencing data quality standards, according to sources of sequencing data sequences of the sequencing data quality standards, if the sequence comparison is not successful, then exit process and report the sequence comparison is not successful, success will be if the sequence comparison, gene sequencing data comparison group notes after the success of. The invention can not connect to the Internet case of mitochondrial gene detection data of high volume automated analysis and processing, and the mutation of genes according to the research of clinical detection and experimental science classification display, convenient for clinical application and scientific research.

【技术实现步骤摘要】
一种线粒体高通量测序数据处理方法及系统
本专利技术涉及生物信息

技术介绍
目前,已有的针对线粒体的二代测序数据分析流程主要是由对测序数据质量控制、将测序得到的大量短序列片段比对到已知人类参考序列、寻找变异、对变异进行基因组学注释和疾病关联注释5步组成。但是,流程中上一步的输出文件和下一步所需输入文件格式不同,造成无法实现数据的高自动化分析,且已有的基因组学注释软件如适用度和知名度很高的ANNOVAR和SnpEff对核DNA中的变异注释较为精确,但对线粒体DNA上的变异无法正确注释变异所位于的基因、氨基酸改变以及变异发生的位置,极易造成错误的科研指导和错误的临床解读;在致病关联注释步骤中,已有的软件只能连接Internet使用,这又极大的限制了使用范围。
技术实现思路
本专利技术为了解决目前线粒体基因组学注释不准确的问题,提出了一种线粒体高通量测序数据处理方法及系统。本专利技术解决上述技术问题的技术方案如下:一种线粒体高通量测序数据处理方法,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。本专利技术的有益效果是:本专利技术可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,所述S1的具体实现过程为:对线粒体高通量测序数据来源进行测序鉴定,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据。采用上述进一步方案的有益效果是:本专利技术能够同时兼容Illnumina和IonTorrent两种平台测序后数据分析的需求,自动化且不需连接Internet便可使用。进一步,所述S2中若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为IonTorrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。进一步,所述S3中序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。为了解决上述技术问题,本专利技术提出了一种线粒体高通量测序数据处理系统,所述系统包括:数据来源判断模块,用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;原始数据质量检测模块,用于对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则启动序列对比模块;序列对比模块,用于根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则启动基因组学注释模块;基因组学注释模块,用于将对比成功后的测序数据进行基因组学注释。本专利技术的有益效果是:本专利技术可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。进一步,所述数据来源判断模块中所述的数据格式为Illnumina数据或IonTorrent数据,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据。采用上述进一步方案的有益效果是:本专利技术能够同时兼容Illnumina和IonTorrent两种平台测序后数据分析的需求,自动化且不需连接Internet便可使用。进一步,所述原始数据质量检测模块中,若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为IonTorrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。进一步,所述序列对比模块中,根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。附图说明图1为本专利技术实施例所述的线粒体高通量测序数据处理方法的流程图;图2为本专利技术实施例所述的线粒体上存在的变异位点的示意图;图3为本专利技术实施例所述的采用SnpEff软件的变异的注释结果;图4为本专利技术实施例所述的采用ANNOVAR软件的变异的注释结果;图5为本专利技术实施例所述的采用本专利技术所述方法的变异的注释结果;图6为本专利技术实施例所述的线粒体高通量测序数据处理系统的原理示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。实施例1如图1所示,本实施例提出了一种线粒体高通量测序数据处理方法,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;对数据进行质控分析可采用FastQC软件实现,该软件所需输入文件为fastq格式的问题,因此,如果测序后数据来源为Illnumina,则直接进行质控分析,如果来源为IonTorrent,则需先将bam格式的文件转为Illnumina然后再使用FastqQC进行质控分析;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上;Illnumina可使用bwa序列对比软件,IonTorrent可使用TMAP序列对比软件;S4、将对比成功后的测序数据进行基因组学注释。如图2所示为线粒体上存在的变异位点,图3、图4和图5分别为SnpEff、ANNOVAR和本实施例对图2中的变异的注释结果,从结果可以看出对相同变异,ANNOVAR无法注释出变异所在的基因及氨基酸变异;SnpEff无法正确注释出第一个变异所在的基因,对第二个变异的注释虽包含正确基因,但同时给出大量无关基因;本实施例准确注释出2个变异所在的基因及氨基酸变化。实施例2如图6所示,本实施例提出了一种线粒体高通量测序数据处理系统,所述系统包括:数据来源判断模块,用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据;原始数据质量检测模块,用于对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则启动序列对比模块;对数据进行质控分析可采用FastQC软件实现,该软件所需输入文件为fastq格式的问题,因此,本文档来自技高网...
一种线粒体高通量测序数据处理方法及系统

【技术保护点】
一种线粒体高通量测序数据处理方法,其特征在于,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。

【技术特征摘要】
1.一种线粒体高通量测序数据处理方法,其特征在于,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。2.根据权利要求1所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S1的具体实现过程为:对线粒体高通量测序数据来源进行测序鉴定,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据。3.根据权利要求2所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S2中若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为IonTorrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。4.根据权利要求3所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S3中序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。5.一种线粒体高通量测序数据处理系统,其特征在于,所述系统...

【专利技术属性】
技术研发人员:任永永全雪萍郝占平
申请(专利权)人:为朔医学数据科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1