The invention relates to a mitochondrial high-throughput sequencing data processing method and a system, relating to the field of biological information technology. Sequencing of mitochondrial high-throughput sequencing data sources for data acquisition and recording format; quality control analysis to determine whether the sequencing data quality standards for the identification of the data, if the sequencing data quality standards, the exit process and report quality control is not required; if the sequencing data quality standards, according to sources of sequencing data sequences of the sequencing data quality standards, if the sequence comparison is not successful, then exit process and report the sequence comparison is not successful, success will be if the sequence comparison, gene sequencing data comparison group notes after the success of. The invention can not connect to the Internet case of mitochondrial gene detection data of high volume automated analysis and processing, and the mutation of genes according to the research of clinical detection and experimental science classification display, convenient for clinical application and scientific research.
【技术实现步骤摘要】
一种线粒体高通量测序数据处理方法及系统
本专利技术涉及生物信息
技术介绍
目前,已有的针对线粒体的二代测序数据分析流程主要是由对测序数据质量控制、将测序得到的大量短序列片段比对到已知人类参考序列、寻找变异、对变异进行基因组学注释和疾病关联注释5步组成。但是,流程中上一步的输出文件和下一步所需输入文件格式不同,造成无法实现数据的高自动化分析,且已有的基因组学注释软件如适用度和知名度很高的ANNOVAR和SnpEff对核DNA中的变异注释较为精确,但对线粒体DNA上的变异无法正确注释变异所位于的基因、氨基酸改变以及变异发生的位置,极易造成错误的科研指导和错误的临床解读;在致病关联注释步骤中,已有的软件只能连接Internet使用,这又极大的限制了使用范围。
技术实现思路
本专利技术为了解决目前线粒体基因组学注释不准确的问题,提出了一种线粒体高通量测序数据处理方法及系统。本专利技术解决上述技术问题的技术方案如下:一种线粒体高通量测序数据处理方法,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。本专利技术的有益效果是:本专利技术可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处 ...
【技术保护点】
一种线粒体高通量测序数据处理方法,其特征在于,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。
【技术特征摘要】
1.一种线粒体高通量测序数据处理方法,其特征在于,所述方法包括:S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;S4、将对比成功后的测序数据进行基因组学注释。2.根据权利要求1所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S1的具体实现过程为:对线粒体高通量测序数据来源进行测序鉴定,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据。3.根据权利要求2所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S2中若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为IonTorrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。4.根据权利要求3所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S3中序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。5.一种线粒体高通量测序数据处理系统,其特征在于,所述系统...
【专利技术属性】
技术研发人员:任永永,全雪萍,郝占平,
申请(专利权)人:为朔医学数据科技北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。