一种生物信息变异位点数据格式转换方法技术

技术编号:24332770 阅读:18 留言:0更新日期:2020-05-29 20:31
本发明专利技术涉及基因工程技术领域,且公开了一种生物信息变异位点数据格式转换方法,所述转换方法的步骤包括有S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;S2:启动转换系统,转换系统根据指定数据路径获取相关数据。该生物信息变异位点数据格式转换方法,只需在配置文件中修改添加参数即可完成对所有的软件进行配置,避免了对大量软件的直接操作,提高了生物信息分析效率,实现了原始数据到中间数据及最终数据的一键式转换过程,直接获取关键SNP分型信息,操作过程大大的简化,并且还支持任何运行阶段的数据输出,便于验证和检查。

A data format conversion method of bioinformatics variation site

【技术实现步骤摘要】
一种生物信息变异位点数据格式转换方法
本专利技术涉及基因工程
,具体为一种生物信息变异位点数据格式转换方法。
技术介绍
基因体检的基础是基因测序技术的飞速发展和科学家对基因研究的日益深入,上世纪九十年代人类启动了“人类基因组计划”,利用荧光标记碱基后捕捉荧光信号,从而获得基因碱基序列信息,测序技术从第一代到如今的第三代第四代测序技术,发展经历了三十多年,测序通量、准确率大幅提高,耗时、成本大幅降低。随着基因检测由单独用于科研发展到临床级别和消费级别,市场对基因数据的高效准确处理的要求也越来越高,针对不同的测序方法,基因数据的分析方法也不尽相同,以二代测序技术(NGS)为例,测序下机数据一般会经过质量分析、数据过滤、序列比对、短序列排序、突变获取与注释等,最终获得SNP基因型数据,进一步进行解读并出具报告。数据分析流程和文件格式等如图1所示,测序数据的好坏会直接影响下有分析的结果,因此获取了NGS下机数据后需要分析数据的质量,常用的软件有fastqc、multiqc等;数据通过质检后,我们将取出接头序列和低质量序列,以便后续分析,常用工具有SOAP等;下来需要把这些短序列与参考基因组进行对比,确定短序列在基因组上的位置,通常使用BWA软件生成*.sam文件;比对后用samtools进行排序、建索引,得到reads在参考序列中的位置和质量,得到*.bam文件;最后用GATK等得到*.vcf文件,对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP基因分型数据。在上述过程中,流程处理数据过程繁琐,不同数据格式间的转换需要进行不同的分析流程,因此我们开发这套格式转换系统的目的是简化生物信息分析流程,做到“一键化”格式转换和数据处理,直接简单的获取SNP分型数据。
技术实现思路
针对上述
技术介绍
的不足,本专利技术提供了一种生物信息变异位点数据格式转换方法,具备“一键化”格式转换和数据处理的优点,解决了
技术介绍
提出的问题。本专利技术提供如下技术方案:一种生物信息变异位点数据格式转换方法,所述转换方法的步骤包括有:S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;S2:启动转换系统,转换系统根据指定数据路径获取相关数据;S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序;S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据;S5:运行结束,输出SNP分型数据。优选的,所述转换系统包括有数据识别模块、配置模块和程序调用模块,所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,所述数据识别模块根据配置模块指定的路径调取数据并识别,根据识别需要调用的程序,所述程序调用模块设置有与程序对应的调用单元,所述调用单元在调用对应程序时先根据配置文件数据对程序进行配置。优选的,所述程序运算结束后输出并保存特定类型的数据,然后返回给转换系统一个数据保存路径,所述转换程序在调用下一个程序时将该数据保存路径指定为下一个程序的数据读取路径。优选的,所述配置系统可以通过配置文件修改最终输出的文件类型。优选的,所述配置系统由Python编程语言实现对各个软件的高效串接和自动化操作优选的。本专利技术具备以下有益效果:1、该生物信息变异位点数据格式转换方法,只需在配置文件中修改添加参数即可完成对所有的软件进行配置,避免了对大量软件的直接操作,提高了生物信息分析效率。2、该生物信息变异位点数据格式转换方法,实现了原始数据到中间数据及最终数据的一键式转换过程,直接获取关键SNP分型信息,操作过程大大的简化,并且还支持任何运行阶段的数据输出,便于验证和检查。附图说明图1为二代测序技术(NGS)的数据分析流程和数据类型;图2为本专利技术方法中转换系统的控制关系图;图3为本专利技术方法中转换系统的示意图;图4为本专利技术实施方式的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-4,一种生物信息变异位点数据格式转换方法,转换方法的步骤包括有:S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数,本实施例基于二代测序技术(NGS),输入数据类型为fastq数据;S2:启动转换系统,转换系统根据指定数据路径获取相关数据,转化系统读取指定路径的fastq数据;S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序,在本实施例中,基于fastq数据和配置文件确定需要一次调用fastqc、SOAP、BWA、samtools、Picard和GATK等软件;S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据,在本实施例中,先调用fastqc对下机数据进行质量检测;数据通过质检后,运行SOAP软件取出接头序列和低质量序列,以便后续分析;接下来使用BWA软件把这些短序列与参考基因组进行对比,确定短序列在基因组上的位置,生成*.sam文件,BWA(Burrows-WheelerAlignmenttool)是目前常用的序列比对软件,能够高效的比对短序列和参考基因组,并找到短序列在参考基因组上的位置;比对后用samtools进行排序、建索引,得到reads在参考序列中的位置和质量,得到*.bam文件;运行Picard软件对组装好的全基因组数据,将过度重复测到的数据剔除掉,并对数据进行质量评价;最后用GATK等得到*.vcf文件,GATK主要用于在测序数据中找到单碱基变异(SNV)、短插入缺失(INDEL),是当前主流的寻找变异的软件。S5:运行结束,对*.vcf文件中感兴趣的SNP和基因型提取最终获取SNP基因分型数据输出SNP分型数据。在本实施例中,转换系统包括有数据识别模块、配置模块和程序调用模块,配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,数据识别模块根据配置模块指定的路径调取数据并识别,根据识别需要调用的程序,程序调用模块设置有与程序对应的调用单元,调用单元在调用对应程序时先根据配置文件数据对程序进行配置,通过转换系统自动化运行上述步骤,做到输入上述的任一种类型的文件,都会输出SNP分型数据,不用再进行其他分析流程,同时每次进行新样本分析时,就不用修改程序代码,只用创建一个配置文件,主程序将主动读取配置文件,生成并执行相应的代码。在本实施例中,程序运算结束后输出并保存特定类型的数据,然后返回给转换系统一本文档来自技高网
...

【技术保护点】
1.一种生物信息变异位点数据格式转换方法,其特征在于:所述转换方法的步骤包括有:/nS1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;/nS2:启动转换系统,转换系统根据指定数据路径获取相关数据;/nS3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序;/nS4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据;/nS5:运行结束,输出SNP分型数据。/n

【技术特征摘要】
1.一种生物信息变异位点数据格式转换方法,其特征在于:所述转换方法的步骤包括有:
S1:通过转换系统的配置文件输入配制数据,确定转换系统参考序列文件和指定数据路径、相关软件的调用等参数;
S2:启动转换系统,转换系统根据指定数据路径获取相关数据;
S3:识别相关数据类型,并根据数据类型和配置文件数据确定调用的程序和顺序;
S4:依次调用并配置程序相关参数,读取上一步获得的相关数据后运行程序,获得特定数据类型的数据并按照配置文件中路径保存数据;
S5:运行结束,输出SNP分型数据。


2.根据权利要求1所述的一种生物信息变异位点数据格式转换方法,其特征在于:所述转换系统包括有数据识别模块、配置模块和程序调用模块,所述配置模块根据用户输入的配置文件数据对转换系统和相关应用程序的参数进行配置,所述数...

【专利技术属性】
技术研发人员:罗奇斌申玉林廖胜光任毅
申请(专利权)人:北京奇云诺德信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1