高通量16S测序数据自动化处理方法技术

技术编号:15541192 阅读:453 留言:0更新日期:2017-06-05 10:43
本发明专利技术公开的高通量16S测序数据自动化处理方法,包括如下步骤:1)输入要进行分析的项目信息;2)从存储数据的服务器调取高通量16S测序数据;3)将获取的对应项目的数据进行预处理;4)将优质序列进行注释,并开始进行标准分析流程;5)查看日志,保证结果的无误性。本发明专利技术的有益效果在于:基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。

Automatic processing method for high throughput 16S sequencing data

Automatic methods for high-throughput 16S sequencing data disclosed by the invention comprises the following steps: 1) input to analyze the project information; 2) from the server to obtain high throughput 16S sequencing data storage data; 3) will correspond to the project data pretreatment; 4) high quality sequences were annotated, and began to the standard analysis procedure; 5) to view the log, error free guarantee results. The invention has the advantages that: Linux automation shell PM can be used for batch process based on project analysis, improve server utilization efficiency, reduce the pressure of personnel analysis, content analysis and easy to control.

【技术实现步骤摘要】
高通量16S测序数据自动化处理方法
本专利技术属于分子生物信息检测领域,具体涉及一种高通量16S测序数据自动化处理方法。该方法只用在已有高通量16S测序数据匹配基础上,基于linux跨服务器数据自动传送的能力,以提高测序数据的使用效率以及分析效率,减少人为干涉因素对分析结果的影响。
技术介绍
16SrDNA鉴定是指用利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤。是一种快速获得细菌种属信息的方法。英文名称是16SribosomalDNAidentification,应用有细菌种属鉴定。细菌rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23SrRNA。16SrDNA是细菌染色体上编码16SrRNA相对应的DNA序列,存在于所有细菌染色体基因中。16SrDNA是细菌的系统分类研究中最有用的和最常用的分子钟,其种类少,含量大(约占细菌RNA含量的80%),分子大小适中,存在于所有的生物中,其进化具有良好的时钟性质,在结构与功能上具有高度的保守性,素有“细菌化石”之称。在大多数原核生物中rDNA都具有多个拷贝,5S、16S、23SrDNA的拷贝数相同。16SrDNA由于大小适中,约1.5Kb左右,既能体现不同菌属之间的差异,又能利用测序技术较容易地得到其序列,故被细菌学家和分类学家接受。而分析16S高通量测序数据的软件,主要是使用mothur或者qiime,需要人为的进行调用命令或脚本,而且使用的数据存放于不同的服务器,因此分析时需要使用跨服务器数据传送命令,并且每次传送都需要手动输入密码,加大了分析人员的压力。专利技术创造本专利技术的目的在于针对现有16S高通量测序数据软件在数据处理方面所存在的问题提供一种高通量16S测序数据自动化处理方法,该方法基于linuxshell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。为了实现上述专利技术目的,本专利技术所采用的技术方案是:高通量16S测序数据自动化处理方法,包括如下步骤:1)输入要进行分析的项目信息格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;3)将获取的对应项目的数据进行预处理包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;4)将优质序列进行注释,并开始进行标准分析流程将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;5)查看日志,保证结果的无误性在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。本专利技术的有益效果在于:基于linuxshell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。附图说明图1为本专利技术的高通量16S测序数据自动化处理方法的自动化流程的方法流程图。具体实施方式为了能够更清楚地理解本专利技术的
技术实现思路
,特举以下实施例详细说明。请参阅图1所示,为本专利技术的高通量测序数据自动化处理方法的步骤流程图。该方法如图1所示包括以下步骤:(1)输入的需要分析的项目的信息文件;(2)检测信息的是否满足条件(格式是否正确),;(3)格式正确后,将对应项目进行任务分配,一般是同时进行2,3个项目分析;(4)查找项目的对应的数据,判断是否存在,如果存在,传送数据到工作目录进行下一步,如果不存在,写入日志,该项目对应的任务退出;(5)判断是否有分析所必须的map文件,判断机制与上一条类似;(6)如果上述判断未出现问题,开始进行流程分析,如果流程中局部出现问题,也会写入日志,方便检查。在实际应用中,本专利技术的方法所利用的工具包共包含1个Python脚本代码和3个shell脚本代码,每个脚本名称如下:(1)work_start.py(2)anno.sh(3)newworkflow.sh(4)treat_work.sh上述每个脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。每个脚本的代码编写基于Python和shell语言,可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。每个脚本都应对高通量数据分析后期经常所需的操作进行设计。1、work_start.py,主程序,以项目信息文件作为输入数据,通过调用其他的shell脚本以及自身的判断,进行流程图所示的过程。2、anno.sh,以项目信息以及注释数据库作为输入数据,可以传送使用的数据,并且进行一系列预处理,并且加上注释。3、newworkflow.sh,以项目信息以及注释数据库作为输入数据,此脚本用于日常的分析的流程,并且针对不同的数据库也有不同的处理。4、treat_work.sh,要求提供对应treat的分组表以及对应的out表作为输入文件,分析流程真实的存放的地方,newworkflow.sh调用此脚本进行每个treat的分析。此外,通过这4个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据16S分析操作难题。在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。在此说明书中,本专利技术已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本专利技术的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。本文档来自技高网
...
高通量16S测序数据自动化处理方法

【技术保护点】
高通量16S测序数据自动化处理方法,其特征在于,包括如下步骤:1)输入要进行分析的项目信息格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;3)将获取的对应项目的数据进行预处理包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;4)将优质序列进行注释,并开始进行标准分析流程将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;5)查看日志,保证结果的无误性在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。

【技术特征摘要】
1.高通量16S测序数据自动化处理方法,其特征在于,包括如下步骤:1)输入要进行分析的项目信息格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;3)将获取的对应项目的数据进行预处理包括对于...

【专利技术属性】
技术研发人员:杨洋王慧娟姜丽荣孙子奎
申请(专利权)人:上海派森诺生物科技股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1