癌症体细胞突变基因测序数据分析工作流整合算法制造技术

技术编号:11138262 阅读:214 留言:0更新日期:2015-03-12 16:56
本发明专利技术涉及一种,癌症体细胞突变基因测序数据分析工作流整合算法,包括如下步骤:(1)测序数据比对使用cushaw算法;(2)SNP鉴定使用samtools算法;(3)癌症体细胞突变鉴定使用VarScan算法。

【技术实现步骤摘要】

本专利技术涉及生物医学数据分析领域,具体而言,涉及一种癌症体细胞突变基因测序数据分析工作流整合算法。 
技术介绍
基因是遗传的物质基础。生物体的生老病死等一切生命现象都与基因有关。基因测序是解读生命的一种途径,随着第二代及第三代高通量测序技术的发展,测序结果往往是TB级别甚至更大的的序列数据。合理分析解读这些大规模及高维度的数据成为获取数据后一个更大的难点,是当前生物研究的关键步骤,具有巨大的现实意义。 海量高通量测序数据的存储、处理和分析都极大地挑战着当前的计算机系统和计算模式。现有的系统面临运算量不够,人工干预可靠度较低,云架构对底层硬件控制力较低及用户隐私担忧等问题。 现有的大数据测序信息对数据分析工具的挑战需要存储、管理、传输、调度和计算分析优化的全面协调,需要生物领域、计算机领域、数据统计分析等多方密切配合,尤其在分析工具的整合方面,现有的数据分析软件存在整合度低,对不同来源的数据匹配较差,准确度和重复性不高,效率低下等多种问题。 在肿瘤检测和早期诊断中,癌症体细胞突变是测序检测所重点关注的问题,这要求能够尽量高效而准确的分析测序原始数据,但是现有的算法往往只关注与测序数据分析的单一的环节,而每个步骤中过于繁杂的分析软件的选择范围,也给由测序原始数据得出诊断结果增加了障碍, 例如,在测序数据比对环节,常用的算法包括bwa,bowtie,cushaw,barracuda,运算速度不同,适配的基础硬件也不同,其中cushaw为高性能运算卡专门设计,可以达到并行计算进行加速的目的,而bwa,bowtie,barracuda虽然不具备并行计算功能,但能够适配的底层数据和计算硬件则相对较为宽泛。 而在在SNP鉴定(主要实现将测序结果比对到基因组上并鉴定出相关突变的功能)环节,常用软件主要包括:samtools、GATK、Qcall等,这些软件有的偏重准确性,有的偏重效率。 在癌症体细胞突变(主要通过比较同一病人正常和癌症组织,并由此鉴定出癌症中发生的体细胞突变)鉴定过程中,主要软件包括:VarScan,GATK UnifiedGenotyper,VarScan等算法,有的偏重于检测准确度高,有的普适性数据兼容性,有的输入输出标准相对简单。 因此,需要一种癌症体细胞突变基因测序数据分析工作流整合算法,在一定程度上将上述算法优化整合,以达到准确而高效的检测癌症体细胞突变基因的目的。 
技术实现思路
本专利技术的目的是提供一种癌症体细胞突变基因测序数据分析工作流整合算法。 所述的癌症体细胞突变基因测序数据来源于illumina公司的Hiseq系列的测序仪,或是ThermoFisher公司的PGM及Proton系列测序仪,测序数据级别为Mb~Gb大小,基础长度10~1000bp,数据格式为FastQ或SFF格式。 所述的癌症体细胞突变基因测序分析数据工作流示意流程如附图1, 所述的癌症体细胞突变基因测序分析数据工作流整合算法包括如下步骤: (1)将测序数据比对到参考基因组序列,使用cushaw算法,使用科学运算流处理器加速后,数据比对速度提高至其他软件的10-100倍; (2)SNP鉴定,使用samtools算法,兼容多种数据格式,准确度高,定位快速; (3)癌症体细胞突变鉴定,使用VarScan算法,兼容数据种类多,准确度高,输入输出符合公开标准; 经过上述工作流整合方法,能够快速的通过比较同一病人正常和癌症组织测序结果,从而鉴定出癌症中发生的体细胞突变。 所述的工作流整合算法为GPU算法,利用GPU的高速浮点计算和并行特性,可以大幅提高算法的运算速度,达到硬件加速的效果。 所述的工作流整合算法中,进一步设计匹配了使用GPU加速的软件,通过硬件加速提高了工作流效率。 本专利技术的优点在于:该算法整合了测序数据分析的完整工作流,能够免去数据分析使用者自行筛选并优化特定程序/程序集的步骤,同时优化整合后的算法在运算效率上大为提高,能够更为迅速的反馈测序数据分析结果。 附图说明图1.癌症体细胞突变基因测序分析数据工作流示意流程图。 具体实施方式下面结合具体实施例对本专利技术作进一步说明,但不应以此限制本专利技术的保护范围。 原始数据来源于Illumina Hiseq 2000,数据格式为FastQ,读长为100bp。 通过工作流分析, (1)测序比对结果输出:其中正常组织数据总数为233988条记录,222290条(95.3%)比对到基因组中,癌症组织数据总数为200549条,188516条(94%)比对到基因组上, (2)使用samtools鉴定SNP; (3)通过比较正常组合和肿瘤组织的SNP差异位点,鉴定为肿瘤组织特有的位点12个。 该工作流整体运算时间为95s。 本文档来自技高网
...

【技术保护点】
癌症体细胞突变基因测序分析数据工作流整合算法,其特征在于,包括如下步骤:(1)将测序数据比对到参考基因组序列,使用bwa算法,使用科学运算流处理器加速后,数据比对速度提高至其他软件的10‑100倍;(2)SNP鉴定,使用samtools算法,兼容多种数据格式,准确度高,定位快速;(3)癌症体细胞突变鉴定,使用VarScan算法,兼容数据种类多,准确度高,输入输出符合公开标准。

【技术特征摘要】
1.癌症体细胞突变基因测序分析数据工作流整合算法,其特征在于,包括如下步骤:
(1)将测序数据比对到参考基因组序列,使用bwa算法,使用科学运算流处理器加速后,数据比对速度
提高至其他软件的10-100倍;
(2)SNP鉴定,使用samtools算法,兼容多种数据格式,准确度高,定位快速;
(3)癌症体细胞突变鉴定,使用VarScan算法,兼容数据种类...

【专利技术属性】
技术研发人员:吴翀王瑜闫威
申请(专利权)人:北京微旋基因技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1