System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息分析,具体为多个测序平台肿瘤基因突变检测生物信息分析方法及系统。
技术介绍
1、在我国乃至全球范围内,肿瘤都是严重威胁人类健康和社会发展的重大疾病。基因组变异(如基因突变、基因组结构变异)通常是导致疾病发生、发展的直接或间接原因。因此,探索如何高效、精准、全面地检测相关变异一直以来都是一个具有重要研究价值的课题。近年来,随着高通量测序技术(ngs)的发展、普及和广泛应用,高通量测序技术正在逐渐成为各类临床检测应用中的主流技术。当前市场上主流的测序仪服务商主要有三家,分别是illumina(因美纳),thermo fisher(赛默飞)和mgi(华大智造)。与此同时,在各类临床检测应用中,基于高通量测序技术,针对不同检测目的存在不同的测序策略,包括全基因组测序(whole genome sequencing,wgs),全外显子测序(whole exome sequencing,wes)和选定的区域测序(panel sequencing)。针对不同目的的测序策略在测序区域的大小、测序深度、数据产量以及可检测的变异类型方面存在差异。不同的测序策略具有各自的优缺点:wgs检测的区域大小是全基因组,具有可检测变异类型全面的优点,同时也意味着成本更高的劣势;与wgs相比,wes检测的区域大小只是人类基因组的全部外显子区域,但是测序成本大大降低;与wes相比,panel测序的检测区域只针对部分基因列表,成本降低的同时却带来可检测的变异数量下降的缺点。因此,选择哪一种测序策略要根据特定的测序目的确定。针对上述情况,目前,现
2、1.缺乏能够同时分析不同测序平台产出数据的工具:当前市面上主流的测序仪服务商有illumina(因美纳),thermo fisher(赛默飞)和mgi(华大智造),因此不同的单位可能部分或者全部拥有三家服务商的测序平台,而由于不同测序平台之间存在差异性,导致肿瘤测序数据的生信分析流程搭建不尽相同。在分析数据时,尤其是新的生信分析人员在分析数据时,需要同时学习三种不同的流程,极大的拉长数据分析时间,增加了数据分析的成本;
3、2.缺乏集成基因突变、结构变异检测分析于一体的工具;
4、3.缺乏注释信息更为全面的工具:当前的肿瘤基因突变检测生物信息分析方法大都只参考少数数据库,导致很多变异位点注释信息缺失或不全;
5、因此,针对上述问题提出多个测序平台肿瘤基因突变检测生物信息分析方法及系统。
技术实现思路
1、本专利技术的目的在于提供多个测序平台肿瘤基因突变检测生物信息分析方法及系统,以解决上述
技术介绍
中提出的问题。
2、为实现上述目的,本专利技术提供如下技术方案:
3、多个测序平台肿瘤基因突变检测生物信息分析方法,包括以下步骤:
4、步骤一:对测序完成后的样本下机数据进行碱基序列计数,得到测序数据整体profile;
5、步骤二:对测序完成后的样本下机数据进行质量控制,得到质控之后的样本数据;
6、步骤三:将质控之后的样本数据和hg19/hg38参考基因组进行比对,得到比对之后的样本数据;
7、步骤四:对比对之后的样本数据进行变异位点检测,得到包含变异位点的vcf文件;
8、步骤五:对包含变异位点的vcf文件进行三级分析注释,得到包含变异位点注释信息的xls文件;
9、步骤六:对注释之后的样本数据进行变异位点筛选,得到包含重要变异位点的样本数据;
10、作为一种优选方案,分析人员向系统提供数据产生平台的信息,有以下三个选项:1.ilumina,2.pgm,3.mgi,分析系统自动选择相应的分析管道对测序完成后的样本下机数据进行碱基序列计数和质量控制,得到测序数据整体profile和质控之后的样本序列。
11、作为一种优选方案,步骤三具体包括:分析人员向系统提供参考基因组的版本信息,系统自动判断输入数据是single-end测序或paired-end测序,然后调用bwa序列比对算法将质控之后的样本数据比对到参考基因组。
12、作为一种优选方案,对比对之后的样本序列进行变异位点检测,得到包含变异位点的vcf文件具体包括:
13、对于snv和indel突变检测,分析人员向系统提供实验设计检测的肿瘤相关基因详细扩增的bed文件,系统自动调用vardict算法进行突变位点检测流程,其中,bed文件的具体格式如下所示:
14、该文件的第一行是表头信息用于说明文件的基本信息;
15、该文件从第二行开始包含8列,每一列的详细说明如下:
16、第一列:表示检测的基因位于哪一条染色体的染色体名称;
17、第二列:表示检测基因在该染色体上的起始位置;
18、第三列:表示检测基因在该染色体上的终止位置;
19、第四列:表示检测基因的区间id;
20、第五列:用于表示特征的分数、质量或重要性;
21、第六列:表示检测基因所在链的方向,常是“+”表示正链或“-”表示负链,或“.”表示未知链方向;
22、第七列:用“.”表示;
23、第八列:用于描述检测区域属于哪一个基因,并为其编码唯一的id;
24、对于结构变异检测,分析人员无需任何操作,系统就会自动调用manta和cnvkit算法进行结构变异位点检测流程,其中manta用于检测包括长度大于1kb的基因融合、缺失、插入、重复、倒位以及易位在内的结构变异(structural variation,sv);而cnvkit主要用于检测拷贝数变异(copy number variation,cnv)在内的结构变异。
25、作为一种优选方案,对包含变异位点的vcf文件进行三级分析注释,得到包含变异位点注释信息的xls文件具体包括:
26、对于snv和indel突变注释,分析人员需要向系统提供样本配置config信息,系统会自动调用libo variant analyzer(lva)对上游vardict变异位点检测输出文件进行三级分析注释;其中,lva是利用python自行开发的三级分析注释软件,该软件同时整合多个开源注释软件,包括vep,annovar,intervar,多个数据库,包括clinvar,cosmic,dbsnp,ensembl,1000genome project,genomad和litvar数据库,充分利用现有数据库先验知识,最大程度的对变异位点进行注释,能够为后续重要变异位点的筛选以及后续临床药物指导提供重要的信息支持;config配置文件格式包括9个字段,每个字段的详细说明如下:
27、sample:样本vcf的名字;
28、short_panel_name:简短panel名,可任意取不得含空格;
29、panels:若要分析2个以上p本文档来自技高网...
【技术保护点】
1.多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:分析人员向系统提供产生数据平台的信息,有以下三个选项:1.Ilumina,2.PGM,3.MGI,分析系统自动选择相应的分析管道对测序完成后的样本下机数据进行碱基序列计数和质量控制,得到测序数据整体Profile以及质控之后的样本数据。
3.根据权利要求1所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:所述步骤三具体包括:分析人员向系统提供参考基因组的版本信息,系统自动判断输入数据是Single-end测序或Paired-end测序,然后调用bwa序列比对算法将质控之后的样本数据比对到参考基因组。
4.根据权利要求1-3任一项多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:所述对比对之后的样本数据进行变异位点检测,得到包含变异位点的vcf文件具体包括:
5.根据权利要求4所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:对包含变异位点的
6.根据权利要求5所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:对注释之后的样本数据进行变异位点筛选,得到包含重要变异位点的样本数据具体包括:
7.一种多个测序平台肿瘤基因突变检测生物信息分析系统,其特征在于:所述系统采用权利要求1-6任一项分析方法进行分析,所述系统包括:
...【技术特征摘要】
1.多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:分析人员向系统提供产生数据平台的信息,有以下三个选项:1.ilumina,2.pgm,3.mgi,分析系统自动选择相应的分析管道对测序完成后的样本下机数据进行碱基序列计数和质量控制,得到测序数据整体profile以及质控之后的样本数据。
3.根据权利要求1所述的多个测序平台肿瘤基因突变检测生物信息分析方法,其特征在于:所述步骤三具体包括:分析人员向系统提供参考基因组的版本信息,系统自动判断输入数据是single-end测序或paired-end测序,然后调用bwa序列比对算法将质控之后的样本数据比对到参考...
【专利技术属性】
技术研发人员:吴泓泰,
申请(专利权)人:得利富厦门生物科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。