System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质技术方案_技高网

胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质技术方案

技术编号:40671764 阅读:7 留言:0更新日期:2024-03-18 19:08
本发明专利技术公开了胚系SNV、InDel变异的鉴定方法、系统以及可读存储介质,所述方法包括以下步骤:对原始测序数据进行过滤、比对及排序后,分别通过基于位置序列堆积计数方法、基于深度神经网络算法、基于复杂区域局部重比对算法、基于贝叶斯统计学方法得到4个候选变异集,进行合并后,再对各变异位点的基因型进行修正,然后去除冗余的变异表示,对变异进行打分并重新标记过滤变异,由此鉴定出胚系SNV、InDel变异。本发明专利技术在通过若干个指标划定适当阈值以控制单个方法假阳性率的同时,整合多个方法的结果并进行后处理,特别是相同的复杂变异不同表示方式的去冗余以及基因型的综合判断,最终在控制住假阳性率的前提下提升敏感度。

【技术实现步骤摘要】

本专利技术涉及胚系snv/indel变异检测领域,特别涉及胚系snv、indel变异的鉴定方法、系统以及可读存储介质。


技术介绍

1、胚系snv/indel变异的检测是目前进行出生缺陷防控临床应用时重要的分子诊断方式之一。能否准确鉴定胚系snv/indel变异,是衡量一家医学检测机构是否有合格的检测能力的重要标准。

2、目前行业内已有关于在肿瘤样本中进行体细胞变异鉴定的相关专利,但体细胞变异的鉴定方法与胚系变异的鉴定方法有较大差异。体细胞变异鉴定方法主要依据肿瘤样本和正常样本间的比较进行变异鉴定。胚系变异鉴定方法则仅在正常样本上进行,不使用样本间比较的方式。体细胞变异鉴定假设变异的等位基因频率是连续的,而胚系变异鉴定方法假设其理论频率为经典的杂合(50%)和纯合(100%)。总的来说,不能直接将体细胞变异鉴定方法用于胚系变异鉴定。业内还未形成在ngs dna测序中进行胚系snv/indel变异鉴定的统一标准。

3、变异鉴定方法多种多样,有深度神经网络、贝叶斯统计、复杂区域局部重比对以及位置序列堆积计数等等。变异鉴定方法的性能方面,不同方法的敏感度和精准度都不同,有的只在两者之一表现较好,有的则两者均表现出色。鉴于临床应用场景倾向于在精准度可接受的情况下追求较高的敏感度,如何在控制假阳性率的情况下最大化敏感度,成了实现临床上高检测性能的关键。通过综合多种方法,取各种方法之长补各自之短,是实现高的敏感度和精准度的一种有效策略。

4、目前用于评估胚系snv/indel变异检测性能最常用的标准品是na12878样本(由giab提供)。其提供了对以上所述策略进行性能评估的标准答案。

5、进行snv/indel变异鉴定,主要有以下三种方法:

6、1、各个开源工具(deepvariant、freebayes、gatk等)独立进行snv/indel变异鉴定:多数开源工具的敏感度均不能达到99%以上的水平,有的工具精准度也不够高,用各个开源工具在上述na12878样本中进行精准度评估结果如下:deepvariant为95.7%,gatk为95.0%,freebayes为93.2%。

7、2、检测机构自主开发的非公开工具独立进行snv/indel变异鉴定:该方法相比于第1种方法所使用的开源工具,敏感度有所优化,但因为过于追求敏感度导致精准度很低(比如有的只有85.0%不到)。相当于以牺牲精准度来获得极致的敏感度。低的精准度会带来大量的假阳性位点,给下游的医学工作者的变异解读带来沉重负担。

8、3、gatk使用多个自定义指标结合机器学习的方法进行snv/indel变异鉴定:gatk使用qd、dp、gq、fs、sor、mq、mqranksum和readposranksum等自定义指标进行机器学习得到一个综合的指标vqslod,通过这个指标的高低进行变异的取舍。但以上述标准品na12878进行性能评估时发现,综合指标vqslod以及有的自定义指标对真变异和假变异的区分效果并不好,会出现将假变异排除掉的同时也将较多的真变异误排除的问题,即在控制假阳性的同时无法保证高的敏感度。


技术实现思路

1、本专利技术的目的在于克服现有技术的缺点与不足,提供胚系snv、indel变异的鉴定方法。

2、本专利技术的另一目的在于提供一种胚系snv、indel变异的鉴定系统。

3、本专利技术的目的通过以下的技术方案实现:

4、胚系snv、indel变异的鉴定方法,包括以下步骤:

5、s1、对原始测序数据进行过滤;过滤后测序数据的序列与人类基因组比对,得到序列比对结果文件;然后进行排序,得到有序的序列比对结果文件;

6、s2、对有序的序列比对结果文件分别进行如下处理:

7、(1)基于位置序列堆积计数方法得到候选变异位点,得到候选变异集a;

8、(2)基于深度神经网络算法得到候选变异位点,得到候选变异集b;

9、(3)基于复杂区域局部重比对算法得到候选变异位点,得到候选变异集c;

10、(4)基于贝叶斯统计学方法得到候选变异位点,得到候选变异集d;

11、s3、候选变异集a、b、c、d的变异位点按照位置和变异类型进行合并,得到候选变异并集的变异结果;

12、s4、对各变异位点的基因型进行修正,得到基因型修正后的候选变异并集;

13、s5、对基因型修正后的候选变异并集,去除冗余的变异表示,对变异进行打分并重新标记过滤变异,得到最终变异位点集,由此鉴定出胚系snv、indel变异。

14、步骤s1中,所述原始测序数据是通过测序仪对人类基因组dna或外显子组dna进行测序,得到测序仪原始下机数据文件,即得到原始测序数据;所述序列比对结果文件中各比对条目按照染色体和比对位置进行排序,得到有序的序列比对结果文件。

15、步骤s2中,所述候选变异集a具体通过以下方式获取:

16、首先,位置序列堆积计数方法通过分开处理单双端数据,对基因组各位置的堆积序列碱基信息进行计数统计,得到两个分别代表单端和双端的候选变异位点集;

17、然后,将单双端这两个候选变异集进行相互验证和整合,形成一个非冗余候选变异集,即得到候选变异集a;

18、最后,对候选变异集a中的每个变异,根据堆叠序列深度和变异等位基因频率两项指标划分为高可信变异和低可信变异。

19、步骤s2中,所述候选变异集b具体通过以下方式获取:使用基于深度神经网络算法的工具对序列比对文件进行变异检测得到候选位点集,然后过滤掉候选位点集中野生纯合位点,得到基于深度神经网络算法的候选变异位点集,即得到候选变异集b。

20、步骤s2中,所述候选变异集c具体通过以下方式获取:使用基于复杂区域局部重比对算法的工具,对序列比对文件进行变异检测,得到候选变异位点集,即得到候选变异集c;然后,通过基于复杂区域局部重比对算法得到两个变异相关指标:深度均一化后变异位点质量值和变异等位基因频率,根据所述两个变异相关指标将候选变异位点划分为低可信位点和高可信位点。

21、步骤s2中,所述候选变异集d具体通过以下方式获取:使用基于贝叶斯统计学方法的工具对序列比对文件进行变异检测得到候选位点集,将位点集中野生纯合位点过滤得到候选变异位点集,即得到候选变异集d;通过基于贝叶斯统计学方法得到的两个变异相关指标:深度均一化后变异等位数和等位数均一化后变异位点质量值,根据所述两个变异相关指标将候选变异位点划分为低可信位点和高可信位点。

22、步骤s3中,所述候选变异集a、b、c、d的变异位点在合并时:同一位置且同一变异类型的变异,则合并成一个变异进行表示;同一位置不同变异类型的变异,则分开成不同变异进行表示;同时,对候选变异集a、b、c、d的基因型信息各自保留,分别存放于候选变异并集变异结果的四个format列中。format列中除了存放基因型信息,本文档来自技高网...

【技术保护点】

1.胚系SNV、InDel变异的鉴定方法,其特征在于,包括以下步骤:

2.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,步骤S2中,所述候选变异集A具体通过以下方式获取:

3.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,步骤S2中,所述候选变异集B具体通过以下方式获取:使用基于深度神经网络算法的工具对序列比对文件进行变异检测得到候选位点集,然后过滤掉候选位点集中野生纯合位点,得到基于深度神经网络算法的候选变异位点集,即得到候选变异集B。

4.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,步骤S2中,所述候选变异集C具体通过以下方式获取:使用基于复杂区域局部重比对算法的工具,对序列比对文件进行变异检测,得到候选变异位点集,即得到候选变异集C;然后,通过基于复杂区域局部重比对算法得到两个变异相关指标:深度均一化后变异位点质量值和变异等位基因频率,根据所述两个变异相关指标将候选变异位点划分为低可信位点和高可信位点。

5.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,步骤S2中,所述候选变异集D具体通过以下方式获取:使用基于贝叶斯统计学方法的工具对序列比对文件进行变异检测得到候选位点集,将位点集中野生纯合位点过滤得到候选变异位点集,即得到候选变异集D;通过基于贝叶斯统计学方法得到的两个变异相关指标:深度均一化后变异等位数和等位数均一化后变异位点质量值,根据所述两个变异相关指标将候选变异位点划分为低可信位点和高可信位点。

6.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,步骤S3中,所述候选变异集A、B、C、D的变异位点在合并时:同一位置且同一变异类型的变异,则合并成一个变异进行表示;同一位置不同变异类型的变异,则分开成不同变异进行表示;同时,对候选变异集A、B、C、D的基因型信息各自保留,分别存放于候选变异并集变异结果的四个FORMAT列中。

7.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,所述步骤S4,具体为:

8.根据权利要求1所述胚系SNV、InDel变异的鉴定方法,其特征在于,所述步骤S5,具体为:

9.胚系SNV、InDel变异的鉴定系统,其特征在于,包括原始测序数据预处理模块、序列比对信息到变异位点集的处理模块、候选变异集的合并处理模块;其中,

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述程序由处理器加载并执行以实现权利要求1至8中任一权利要求所述胚系SNV、InDel变异的鉴定方法。

...

【技术特征摘要】

1.胚系snv、indel变异的鉴定方法,其特征在于,包括以下步骤:

2.根据权利要求1所述胚系snv、indel变异的鉴定方法,其特征在于,步骤s2中,所述候选变异集a具体通过以下方式获取:

3.根据权利要求1所述胚系snv、indel变异的鉴定方法,其特征在于,步骤s2中,所述候选变异集b具体通过以下方式获取:使用基于深度神经网络算法的工具对序列比对文件进行变异检测得到候选位点集,然后过滤掉候选位点集中野生纯合位点,得到基于深度神经网络算法的候选变异位点集,即得到候选变异集b。

4.根据权利要求1所述胚系snv、indel变异的鉴定方法,其特征在于,步骤s2中,所述候选变异集c具体通过以下方式获取:使用基于复杂区域局部重比对算法的工具,对序列比对文件进行变异检测,得到候选变异位点集,即得到候选变异集c;然后,通过基于复杂区域局部重比对算法得到两个变异相关指标:深度均一化后变异位点质量值和变异等位基因频率,根据所述两个变异相关指标将候选变异位点划分为低可信位点和高可信位点。

5.根据权利要求1所述胚系snv、indel变异的鉴定方法,其特征在于,步骤s2中,所述候选变异集d具体通过以下方式获取:使用基于贝叶斯统计学方法的工具对序列比对文件进行变异检测得到候选位点集,将位点集中野生纯合位...

【专利技术属性】
技术研发人员:张仕坚陈树林张巍
申请(专利权)人:广州嘉检医学检测有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1