一种基于高通量测序的复杂突变注释方法和系统技术方案

技术编号：40221439 阅读：6 留言：0更新日期：2024-02-02 22:27

本发明专利技术公开了一种基于高通量测序的复杂突变注释方法和系统。该方法通过识别、合并、校正、注释4个环节实现对高通量测序序列的复杂突变进行注释。该系统包括识别模块、合并模块、校正模块和注释模块。本发明专利技术通过校正环节/校正模块以及gnomAD MNV数据库取消了没有引起氨基酸协同变异的MNV合并，过滤掉了大量的没有注释意义的MNV，保留了潜在的有临床价值的MNV用于后续研究，使得本发明专利技术MNV的检测、注释速度较快，可以在短时间内完成整个检测过程，满足了临床上对于肿瘤突变的解读要求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种复杂突变注释方法和系统，尤其涉及一种基于高通量测序的复杂突变注释方法和系统，可应用于肿瘤细胞突变检测及注释。

技术介绍

1、复杂突变(multiple nucleotide variant，mnv)是指在相近的基因组位置中同时发生两个及其以上的突变，其中突变仅包括点突变及小片段插入缺失，不包括拷贝数变异及融合。mnv含有多个单核苷酸突变(single nucleotide variants，snv)，当单独分析其中的snv时有可能不会引起氨基酸变化，但是分析mnv时却存在氨基酸变异。比如，编码亮氨酸(leu)的密码子ctg突变为ttg或ctc时均不导致氨基酸改变，依然编码leu，此时是将其作为两个独立的snv进行分析的情形。但是当其突变为ttc，即作为mnv进行分析时，则导致编码的氨基酸变为苯丙氨酸(phe)，发生错义突变，有可能出现不同的临床结果。

2、二代测序(next generation sequencing，ngs)只能将这些mnv注释为单个的snv，导致无法正确识别致病变异，从而对临床治疗产生潜在的负面影响。常规的生物信息突变检测软件无法对复杂突变进行识别和合并，这导致后续注释无法准确识别突变对于氨基酸、蛋白质结构、致病性、以及该突变对于被检测者的药物应答和耐药性的影响。文献misannotation of multiple-nucleotide variants risks misdiagnosis，wellcomeopen research 2020,4:145 last updat

3、随着肿瘤临床检测行业的成熟，越来越多的关注被放在了mnv上。专利cn110993023 a(公布日2020.04.10)描述了一种复杂突变的检测及合并方法，该方法涉及到对目标区域中reads的提取，并通过reads中的cigar值判断是否需要进行复杂突变的合并。该方法可实现相邻位置的复杂突变的合并，但未考虑突变对于氨基酸的影响。由于该方法需要遍历全部reads进行计算，导致运行速度缓慢，延长了整体的检测周期。

4、相比之下，专利cn 114898803 a(公布日2023.03.24)考虑到了运行速度的问题，但仍未考虑到突变对于氨基酸的影响，不利于后续突变与临床之间的关联性分析。

技术实现思路

1、有鉴于现有技术的上述缺陷，为了对复杂突变进行注释标记从而有利于后续突变与临床之间的关联性分析，本专利技术公开了一种基于高通量测序的复杂突变注释方法和系统，以及相关的电子设备和计算机可读介质。

2、第一方面，本专利技术提供一种基于高通量测序的复杂突变注释方法，通过识别、合并、校正、注释4个环节实现对高通量测序序列的复杂突变进行注释；

3、识别环节包括从高通量测序后的序列中识别得到复杂突变对；

4、合并环节包括：通过根据识别获得的复杂突变对在基因组中的突变位置排除存在突变位置交集的多等位基因突变后，将复杂突变对中第一个突变位置到最后一个突变位置的全部参考基因序列作为合并后的复杂突变的参考碱基，将合并后的复杂突变的参考碱基对应突变位置替换为对应突变碱基作为合并后的复杂突变的变异碱基；

5、校正环节包括：将合并后的复杂突变的参考碱基和合并后的复杂突变的突变碱基进行格式标准化处理以满足vcf v4.1、v4.2或v4.3标准，得到标准化vcf文件；对标准化vcf文件进行氨基酸注释；根据注释后的氨基酸变异情况，对复杂突变进行校正，若合并后的复杂突变的变异碱基没有引起氨基酸的协同变异则取消该复杂突变的合并；

6、注释环节通过将经过氨基酸注释的标准化vcf文件与gnomad mnv v2.1数据库进行比对，将人群频率高于1％的复杂突变从经过氨基酸注释的标准化vcf文件中去除，得到非常见复杂突变；使用临床数据库对非常见复杂突变进行临床信息注释。

7、在一些实施方案中，识别环节包括以下步骤：

8、s1.1、通过变异检测工具对基于高通量测序的dna或rna进行突变检测得到突变列表；

9、s1.2、从突变列表中提取潜在的复杂突变对；潜在的复杂突变对需满足条件a和条件b；条件a、两个突变的基因组位置距离小于等于20bp，条件b、两个突变的突变频率差值≤5％；

10、s1.3、获取覆盖该潜在的复杂突变对基因组位置的全部reads；

11、s1.4、从步骤s1.3得到的全部reads中筛选出质量合格的reads；质量合格指reads基于bwa-mem算法的比对质量高于60，且reads的平均phred-scale碱基质量高于25；

12、s1.5、通过reads对应的cigar值、及reads的比对位置对步骤s1.4得到的质量合格的reads中的各read包含的具体突变进行判断，若潜在的复杂突变对在目标位置中同时出现目标突变的频率＞70％，则将其识别为复杂突变对。

13、在一些实施方案中，步骤s1.1中采用的变异检测工具选自gatk mutect2、varscan2；

14、步骤s1.2采用多线程的方式从突变列表中提取潜在的复杂突变对；合并环节中，在排除存在突变位置交集的多等位基因突变后，采用多线程的方式进行合并。

15、在一些实施方案中，在校正环节中，通过bcftools norm工具实现合并后的复杂突变的参考碱基和合并后的复杂突变的突变碱基进行格式标准化处理以满足vcf v4.2标准，得到标准化vcf文件；使用vep注释工具对标准化vcf文件进行氨基酸注释。

16、在一些实施方案中，校正环节还包括对校正后仍然存在的复杂突变进行记录并进行人工检查以确保校正结果的准确性。

17、在一些实施方案中，注释环节还包括保留人群频率高于1％的复杂突变中的原突变的注释，以便后续分析；注释环节中的gnomad mnv v2.1数据库在比对前先进行更新，以获取最新的人群频率信息；注释环节中gnomad mnv v2.1数据库需要选择与经过氨基酸注释的标准化vcf文件相同的参考基因组版本，以保证注释结果的一致性。

18、在一些实施方案中，注释环节中的临床数据库包括突变描述、临床信息、临床证据等级信息，以及突变与临床信息、临床证据等级信息之间的关系。

19、在一些实施方案中，注释环节中的临床数据库为cn112270960b所述的二级肿瘤诊断知识库。c本文档来自技高网...

【技术保护点】

1.一种基于高通量测序的复杂突变注释方法，其特征在于，通过识别、合并、校正、注释4个环节实现对高通量测序序列的复杂突变进行注释；

2.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，

3.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，注释环节还包括保留人群频率高于1％的复杂突变中的原突变的注释，以便后续分析；注释环节中的gnomAD MNV v2.1数据库在比对前先进行更新，以获取最新的人群频率信息；注释环节中gnomAD MNV v2.1数据库需要选择与经过氨基酸注释的标准化VCF文件相同的参考基因组版本，以保证注释结果的一致性。

4.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，注释环节中的临床数据库包括突变描述、临床信息、临床证据等级信息，以及突变与临床信息、临床证据等级信息之间的关系。

5.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，注释环节中的临床数据库为CN112270960B所述的二级肿瘤诊断知识库。

6.一种基于高通量测序的复

7.根据权利要求6所述的基于高通量测序的复杂突变注释系统，其特征在于，识别模块，具体地用于通过变异检测工具对基于高通量测序的DNA或RNA进行突变检测得到突变列表；从突变列表中提取潜在的复杂突变对；潜在的复杂突变对需满足条件a和条件b；条件a、两个突变的基因组位置距离小于等于20bp，条件b、两个突变的突变频率差值≤5％；获取覆盖该潜在的复杂突变对基因组位置的全部reads；从所述全部reads中筛选出质量合格的reads；质量合格指reads基于BWA-MEM算法的比对质量高于60，且reads的平均Phred-scale碱基质量高于25；通过reads对应的CIGAR值、及reads的比对位置对所述质量合格的reads中的各read包含的具体突变进行判断，若潜在的复杂突变对在目标位置中同时出现目标突变的频率＞70％，则将其识别为复杂突变对。

8.根据权利要求6所述的基于高通量测序的复杂突变注释系统，其特征在于，注释模块还用于保留人群频率高于1％的复杂突变中的原突变的注释，以便后续分析；注释模块中的gnomAD MNV v2.1数据库在比对前先进行更新，以获取最新的人群频率信息；注释模块中的gnomAD MNV v2.1数据库需要选择与经过氨基酸注释的标准化VCF文件相同的参考基因组版本，以保证注释结果的一致性。

9.根据权利要求6至8任一项所述的基于高通量测序的复杂突变注释系统，其特征在于，注释模块中的临床数据库为CN112270960B所述的二级肿瘤诊断知识库。

10.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。

...

【技术特征摘要】

1.一种基于高通量测序的复杂突变注释方法，其特征在于，通过识别、合并、校正、注释4个环节实现对高通量测序序列的复杂突变进行注释；

2.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，

3.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，注释环节还包括保留人群频率高于1％的复杂突变中的原突变的注释，以便后续分析；注释环节中的gnomad mnv v2.1数据库在比对前先进行更新，以获取最新的人群频率信息；注释环节中gnomad mnv v2.1数据库需要选择与经过氨基酸注释的标准化vcf文件相同的参考基因组版本，以保证注释结果的一致性。

5.根据权利要求1所述的基于高通量测序的复杂突变注释方法，其特征在于，注释环节中的临床数据库为cn112270960b所述的二级肿瘤诊断知识库。

6.一种基于高通量测序的复杂突变注释系统，其特征在于，包括：

7.根据权利要求6所述的基于高通量测序的复杂突变注释系统，其特征在于，识别模块，具体地用于通过变异检测工具对基于高通量测序的dna或rna进行突变检测得到突变列表；从突变列表中提取潜在的复杂突变对；潜在的复杂突变对...

【专利技术属性】
技术研发人员：丰李宝，开震天，沈伟强，
申请(专利权)人：三亚鼎晶医学检验实验室有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人