基于全外显子测序的非靶向区域基因型填充方法技术

技术编号:37138301 阅读:16 留言:0更新日期:2023-04-06 21:40
本发明专利技术公开了基于全外显子测序的非靶向区域基因型填充方法、系统、设备和计算机可读存储介质,方法其包括:获取目标队列的全外显子测序数据、参考全基因组测序数据集;对参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;基于SNP位点信息和全外显子测序数据,计算每个样本SNP位点的GL,并得到每个样本的GL;合并每个样本的GL,得到全部样本的GL;对参考全基因组测序数据集进行片段化分割处理得到基因组片段信息;基于全部样本的GL、SNP位点信息、基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。本非靶向区域的基因型估算结果。本非靶向区域的基因型估算结果。

【技术实现步骤摘要】
基于全外显子测序的非靶向区域基因型填充方法


[0001]本专利技术涉及基因预测的
,更具体地,涉及一种基于全外显子测序的非靶向区域基因型填充方法及其系统。

技术介绍

[0002]随着高通量测序技术(Next generation sequencing,NGS)的快速发展,越来越多的GWAS试图采用测序技术进行基因型鉴定。全基因组测序技术(Whole genome sequencing,WGS)能够有效地覆盖大多数的遗传突变位点,但缺点在于价格昂贵,不能应用到大规模队列样本上。另外,如果为了成本而降低测序深度,则无法准确鉴定低频变异的基因型状态,该低频变异往往位于蛋白编码区域,具有重要的生物学功能。
[0003]全外显子测序技术(Whole Exome sequencing,WES)已经广泛用于研究蛋白质编码变异在遗传疾病中的作用。然而,基因组中超过98%的序列为非编码序列,存在有很多能够显著影响基因表达的重要调控元件。大量研究表明非编码变异与疾病的形成和发展具有密切的关系,因此,如何准确测量全基因组范围内的基因变异信息成为制约科研人员探究疾病机理的关键。WES会针对基因外显子区域设计探针,靶向捕获该区域后进行测序,在数据通量一定的情况下可以显著提高外显子区域的测序深度;然而,该技术的缺点是无法监测位于基因组中绝大部分区域的非编码变异,而这些非编码变异往往具有更显著的遗传效力。研究表明,在WES测序数据不仅包含了设计探针部位的序列,还有一部分位于探针区域外的序列被捕获,进而被测序仪检测到。相较于探针区域,非探针区域/非靶向区域(Off

target sequence)的测序深度往往偏低,无法利用传统的基因组鉴定算法进行准确识别。随着大型参考基因组的逐步公开,新的基因型鉴定算法可以利用参考基因型panel对低覆盖度的区域进行基因型推断。
[0004]然而,大型参考基因组panel具有很强的人群特异性,目前主流的数据库多数以欧洲或者混合人群为主,由于人种差异导致单体型的不同,上述panel无法契合不同国家/种族/地域的特定人群的低覆盖度基因型鉴定需求。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提供一种基于全外显子测序的非靶向区域基因型填充方法及其系统;本专利技术方法基于全外显子测序技术和参考全基因组测序数据集,计算目标队列中非靶向区域的基因型可能性,得到非靶向区域的基因型估算结果,整合低深度测序数据和大型参考基因组panel,高效准确鉴定WES非靶向区域遗传变异位点的基因型;从深层次挖掘隐含在测序数据背后的生命规律,解决相关的生命科学问题。
[0006]本申请第一方面公开一种基于全外显子测序的非靶向区域基因型填充方法,包括:
[0007]获取目标队列的全外显子测序数据、参考全基因组测序数据集;
[0008]对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;所述SNP位点信息包括染色体号、基因组坐标及等位基因、已去除非SNP的位点的人群基因型信息;
[0009]基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中的基因型可能性结果;
[0010]合并所述每个样本中的基因型可能性结果,得到目标队列全部样本中基因型可能性结果;
[0011]对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;
[0012]基于所述目标队列全部样本中的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。
[0013]所述方法还包括:
[0014]基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;
[0015]合并所述每个样本中非靶向区域和/或靶向区域的基因型可能性结果,得到目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果;
[0016]对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;
[0017]基于所述目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本的基因型进行估算,对目标队列中单个样本非靶向区域和/或靶向区域的基因型进行估算,得到单个样本非靶向区域和/或靶向区域的基因型估算结果;
[0018]可选的,所述计算目标队列中每个样本各个SNP位点的基因型可能性的方法包括:利用BCFtools的mpileup进行计算,得到基于测序深度计算的各个SNP位点的基因型可能性;
[0019]可选的,所述估算结果包括:填充后基因型剂量(imputed genotype dosage)、基因型后验概率(genotype probabilities)和最佳估计基因型(best guess genotype)的结果。
[0020]所述机器学习算法包括但不限于以下算法对基因型进行估算:迭代优化算法;迭代优化算法包括以下一种或几种:梯度下降、共轭梯度、坐标下降、牛顿迭代、逐步回归、最小角回归、拉格朗日乘法。
[0021]所述参考全基因组测序数据集为特定人群的参考全基因组测序数据集,所述特定人群的参考全基因组测序数据集包括不同国家/种族/地域的特定人群;
[0022]可选的,所述特定人群的参考全基因组测序数据集为中国人群的参考全基因组测序数据集。
[0023]所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型的染
色体水平结果;
[0024]可选的,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型和单体型信息的染色体水平结果;所述估算结果还包括:单体型信息。
[0025]可选的,利用GLIMPSE_ligated得到所述染色体水平结果;染色体水平结果为VCF文件。
[0026]所述对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息的过程包括:从所述参考全基因组测序数据集中提取双等位基因遗传多态性位点(bi

allele SNPs),得到包含所述参考全基因组测序数据集的SNP位点信息的第一数据集和第二数据集;
[0027]基于所述目标队列的全外显子测序数据,所述第一数据集和所述第二数据集,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;合并所述每个样本中非靶向区域和/或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于全外显子测序的非靶向区域基因型填充方法,包括:获取目标队列的全外显子测序数据、参考全基因组测序数据集;对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;所述SNP位点信息包括染色体号、基因组坐标及等位基因、已去除非SNP的位点的人群基因型信息;基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中的基因型可能性结果;合并所述每个样本中的基因型可能性结果,得到目标队列全部样本中基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。2.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;合并所述每个样本中非靶向区域和/或靶向区域的基因型可能性结果,得到目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本的基因型进行估算,对目标队列中单个样本非靶向区域和/或靶向区域的基因型进行估算,得到单个样本非靶向区域和/或靶向区域的基因型估算结果;可选的,所述计算目标队列中每个样本各个SNP位点的基因型可能性的方法包括:利用BCFtools的mpileup进行计算,得到基于测序深度计算的各个SNP位点的基因型可能性;可选的,所述估算结果包括:填充后基因型剂量、基因型后验概率和最佳估计基因型的结果。3.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述机器学习算法包括但不限于以下算法对基因型进行估算:迭代优化算法;迭代优化算法包括以下一种或几种:梯度下降、共轭梯度、坐标下降、牛顿迭代、逐步回归、最小角回归、拉格朗日乘法。4.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述参考全基因组测序数据集为特定人群的参考全基因组测序数据集,所述特定人群的参考全基因组测序数据集包括不同国家/种族/地域的特定人群;
可选的,所述特定人群的参考全基因组测序数据集为中国人群的参考全基因组测序数据集。5.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型的染色体水平结果;可选的,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型和单体型信息的染色体水平结果;可选的,利用GLIMPSE_ligated得...

【专利技术属性】
技术研发人员:于晓光杜政霖邢世来
申请(专利权)人:温州谱希医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1