【技术实现步骤摘要】
基于全外显子测序的非靶向区域基因型填充方法
[0001]本专利技术涉及基因预测的
,更具体地,涉及一种基于全外显子测序的非靶向区域基因型填充方法及其系统。
技术介绍
[0002]随着高通量测序技术(Next generation sequencing,NGS)的快速发展,越来越多的GWAS试图采用测序技术进行基因型鉴定。全基因组测序技术(Whole genome sequencing,WGS)能够有效地覆盖大多数的遗传突变位点,但缺点在于价格昂贵,不能应用到大规模队列样本上。另外,如果为了成本而降低测序深度,则无法准确鉴定低频变异的基因型状态,该低频变异往往位于蛋白编码区域,具有重要的生物学功能。
[0003]全外显子测序技术(Whole Exome sequencing,WES)已经广泛用于研究蛋白质编码变异在遗传疾病中的作用。然而,基因组中超过98%的序列为非编码序列,存在有很多能够显著影响基因表达的重要调控元件。大量研究表明非编码变异与疾病的形成和发展具有密切的关系,因此,如何准确测量全基因组范围内的基因变异信息成为制约科研人员探究疾病机理的关键。WES会针对基因外显子区域设计探针,靶向捕获该区域后进行测序,在数据通量一定的情况下可以显著提高外显子区域的测序深度;然而,该技术的缺点是无法监测位于基因组中绝大部分区域的非编码变异,而这些非编码变异往往具有更显著的遗传效力。研究表明,在WES测序数据不仅包含了设计探针部位的序列,还有一部分位于探针区域外的序列被捕获,进而被测序仪检测到。相较于探针区域, ...
【技术保护点】
【技术特征摘要】
1.基于全外显子测序的非靶向区域基因型填充方法,包括:获取目标队列的全外显子测序数据、参考全基因组测序数据集;对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;所述SNP位点信息包括染色体号、基因组坐标及等位基因、已去除非SNP的位点的人群基因型信息;基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中的基因型可能性结果;合并所述每个样本中的基因型可能性结果,得到目标队列全部样本中基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。2.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;合并所述每个样本中非靶向区域和/或靶向区域的基因型可能性结果,得到目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本的基因型进行估算,对目标队列中单个样本非靶向区域和/或靶向区域的基因型进行估算,得到单个样本非靶向区域和/或靶向区域的基因型估算结果;可选的,所述计算目标队列中每个样本各个SNP位点的基因型可能性的方法包括:利用BCFtools的mpileup进行计算,得到基于测序深度计算的各个SNP位点的基因型可能性;可选的,所述估算结果包括:填充后基因型剂量、基因型后验概率和最佳估计基因型的结果。3.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述机器学习算法包括但不限于以下算法对基因型进行估算:迭代优化算法;迭代优化算法包括以下一种或几种:梯度下降、共轭梯度、坐标下降、牛顿迭代、逐步回归、最小角回归、拉格朗日乘法。4.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述参考全基因组测序数据集为特定人群的参考全基因组测序数据集,所述特定人群的参考全基因组测序数据集包括不同国家/种族/地域的特定人群;
可选的,所述特定人群的参考全基因组测序数据集为中国人群的参考全基因组测序数据集。5.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型的染色体水平结果;可选的,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型和单体型信息的染色体水平结果;可选的,利用GLIMPSE_ligated得...
【专利技术属性】
技术研发人员:于晓光,杜政霖,邢世来,
申请(专利权)人:温州谱希医学检验实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。