基于全外显子测序的非靶向区域基因型填充方法技术

技术编号:37138301 阅读:30 留言:0更新日期:2023-04-06 21:40
本发明专利技术公开了基于全外显子测序的非靶向区域基因型填充方法、系统、设备和计算机可读存储介质,方法其包括:获取目标队列的全外显子测序数据、参考全基因组测序数据集;对参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;基于SNP位点信息和全外显子测序数据,计算每个样本SNP位点的GL,并得到每个样本的GL;合并每个样本的GL,得到全部样本的GL;对参考全基因组测序数据集进行片段化分割处理得到基因组片段信息;基于全部样本的GL、SNP位点信息、基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。本非靶向区域的基因型估算结果。本非靶向区域的基因型估算结果。

【技术实现步骤摘要】
基于全外显子测序的非靶向区域基因型填充方法


[0001]本专利技术涉及基因预测的
,更具体地,涉及一种基于全外显子测序的非靶向区域基因型填充方法及其系统。

技术介绍

[0002]随着高通量测序技术(Next generation sequencing,NGS)的快速发展,越来越多的GWAS试图采用测序技术进行基因型鉴定。全基因组测序技术(Whole genome sequencing,WGS)能够有效地覆盖大多数的遗传突变位点,但缺点在于价格昂贵,不能应用到大规模队列样本上。另外,如果为了成本而降低测序深度,则无法准确鉴定低频变异的基因型状态,该低频变异往往位于蛋白编码区域,具有重要的生物学功能。
[0003]全外显子测序技术(Whole Exome sequencing,WES)已经广泛用于研究蛋白质编码变异在遗传疾病中的作用。然而,基因组中超过98%的序列为非编码序列,存在有很多能够显著影响基因表达的重要调控元件。大量研究表明非编码变异与疾病的形成和发展具有密切的关系,因此,如何准确测量全基因组范围内的基因变异信息成为制约科研本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于全外显子测序的非靶向区域基因型填充方法,包括:获取目标队列的全外显子测序数据、参考全基因组测序数据集;对所述参考全基因组测序数据集中的位点进行过滤,输出参考全基因组测序数据集的SNP位点信息;所述SNP位点信息包括染色体号、基因组坐标及等位基因、已去除非SNP的位点的人群基因型信息;基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中的基因型可能性结果;合并所述每个样本中的基因型可能性结果,得到目标队列全部样本中基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本非靶向区域的基因型进行估算,得到单个样本非靶向区域的基因型估算结果。2.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述参考全基因组测序数据集的SNP位点信息和所述目标队列的全外显子测序数据,计算目标队列中每个样本各个SNP位点的基因型可能性结果,并得到每个样本中非靶向区域和/或靶向区域的基因型可能性结果;合并所述每个样本中非靶向区域和/或靶向区域的基因型可能性结果,得到目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果;对所述参考全基因组测序数据集进行片段化分割处理,得到片段化分割处理后的基因组片段信息;基于所述目标队列全部样本中非靶向区域和/或靶向区域的基因型可能性结果、所述参考全基因组测序数据集的SNP位点信息、所述基因组片段信息,利用机器学习算法对目标队列中单个样本的基因型进行估算,对目标队列中单个样本非靶向区域和/或靶向区域的基因型进行估算,得到单个样本非靶向区域和/或靶向区域的基因型估算结果;可选的,所述计算目标队列中每个样本各个SNP位点的基因型可能性的方法包括:利用BCFtools的mpileup进行计算,得到基于测序深度计算的各个SNP位点的基因型可能性;可选的,所述估算结果包括:填充后基因型剂量、基因型后验概率和最佳估计基因型的结果。3.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述机器学习算法包括但不限于以下算法对基因型进行估算:迭代优化算法;迭代优化算法包括以下一种或几种:梯度下降、共轭梯度、坐标下降、牛顿迭代、逐步回归、最小角回归、拉格朗日乘法。4.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述参考全基因组测序数据集为特定人群的参考全基因组测序数据集,所述特定人群的参考全基因组测序数据集包括不同国家/种族/地域的特定人群;
可选的,所述特定人群的参考全基因组测序数据集为中国人群的参考全基因组测序数据集。5.根据权利要求1所述的基于全外显子测序的非靶向区域基因型填充方法,其特征在于,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型的染色体水平结果;可选的,所述方法还包括:基于所述估算结果整合基因组片段信息,得到包含基因型和单体型信息的染色体水平结果;可选的,利用GLIMPSE_ligated得...

【专利技术属性】
技术研发人员:于晓光杜政霖邢世来
申请(专利权)人:温州谱希医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1