【技术实现步骤摘要】
一种低深度测序群体基因型填充计算内存优化方法
[0001]本专利技术主要涉及到基因测序及生物信息分析
,特指一种低深度测序群体基因型填充计算内存优化方法。
技术介绍
[0002]随着测序成本的降低,大规模群体低深度全基因组测序逐渐成为群体遗传研究中不可或缺的技术手段。通过对大量样本进行低深度测序分型,可以以相同甚至更低成本获得比传统芯片分型和简化基因组测序更密集的分子标记,从而提高GWAS定位的功效。然而,由于测序深度非常低,该方法在技术上不可避免地造成了大量单核苷酸多态性位点(SNP)的基因型缺失,进而影响了下游遗传图谱构建、QTL定位和群体GWAS研究的准确性,因此可见从群体层面提升基因型的完整度具有十分重要的意义。
[0003]群体基因型填充的基本原理是:通过已知的单倍型参考数据集或群体大量样本之间的共享单倍型信息,采用统计学方法对样本中的缺失基因型进行推断。
[0004]现有通过已知的单倍型参考数据进行基因型填充的步骤为:
[0005]1)对目标样本进行单倍型定相(phasing),从而得到染色体区域内的单倍型信息;
[0006]2)通过参考单倍型集合对缺失基因型进行填充。
[0007]上述方法需要预建参考单倍型数据集,这对于一些单倍型图谱研究不是十分充分的物种来说,该数据集通常无法获取,进而无法使用该方法。另外,当目标群体与构建参考单倍型群体存在差异时,基因型填充的准确性也会受到影响。2016年,有从业者Davies等研究出不依赖参考单倍型而借助大量个体的测序数 ...
【技术保护点】
【技术特征摘要】
1.一种低深度测序群体基因型填充计算内存优化方法,其特征在于,包括:对单核苷酸多态性位点SNP进行分块,依据分块来设定检查点值;依据设定的检查点值按分块进行计算前向辅助变量和后向辅助变量,并计算单倍型观测条件概率。2.根据权利要求1所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,利用第一轮前向辅助变量和后向辅助变量算法来进行检查点的确定;在检查点值的基础上利用第二轮前向辅助变量和后向辅助变量算法计算块内的前向辅助变量和后向辅助变量。3.根据权利要求2所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,在依据设定的检查点值按分块进行计算前向辅助变量和后向辅助变量过程中采用分块并行化的处理方式。4.根据权利要求2
‑
3中任意一项所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,对单核苷酸多态性位点SNP进行分块的流程包括:记单核苷酸多态性位点SNP个数为T,祖源单倍型个数为K,则单个前向辅助变量矩阵的尺寸为T*K2;记分块大小为M,则分块个数为存储检查点所需向量尺寸为单个分块的前向辅助变量的尺寸为M*K2。5.根据权利要求4所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,当将检查点辅助变量值全部放入内存,单个分块的前向辅助变量消耗内存为6.根据权利要求4所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,当时,峰值内存为最小,其中M
*
为最优分块大小;当将辅助变量检查点向量存储至磁盘,根据主机内存调整SNP分块大小以适配主机内存容量。7.根据权利要求4所述的低深度测序群体基因型填充计算内存优化方法,其特征在于,利用第一轮算法来进行前向辅助变量的检查点值的确定流程包括:递推计算前向辅助变量α
t
(i);前向辅助变量α
t
(i)定义为部分观测序列o1,o2,...o
t
在状态i中止的概率,数学上表示为α
t
(i)=p{o1,o2,...o
t
,q
t
=i|λ},则有:其中,α1(i)=π
i
b
i
(o1),1≤i≤K2,b
i
(o
t+1
)为发射概率,α
ij
为隐状态转移概率,π
i
为状态i的初始概率,j表示第j种祖源单倍型组合,t表示第t个SNP位点,应用此递推公式,计算出α
T
(i),1≤i≤K2;获取检查...
【专利技术属性】
技术研发人员:蒋艳凰,马丑贤,王振国,杨仁武,毛海波,黄立磊,冯博伦,
申请(专利权)人:人和未来生物科技长沙有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。