一种高效可并行运算且高准确性的全基因组选择方法技术

技术编号:22914847 阅读:41 留言:0更新日期:2019-12-24 22:01
本发明专利技术涉及动植物育种及人类疾病预测技术领域,提供一种高效可并行运算且高准确性的全基因组选择方法。首先读取原始基因型文件和表型文件,构建新的基因型文件和表型文件,计算所有个体间的亲缘关系矩阵;然后提取新的表型文件中所有个体作为参考群,提取原始基因型文件中无表型数据的所有个体作为预测群;接着利用参考群数据进行全基因组关联分析,提取全基因组关联分析的结果特征;构建性状特异的模型库,采用交叉验证策略,依次优化最佳固定效应、最佳随机效应,从模型库中选取最优预测模型;最后,利用最优预测模型,计算预测群的基因组估计育种值。本发明专利技术能够快速准确且稳定地预测出个体基因组育种值,提升全基因组选择的准确性及效率。

【技术实现步骤摘要】
一种高效可并行运算且高准确性的全基因组选择方法
本专利技术涉及动植物育种及人类疾病预测
,特别是涉及一种高效可并行运算且高准确性的全基因组选择方法。
技术介绍
随着覆盖整个基因组高密度单核苷酸多态性(SNP)基因分型技术的发展,全基因组选择(预测)作为基因组统计分析的强大工具,被广泛应用于植物和动物育种中复杂性状的遗传价值(种用价值)预测和评估,以及人类遗传学研究中。现有的全基因组选择方法分为两类:一类是以全基因组最佳线性无偏预测GBLUP(Genomicbestlinearunbiasedprediction)为代表的直接法,仅需构建个体间基因组关系矩阵,获取方差组分后可通过求解混合模型求得个体育种值;另一类以BayesB为代表的间接法,结合Bayes理论和隐马尔可夫迭代过程求取标记效应值,然后依照个体基因型对标记效应进行累加获得个体育种值。其中,直接法计算效率高,但由于其对性状遗传构建的假设简单,估计的育种值准确性较差;间接法对性状遗传构建的假设相对复杂,更符合性状遗传机制,具有更好的预测准确性,但由于其假设引入众多的未知参数,导致其参数求解过程极其复杂,计算效率较差,限制了间接法在实际预测中的应用。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种高效可并行运算且高准确性的全基因组选择方法,能够快速准确且稳定地预测出个体基因组育种值,提升全基因组选择的准确性及计算效率。本专利技术的技术方案为:一种高效可并行运算且高准确性的全基因组选择方法,其特征在于,包括下述步骤:步骤1:读取原始基因型文件和原始表型文件,提取原始基因型文件和原始表型文件中相同个体的基因型数据和表型数据,形成新的基因型文件和新的表型文件,并利用新的基因型文件计算所有个体间的亲缘关系矩阵G;步骤2:提取新的表型文件中的所有个体作为参考群,提取原始基因型文件中无表型数据的所有个体作为预测群,得到参考群数据和预测群数据,将参考群随机分为M个规模相同的子参考群;其中,参考群数据包括参考群中每个个体的基因型数据和表型数据,预测群数据包括预测群中每个个体的基因型数据;步骤3:利用参考群数据进行全基因组关联分析,提取全基因组关联分析的结果特征;构建性状特异的模型库,采用交叉验证策略,依次优化最佳固定效应、最佳随机效应,从模型库中选取最优预测模型;步骤4:利用所述最优预测模型,计算所述预测群的基因组估计育种值。所述步骤3包括下述步骤:步骤3.1:使用L个线程并行执行相关系数计算;其中,使用第l∈{1,2,...,L}个线程执行相关系数计算包括:步骤3.1.1:随机选取M-1个子参考群组合成测试群,将未被选取的子参考群作为验证群,利用测试群进行全基因组关联分析,采用选定的模型提取基因型中所有位点的显著P值为{P1l,P2l,...,Pnl,...,PNl};其中,N为基因型中的位点总数,Pnl为第l个线程计算的基因型中第n个位点的显著P值,n∈{1,2,...,N};步骤3.1.2:用预设大小的窗口对所有位点按照基因组上的分布顺序进行划分,得到x个窗口内的位点;将每个窗口内的位点按照显著P值从小到大进行排序,选取每个窗口中显著P值最大的位点,形成位点集合X;步骤3.1.3:利用测试群和GBLUP模型计算验证群的基因组估计育种值GEBV1,GEBV1只包含随机效应部分,计算GEBV1与验证群真实表型间的相关系数C0l;利用所述位点集合X测试固定效应模型FLM,从位点集合X中依次逐个不放回地取出位点并加入FLM中作为协变量,计算验证群的基因组估计育种值GEBV2,GEBV2只包含固定效应部分,并计算GEBV2与验证群真实表型间的相关系数集合为{Cf1l,Cf2l,...,Cfil,...,Cfxl};利用所述位点集合X测试混合效应模型MLM,从位点集合X中依次逐个不放回地取出位点并加入MLM中作为协变量,计算验证群的基因组估计育种值GEBV3,GEBV3包含固定效应及随机效应两部分,并计算GEBV3与验证群真实表型间的相关系数集合为{Cm1l,Cm2l,...,Cmil,...,Cmxl};其中,i∈{1,2,...,x};步骤3.1.4:若Cfil>Cf,i-1,l且Cfil>C0l,则位点集合X中第i个位点为FLM有效位点,第i个位点对应的窗口为FLM有效窗口,得到FLM有效窗口集合Fl;若Cmil>Cm,i-1,l且Cmil>C0l,则位点集合X中第i个位点为MLM有效位点,第i个位点对应的窗口为MLM有效窗口,得到MLM有效窗口集合Ml;步骤3.2:计算{C01,C02,...,C0l,...,C0L}的均值为计算{Cfi1,Cfi2,...,Cfil,...,CfiL}的均值为{Cmi1,Cmi2,...,Cmil,...,CmiL}的均值为i∈{1,2,...,x},得到均值第一集合为均值第二集合为计算均值第一集合中元素的最大值为均值第二集合中元素的最大值为若则选取最优预测模型为FLM;若则选取最优预测模型为MLM;若且则选取最优预测模型为GBLUP;步骤3.3:若最优预测模型为FLM,则对L个FLM有效窗口集合{F1,F2,...,Fl,...,FL}中的窗口进行计数,挑取出现次数大于或等于L×95%的FLM有效窗口作为终选FLM有效窗口;若最优预测模型为MLM,则对L个MLM有效窗口集合{M1,M2,...,Ml,...,ML}中的窗口进行计数,挑取出现次数大于或等于L×95%的MLM有效窗口作为终选MLM有效窗口;步骤3.4:计算{Pn1,Pn2,...,Pnl,...,PnL}的指定值作为第n个位点的最终关联P值得到所有位点的最终关联P值为在终选FLM有效窗口中选取最终关联P值最大的位点作为FLM最佳协变量位点或在终选MLM有效窗口中选取最终关联P值最大的位点作为MLM最佳协变量位点;步骤3.5:使用L个线程并行执行梯度下相关系数计算;其中,使用第l∈{1,2,...,L}个线程执行梯度下相关系数计算包括:步骤3.5.1:若最优预测模型为GBLUP或MLM,则基于Vanraden算法初始化N×N的对角权重矩阵W=diag(w1,w2,...,wN)=diag(1,1,...,1);对所述步骤3.1.1得到的所有位点的显著P值{P1l,P2l,...,Pnl,...,PNl}按照从小到大的顺序进行排序,得到排序后的显著P值序列{P1l',P2l',...,Pnl',...,PNl'},将排序后的显著P值序列中前α%的元素对应的权重设置为放大倍数、将后(1-α%)的元素对应的权重保持不变仍为1,得到新的对角权重矩阵W';其中,对α设置n1个梯度为{α1,α2,...,αp,...,αn1}、设置放大函数为logβP,对β设置n2个梯度{β1,β2,...,βq,...,βn2},梯度βq下前αp%的元素中第k个元素对应的放大倍数为结合Vanraden算法计算新的亲缘关系矩阵为T;若最佳预测模型为MLM,则加入所述MLM本文档来自技高网...

【技术保护点】
1.一种高效可并行运算且高准确性的全基因组选择方法,其特征在于,包括下述步骤:/n步骤1:读取原始基因型文件和原始表型文件,提取原始基因型文件和原始表型文件中相同个体的基因型数据和表型数据,形成新的基因型文件和新的表型文件,并利用新的基因型文件计算所有个体间的亲缘关系矩阵G;/n步骤2:提取新的表型文件中的所有个体作为参考群,提取原始基因型文件中无表型数据的所有个体作为预测群,得到参考群数据和预测群数据,将参考群随机分为M个规模相同的子参考群;其中,参考群数据包括参考群中每个个体的基因型数据和表型数据,预测群数据包括预测群中每个个体的基因型数据;/n步骤3:利用参考群数据进行全基因组关联分析,提取全基因组关联分析的结果特征;构建性状特异的模型库,采用交叉验证策略,依次优化最佳固定效应、最佳随机效应,从模型库中选取最优预测模型;/n步骤4:利用所述最优预测模型,计算所述预测群的基因组估计育种值。/n

【技术特征摘要】
1.一种高效可并行运算且高准确性的全基因组选择方法,其特征在于,包括下述步骤:
步骤1:读取原始基因型文件和原始表型文件,提取原始基因型文件和原始表型文件中相同个体的基因型数据和表型数据,形成新的基因型文件和新的表型文件,并利用新的基因型文件计算所有个体间的亲缘关系矩阵G;
步骤2:提取新的表型文件中的所有个体作为参考群,提取原始基因型文件中无表型数据的所有个体作为预测群,得到参考群数据和预测群数据,将参考群随机分为M个规模相同的子参考群;其中,参考群数据包括参考群中每个个体的基因型数据和表型数据,预测群数据包括预测群中每个个体的基因型数据;
步骤3:利用参考群数据进行全基因组关联分析,提取全基因组关联分析的结果特征;构建性状特异的模型库,采用交叉验证策略,依次优化最佳固定效应、最佳随机效应,从模型库中选取最优预测模型;
步骤4:利用所述最优预测模型,计算所述预测群的基因组估计育种值。


2.根据权利要求1所述的高效可并行运算且高准确性的全基因组选择方法,其特征在于,所述步骤3包括下述步骤:
步骤3.1:使用L个线程并行执行相关系数计算;其中,使用第l∈{1,2,...,L}个线程执行相关系数计算包括:
步骤3.1.1:随机选取M-1个子参考群组合成测试群,将未被选取的子参考群作为验证群,利用测试群进行全基因组关联分析,采用选定的模型提取基因型中所有位点的显著P值为{P1l,P2l,...,Pnl,...,PNl};其中,N为基因型中的位点总数,Pnl为第l个线程计算的基因型中第n个位点的显著P值,n∈{1,2,...,N};
步骤3.1.2:用预设大小的窗口对所有位点按照基因组上的分布顺序进行划分,得到x个窗口内的位点;将每个窗口内的位点按照显著P值从小到大进行排序,选取每个窗口中显著P值最大的位点,形成位点集合X;
步骤3.1.3:利用测试群和GBLUP模型计算验证群的基因组估计育种值GEBV1,GEBV1只包含随机效应部分,计算GEBV1与验证群真实表型间的相关系数C0l;利用所述位点集合X测试固定效应模型FLM,从位点集合X中依次逐个不放回地取出位点并加入FLM中作为协变量,计算验证群的基因组估计育种值GEBV2,GEBV2只包含固定效应部分,并计算GEBV2与验证群真实表型间的相关系数集合为{Cf1l,Cf2l,...,Cfil,...,Cfxl};利用所述位点集合X测试混合效应模型MLM,从位点集合X中依次逐个不放回地取出位点并加入MLM中作为协变量,计算验证群的基因组估计育种值GEBV3,GEBV3包含固定效应及随机效应两部分,并计算GEBV3与验证群真实表型间的相关系数集合为{Cm1l,Cm2l,...,Cmil,...,Cmxl};其中,i∈{1,2,...,x};
步骤3.1.4:若Cfil>Cf,i-1,l且Cfil>C0l,则位点集合X中第i个位点为FLM有效位点,第i个位点对应的窗口为FLM有效窗口,得到FLM有效窗口集合Fl;若Cmil>Cm,i-1,l且Cmil>C0l,则位点集合X中第i个位点为MLM有效位点,第i个位点对应的窗口为MLM有效窗口,得到MLM有效窗口集合Ml;
步骤3.2:计算{C01,C02,...,C0l,...,C0L}的均值为计算{Cfi1,Cfi2,...,Cfil,...,CfiL}的均值为{Cmi1,Cmi2,...,Cmil,...,CmiL}的均值为i∈{1,2,...,x},得到均值第一集合为均值第二集合为计算均值第一集合中元素的最大值为均值第二集合中元素的最大值为若则选取最优预测模型为FLM;若则选取最优预测模型为MLM;若且则选取最优预测模型为GBLUP;
步骤3.3:若最优预测模型为FLM,则对L个FLM有效窗口集合{F1,F2,...,Fl,...,FL}中的窗口进行计数,挑取出现次数大于或等于L×95%的FLM有效窗口作为终选FLM有效窗口;若最优预测模型为MLM,则对L个MLM有效窗口集合{M1,M2,...,Ml,...,ML}中的窗口进行计数,挑取出现次数大于或等于L×95%的MLM有效窗口作为终选MLM有效窗口;
步骤3.4:计算{Pn1,Pn2,...,Pnl,...,PnL}的指定值作为第n个位点的最终关联P值得到所有位点的最终关联P值为在终选FLM有效窗口中选取最终关联P值最大的位点作为FLM最佳协变量位点或在终选MLM有效窗口中选取最终关联P值最大的位点作为MLM最佳协变量位点;

【专利技术属性】
技术研发人员:赵书红尹立林刘小磊李新云余梅朱猛进唐振双许婧雅殷东
申请(专利权)人:华中农业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1