一种提高全基因组预测准确性的方法技术

技术编号:22566764 阅读:53 留言:0更新日期:2019-11-16 12:46
本发明专利技术涉及作物分子育种及全基因组关联分析技术领域,具体提供了一种提高全基因组预测(GP)准确性的方法。本方法包括:(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析(GWAS),找到效应最大的4个单碱基变异(SNPs);(2)把效应最大的4个SNPs作为固定效应,在并GP模型中加入基因型与环境互作组分,能最大限度地提高预测准确性。本发明专利技术可以在完成基因型和表型鉴定后,在不增加其他人力物力投入的情况下,仅仅利用现有的数据信息,尽可能地提高预测准确性。该发明专利技术应用到分子育种工作中,将会提高预测效率,从而提高预测的可靠性并节约育种成本。

A method to improve the accuracy of whole genome prediction

The invention relates to the technical field of crop molecular breeding and genome-wide association analysis, in particular to a method for improving the accuracy of genome-wide prediction (GP). This method includes: (1) phenotypic and genotype identification of the target crop population, and then based on the genome-wide association analysis (GWAS) of the whole population, four single base mutations (SNPs) with the greatest effect are found; (2) taking the four SNPs with the greatest effect as the fixed effect, adding genotype and environment interaction components into the combined GP model can maximize the accuracy of prediction. The invention can improve the prediction accuracy as much as possible by only using the existing data information after completing the genotype and phenotype identification without increasing other human and material resources input. When the invention is applied to molecular breeding, the prediction efficiency will be improved, the reliability of prediction will be improved and the breeding cost will be saved.

【技术实现步骤摘要】
一种提高全基因组预测准确性的方法
本专利技术属于作物分子育种领域,具体涉及到通过改良全基因组预测(GP)线性模型组分来提高GP预测准确性的方法,具体方向为现代农业技术。
技术介绍
全基因组预测(GP)是一种新型的分子育种技术,这种技术需要建立两个群体,一个是训练群体,一个是预测群体。其中训练群体需要进行表型和基因型鉴定,利用训练群体估计分子标记的标记效应,从而根据标记效应来估计预测群体的育种值。与常规的分子标记辅助育种(MAS)相比,GP具有如下优点,一是GP不需要鉴定显著性的数量性状位点(QTL),二是GP可以照顾到微效QTL的信息,三是GP可以通过加快育种周期和提高遗传增益,从而提高育种效率。提高GP预测的准确性可以提高GP辅助育种的效率,从而更加准确地预测测试材料的表型。前人对GP预测准确性的影响因素的研究主要集中于群体大小、标记密度、遗传基础、群体间的亲缘关系、连锁不平衡程度等。这些影响因素是进行GP育种项目前需要考虑的工作。本专利技术关注的重点在于,当所有数据已经获得,通过对数据进行处理能不能提高预测的准确性。典型的GP模型是y=Xβ+Zu+ε,在这个模型中,β是固定效应,u是随机效应。对小麦的抗锈病的研究发现,使用与Sr2连锁的标记作为固定效应的GBLUP模型的预测准确性(PA)比普通GBLUP更准确。利用一个水稻育种群体进行全基因组关联分析(GWAS),把显著的标记作为固定效应的GP模型的预测准确性优于其他六个模型(Spindel等,2016)。在玉米中,通常从两个优良自交系杂交产生的F1植株后代中选择育种材料(Hallauer等,2010)。因此,有必要研究在玉米双亲群体中验证把效应较大的分子标记作为固定效应的预测效果,目前在玉米中尚未有这方面的研究报道。
技术实现思路
为了在不增加成本的基础上提高全基因组选择的效率,本专利技术提供了一种通过把大效应SNP作为固定效应和增加G×E效应来提高GP预测准确性的方法。专利技术的目的是通过把大效应SNPs作为固定效应和增加G×E效应,证明将这两种效应合并到一起能否进一步增加GP的预测准确性。本专利技术首先提供一种提高全基因组预测准确性的方法,其特征在于,包括以下步骤:(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析,找到效应最大的N个单碱基变异SNPs,所述N为正整数,其取值由基于GP预测准确性的显著性检验而定;(2)把效应最大的N个SNPs作为固定效应,在并全基因组选择模型中加入基因型与环境互作组分,进行全基因组预测。步骤(1)中,对目标作物群体的表型分析,确保目标作物种群在不同环境中有共同的遗传基础。步骤(1)中,进行表型分析时,计算整个群体的最佳线性无偏估计值BLUE值和H2用于后续关联分析,在计算BLUEs和H2时,利用如下模型:yijm=μ+gi+ej+geij+δ(j)m+εijm,其中yijm是第ith(i=1,2...,481)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差。当计算BLUEs时,gi作为固定效应,其他变量作为随机效应。在计算H2时,所有效应为随机效应,从而估计每个效应的方差,H2的计算公式是:在计算H2时,所有效应均为随机效应以便估计每个效应的方差,其中和分别代表遗传方差、遗传与环境互作方差和残差,Ne表示环境数,r表示重复数。步骤(1)中,所述全基因组关联分析的模型是:y*=Xβ+Zg+Wτ+ε其中y*是BLUEs,β是固定效应,在这里只包含总体平均值,g是遗传背景效应,τ是标记效应作为随机变量,ε是残差。X、Z和W是设计矩阵。步骤(1)中,找到效应最大的4个单碱基变异SNP。本专利技术提供的上述方法的步骤(2)中,在全基因组预测模型中加入基因型与环境互作组分的G×E模型是:y1是第i个环境下的表型,i为从1到n的整数,μi是第i个环境下的表型的总体平均值,X1是基因型矩阵,β是在各环境中保持不变的标记效应,β被分解为两部分,一个是在个环境保持不变的主效应β0,一个是环境特异性的βi,i是指第i个环境,εi是残差。本专利技术提供的方法,所述的作物包括玉米、水稻、小麦、大豆、花生、高粱、油菜、芝麻、大麦。进一步,本专利技术提供了一种提高玉米全基因组预测准确性的方法,包括以下步骤:(1)构建包含多个家系的BC1F3:4群体,对群体中所有玉米材料进行表型和基因型鉴定,表型是在多个环境条件下统计玉米开花期,每个环境设置两个重复,基因型是利用包含5.5万个SNPs的基因芯片进行鉴定;(2)利用BC1F3:4群体进行关联分析,找到效应最大的前50个SNPs,对这50个SNPs进行多元线性回归,鉴定出这50个SNPs的表型贡献率(PVE),将这50个SNPs按照PVE从大到小进行排序;利用BC1F3:4群体开花期的BLUE值进行GP预测,GP预测利用五折交叉验证重复200次,分别把效应最大的前5个SNPs作为固定效应,检验GP预测准确性增加的情况,发现把效应最大的前5个SNPs作为固定效应的GP模型预测准确性与把效应最大的4个SNPs作为固定效应的GP模型预测准确性差异不显著,说明把效应最大的4个SNPs作为固定效应能最大限度地提高GP预测准确性;(3)证明增加G×E效应的GP模型即G×E模型预测准确性比跨环境的GP模型即A-E模型的预测准确性高:四个环境共计有六种环境组合,利用两种交叉验证模式CV1和CV2对G×E模型和A-E模型进行比较,分别在CV1和CV2模式下,比较当所有标记都是随机变量时和把四个大效应SNPs作为固定效应时G×E模型和A-E模型的预测准确性;(4)证明G×E模型预测准确性的增加与遗传方差的降低有关,分别利用BLUE值,单环境表型,A-E模型和G×E模型,在四个大效应SNPs作为随机变量和固定变量时,估计并比较遗传方差。当把大效应SNPs作为固定效应时,由于这些大效应的SNPs作为固定效应时对遗传方差没有贡献,导致遗传方差降低。同时由于这些大效应的SNPs作为固定效应时可以避免对这些大效应SNPs效应的估计偏差,从而提高了对全基因组预测的准确性。在本专利技术的实施例中,主要包括以下内容:构建包含481个家系的BC1F3:4群体,对这481份材料进行表型和基因型鉴定,表型是在两年两个环境条件下统计玉米开花期,每个环境设置两个重复,四个环境分别是2016和2017年北京顺义,2016和2017年新疆昌吉。基因型是利用包含5.5万个SNPs的基因芯片进行鉴定,利用BC1F3:4群体进行关联分析,找到效应最大的前50(top50)个SNPs,对这50个SNPs进行多元线性回归,鉴定出这50个SNPs的PVE,将这50个SNPs按照PVE从大到小进行排序。利本文档来自技高网
...

【技术保护点】
1.一种提高全基因组预测准确性的方法,其特征在于,包括以下步骤:/n(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析,找到效应最大的N个单碱基变异SNPs;所述N为正整数,其取值由基于GP预测准确性的显著性检验而定;/n(2)把效应最大的N个SNPs作为固定效应,在并全基因组预测模型中加入基因型与环境互作组分,进行全基因组预测分析。/n

【技术特征摘要】
1.一种提高全基因组预测准确性的方法,其特征在于,包括以下步骤:
(1)对目标作物群体进行表型和基因型鉴定,然后基于对整个群体的全基因组关联分析,找到效应最大的N个单碱基变异SNPs;所述N为正整数,其取值由基于GP预测准确性的显著性检验而定;
(2)把效应最大的N个SNPs作为固定效应,在并全基因组预测模型中加入基因型与环境互作组分,进行全基因组预测分析。


2.根据权利要求1所述的方法,其特征在于,步骤(1)中,对目标作物群体的表型分析,确保目标作物种群在不同环境中有共同的遗传基础。


3.根据权利要求1所述的方法,其特征在于,步骤(1)中,进行表型分析时,计算整个群体的最佳线性无偏估计值BLUE值和广义遗传力H2,BLUE值用于后续关联分析,H2用于评估数据质量,在计算BLUEs和H2时,利用如下模型:
yijm=μ+gi+ej+geij+δ(j)m+εijm,
其中yijm是第ith(i=1,2...,481)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差;当计算BLUEs时,gi作为固定效应,其他变量作为随机效应。


4.根据权利要求3所述的方法,其特征在于,H2的计算公式是:



在计算H2时,所有效应均为随机效应以便估计每个效应的方差,其中和分别代表遗传方差、遗传与环境互作方差和残差,Ne表示环境数,r表示重复数。


5.根据权利要求1所述的方法,其特征在于,步骤(1)中,全基因组关联分析的模型是:
y*=Xβ+Zg+Wτ+ε
其中y*是BLUEs,β是固定效应,在这里只包含总体平均值,g是遗传背景效应,τ是标记效应作为随机变量,ε是残差;X、Z和W是设计矩阵。


6.根据权利要求1-5任一所述的方法,其特征在于,步骤(1)中,找到效应最大的4个单碱基变异SNPs...

【专利技术属性】
技术研发人员:张红伟李冬冬王国英
申请(专利权)人:中国农业科学院作物科学研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利