System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及生物信息学,尤其涉及一种全基因组预测方法。
技术介绍
1、全基因组预测(genome prediction,以下简称为gp)作为一种生物育种领域的核心技术受到越来越多的重视和关注。进行gp预测育种需要建立两个群体,一个是训练群体,一个是预测群体,后者通常是常规作物育种中使用的测试群体。其中训练群体需要进行表型和基因型鉴定,根据线性回归模型估计分子标记的标记效应或者个体遗传效应来计算预测群体的预测育种值。与常规的分子标记辅助育种相比,gp具有诸多优点,包括不需要鉴定显著性的qtl位点;可以精确获取到微效qtl的效应;可以提高育种效率和缩短育种周期等。之前的研究人员对gp预测准确性的影响因素也进行了大量的研究,发现遗传力、训练群体和预测群体之间的亲缘关系等因素影响gp预测准确性。
2、目前有研究通过采用不同的固定效应来改良gp模型,以获得更高的预测准确性,例如有研究采用与目标基因连锁的标记作为固定效应,有研究将植物特定时期的标记作为固定效应。这些研究均成功提高了gp模型的预测准确性,但是仍有待进一步改进。
技术实现思路
1、为了解决现有技术存在的问题,本专利技术提供一种全基因组预测方法。
2、一般情况下,在gp预测模型中增加除标记效应以外的随机效应和固定效应有利于提高对目标性状的预测准确性,这些额外效应的加入可以降低由于遗传异质性和存在遗传相关性而引起的预测误差。然而加入不合适的变量效应反而会引入过多的复杂性,导致模型过度拟合或者预测准确性降低。本
3、第一方面,本专利技术提供一种全基因组预测方法,包括:
4、获取待测物种群体的多个性状的表型数据;获得所述待测物种群体的基因型数据;
5、基于所述表型数据和所述基因型数据,通过全基因组关联性分析得到所述多个性状中每一个性状的qtl集合;
6、采用多性状gblup模型进行全基因组预测,以所述多个性状中每一个性状的qtl集合作为固定效应。
7、本专利技术所述多性状模型中是在进行单个性状的全基因组预测的时候,同时把多个性状都加入到gp模型中。与单性状gblup模型相比,多性状模型通过计算性状之间的协方差,对预测结果进行矫正,从而提高目标性状的预测准确性。
8、进一步地,所述多个性状通过如下方法选择:
9、对所述待测物种群体的性状进行表型分析,选择重复性好、受环境影响小,且有稳定遗传基础的数量性状。
10、进一步地,所述表型分析包括如下任意一种或多种:
11、(1)分别分析每个性状在不同环境下的变异程度;
12、(2)分别对每个性状进行方差分析;
13、(3)分别分析每个性状的遗传力;
14、(4)分别分析每个环境每个性状两重复之间的相关性;
15、(5)分别分析每个性状之间的相关性。
16、也就是选择符合如下特征的性状:
17、(1)每个性状在不同环境下具有一定的变异程度;
18、(2)每个性状在不同环境不同重复之间有较高的相关性;
19、(3)每个性状具有较大的基因型方差或者基因型与环境互作方差;
20、(4)每个性状具有较高的遗传力。
21、进一步地,分析每个性状在不同环境下的变异程度:对于不同表型,分布呈正态分布(或近似正态分布),并且在不同环境条件下呈正态分布(或近似正态分布),说明该性状是数量性状,由qtl控制。
22、进一步地:分析每个性状的遗传力:遗传力更大的性状说明遗传因素对该性状的表型起到更重要的作用。
23、进一步地:分析每个环境下每个性状两重复之间的相关性:在两重复之间的相关性都达到极显著水平的性状,其稳定性较高,遗传因素对该性状的表型起到更重要的作用。
24、进一步地,对每个性状进行方差分析:对于基因型方差和基因型与环境互作方差的占比较高的性状,遗传原因是控制该性状的主要原因。
25、进一步地,所述遗传力基于如下模型得到:
26、yijm=μ+gi+ej+geij+δ(j)m+εijm
27、其中yijm是第ith(i=1,2...,476)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差;gi作为固定效应,所有的变量都作为随机效应;
28、根据上述计算方差公式,在结果中获取描述性统计量,可以得到每组的方差分解,利用获得的方差数值计算遗传力即可。
29、所述遗传力的计算公式是:
30、
31、其中和分别代表遗传方差、遗传与环境互作方差、剩余残差,ne表示环境数,r表示重复数。
32、进一步地,所述多个性状的选择过程还包括:关联性分析。
33、进一步地,所述关联性分析包括:
34、获得所述待测物种群体每个性状的blue值,基于所述blue值进行gwas分析,并用于分析不同性状之间的相关系数,从而评价不同性状之间的关系。
35、进一步地,所述blue值通过如下公式计算得到:
36、yijm=μ+gi+ej+geij+δ(j)m+εijm
37、其中yijm是第ith(i=1,2...,476)个基因型在第jth(j=1,2,3,4)环境下表型,mth(m=1,2)表示镶嵌在环境下的重复;μ是总体平均,gi是基因型效应,ej是环境效应,geij是基因型与环境互作效应,δ(j)m是重复效应,εijm是剩余残差;gi作为固定效应,其他变量作为随机效应。
38、在本专利技术优选的具体实施方式中,本专利技术提供的全基因组预测方法中,所述多个性状包括:株高、穗位高、散粉期、吐丝期、穗行数、行粒数、百粒重和单株产量。
39、进一步地,所述qtl集合通过如下方法确定得到:
40、依据所述全基因组关联性分析的结果,提取每个性状对应的qtl加入qtl集合,用于进行全基因组预测分析;
41、对于提取结果中对应的qtl数量为0和1的性状,则选择该性状的分析结果中-log10(p)最大的两个qtl加入qtl集合。
42、进一步地,所述全基因组关联性分析中,分别对每个性状进行关联分析,采用上述全基因组关联性分析的模型检测全基因组范围内所有分子标记的p值,在计算有效标记的基础上,根据bonferoni测验确定阈值,根据阈值确定qtl的位置。
43、进一步地,根据bonferroni测验,计算-log10(0.05/ne)作为阈值。
44、进一步地,对确定的q本文档来自技高网...
【技术保护点】
1.一种全基因组预测方法,其特征在于,包括:
2.根据权利要求1所述的全基因组预测方法,其特征在于,
3.根据权利要求2所述的全基因组预测方法,其特征在于,所述表型分析包括如下任意一种或多种:
4.根据权利要求3所述的全基因组预测方法,其特征在于,所述遗传力基于如下模型得到:
5.根据权利要求2-4任一项所述的全基因组预测方法,其特征在于,所述多个性状的选择过程还包括:关联性分析。
6.根据权利要求5所述的全基因组预测方法,其特征在于,所述关联性分析包括:
7.根据权利要求5所述的全基因组预测方法,其特征在于,所述BLUE值通过如下公式计算得到:
8.根据权利要求1所述的全基因组预测方法,其特征在于,所述QTL集合通过如下方法确定得到:
9.根据权利要求1所述的全基因组预测方法,其特征在于,所述多性状GBLUP模型包括:
10.根据权利要求1-9任一项所述的方法,其特征在于,所述物种包括:玉米、水稻、小麦、大豆、花生、高粱、油菜、芝麻和大麦中的一种或多种。
【技术特征摘要】
1.一种全基因组预测方法,其特征在于,包括:
2.根据权利要求1所述的全基因组预测方法,其特征在于,
3.根据权利要求2所述的全基因组预测方法,其特征在于,所述表型分析包括如下任意一种或多种:
4.根据权利要求3所述的全基因组预测方法,其特征在于,所述遗传力基于如下模型得到:
5.根据权利要求2-4任一项所述的全基因组预测方法,其特征在于,所述多个性状的选择过程还包括:关联性分析。
6.根据权利要求5所述的全基因组预测方法,...
【专利技术属性】
技术研发人员:张红伟,杨文妍,马育庭,刘茜,袁莉萍,谢玉心,付俊杰,
申请(专利权)人:中国农业科学院作物科学研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。