一种代谢标志物辅助的全基因组预测方法及其应用技术

技术编号:39250307 阅读:9 留言:0更新日期:2023-10-30 12:02
本发明专利技术属于育种技术领域,涉及一种代谢标志物辅助的全基因组预测方法及其应用,获取亲本自交系的SNP、代谢物以及表型数据,进行代谢组关联分析,挖掘产量相关性状的代谢标志物,构建代谢标志物辅助的全基因组预测模型,并对表型未知的杂交种进行表型预测,根据表型预测结果选择具有高产潜力的候选杂交组合。本发明专利技术可以提高GS模型对玉米杂种表型的预测准确度,进而能够更精准地筛选出具有高产潜力的候选杂交组合,为进一步提高作物产量做出贡献。为进一步提高作物产量做出贡献。为进一步提高作物产量做出贡献。

【技术实现步骤摘要】
一种代谢标志物辅助的全基因组预测方法及其应用


[0001]本专利技术属于育种
,涉及一种代谢标志物辅助的全基因组预测方法及其应用。

技术介绍

[0002]玉米是我国最重要的粮食作物之一,玉米的高产和稳产对保障我国粮食安全具有重大战略意义。杂种优势利用是玉米增产的最有效途径,然而针对玉米杂种优势的理论研究一直落后于应用研究,这极大地限制了其在玉米育种上的精准高效利用。精准预测杂种优势是解决杂种优势高效利用以及进一步提升玉米产量的关键问题。
[0003]全基因组选择(GS)技术是植物数量性状遗传改良的重要手段,为杂种优势的预测提供了有力工具,但其面临难以捕获基因的复杂互作及其下游调控这一瓶颈,进而导致性状预测的准确性难以提升。而随着代谢组学技术的发展,越来越多的植物代谢物得以鉴定,鉴于代谢组相比基因组更接近生物体的表型,并且潜在的富含遗传位点间互作信息这个优势,因此,有效整合代谢组数据,是突破GS预测瓶颈的途径之一。

技术实现思路

[0004]本专利技术的目的在于提供一种代谢标志物辅助的全基因组预测方法及其应用。利用LASSO方法进行代谢组关联分析(MWAS)挖掘产量相关性状的代谢标志物,构建代谢标志物辅助的全基因组预测模型,并对表型未知的杂交种进行表型预测,根据表型预测结果选择具有高产潜力的候选杂交组合。因此,本专利技术可以提高GS模型对玉米杂种表型的预测准确度,进而能够更精准地筛选出具有高产潜力的候选杂交组合,为进一步提高玉米产量做出贡献。
[0005]本专利技术的目的采用以下技术方案来实现:
[0006]一种代谢标志物辅助的全基因组预测方法,获取亲本自交系的SNP、代谢物以及表型数据,利用LASSO方法进行代谢组关联分析,挖掘产量相关性状的代谢标志物,构建代谢标志物辅助的全基因组预测模型,并对表型未知的杂交种进行表型预测,根据表型预测结果选择具有高产潜力的候选杂交组合。
[0007]进一步的,
[0008]对获取的代谢物数据进行Z

score标准化处理,Z

score标准化公式如下:
[0009][0010]其中,μ是原始数据的均值,σ是原始数据的标准差,x
*
是原始数据经过标准化后的值,x为代谢物数据。
[0011]进一步的,利用LASSO方法进行代谢组关联分析,挖掘产量相关性状的代谢标志物包括:
[0012]首先假设亲本表型观测值数量为n,亲本代谢物数量为m,建立亲本表型与亲本代
谢物之间的线性模型:
[0013]y=Mγ+ε
[0014]其中,y为n
×
1的性状表型值向量,γ是m
×
1的代谢物效应值向量,M是相应的n
×
m的代谢物含量矩阵,ε是n
×
1的误差向量,服从正态分布:
[0015][0016]通过正则化强度λ的参数化,LASSO回归模型的损失函数表示为:
[0017][0018]通过计算各代谢物的p值,当某一代谢物的p值低于显著性阈值,即p<0.05时,则认为该代谢物效应是显著的,并将其作为代谢标志物。
[0019]进一步的,构建代谢标志物辅助的全基因组预测模型包括:
[0020]假设杂交种的表型观测值数量为n,代谢标志物的数量为l,SNP的数量为g,首先构建代谢标志物辅助基因组加性模型,共构建3种模型,分别为:模型I、模型II和模型III;
[0021]模型I的表达式为:
[0022]y=Xβ+G
a
α
a
+M
a
γ
a

[0023]其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
a
是代谢组加性效应,两者均作为随机效应,分别服从如下正态分布:
[0024][0025][0026]G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
a
是杂交种的n
×
l的代谢物加性编码矩阵,ε是n
×
1的残差向量,服从正态分布:
[0027]模型II的表达式为:
[0028]y=Xβ+G
a
α
a
+M
a
γ
a
+M
d
γ
d

[0029]其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
a
是代谢组加性效应,γ
d
是代谢组显性效应,三者均作为随机效应,分别服从如下正态分布:
[0030][0031][0032][0033]G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
a
是杂交种的n
×
l的代谢物加性编码矩阵,M
d
是杂交种的n
×
l的代谢物显性编码矩阵,ε是n
×
1的残差向量,服从正态分布:
[0034]模型III的表达式为:
[0035]y=Xβ+G
a
α
a
+M
p
γ
p

[0036]=Xβ+G
a
α
a
+M
m
γ
pm
+M
f
γ
pf

[0037]其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
pm
和γ
pf
是代谢组效应,三者均作为随机效应,分别服从如下正态分布:
[0038][0039][0040][0041]G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
m
是n
×
l的父本代谢物含量矩阵,M
f
是n
×
l的母本代谢物含量矩阵,ε是n
×
1的残差向量,服从正态分布:
[0042]其次,构建代谢标志物辅助基因组加显模型,共构建3种模型,分别是:模型i,模型ii,模型iii;
[0043]模型i的表达式为:
[0044]y=Xβ+G
a
α
a
+G
a
α
d
+M
a
γ
a
+ε本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种代谢标志物辅助的全基因组预测方法,其特征在于,获取亲本自交系的SNP、代谢物以及表型数据,利用LASSO方法进行代谢组关联分析,挖掘产量相关性状的代谢标志物,构建代谢标志物辅助的全基因组预测模型,并对表型未知的杂交种进行表型预测,根据表型预测结果选择具有高产潜力的候选杂交组合。2.根据权利要求1所述的代谢标志物辅助的全基因组预测方法,其特征在于,对获取的代谢物数据进行Z

score标准化处理,Z

score标准化公式如下:其中,μ是原始数据的均值,σ是原始数据的标准差,x
*
是原始数据经过标准化后的值,x为代谢物数据。3.根据权利要求1所述的代谢标志物辅助的全基因组预测方法,其特征在于,利用LASSO方法进行代谢组关联分析,挖掘产量相关性状的代谢标志物包括:首先假设亲本表型观测值数量为n,亲本代谢物数量为m,建立亲本表型与亲本代谢物之间的线性模型:y=Mγ+ε其中,y为n
×
1的性状表型值向量,γ是m
×
1的代谢物效应值向量,M是相应的n
×
m的代谢物含量矩阵,ε是n
×
1的误差向量,服从正态分布:通过正则化强度λ的参数化,LASSO回归模型的损失函数表示为:通过计算各代谢物的p值,当某一代谢物的p值低于显著性阈值,即p<0.05时,则认为该代谢物效应是显著的,并将其作为代谢标志物。4.根据权利要求1所述的代谢标志物辅助的全基因组预测方法,其特征在于,构建代谢标志物辅助的全基因组预测模型包括:假设杂交种的表型观测值数量为n,代谢标志物的数量为l,SNP的数量为g,首先构建代谢标志物辅助基因组加性模型,共构建3种模型,分别为:模型I、模型II和模型III;模型I的表达式为:y=Xβ+G
a
α
a
+M
a
γ
a
+ε其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
a
是代谢组加性效应,两者均作为随机效应,分别服从如下正态分布:下正态分布:G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
a
是杂交种的n
×
l的代谢物加性编码矩阵,ε是n
×
1的残差向量,服从正态分布:
模型II的表达式为:y=Xβ+G
a
α
a
+M
a
γ
a
+M
d
γ
d
+ε其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
a
是代谢组加性效应,γ
d
是代谢组显性效应,三者均作为随机效应,分别服从如下正态分布:随机效应,分别服从如下正态分布:随机效应,分别服从如下正态分布:G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
a
是杂交种的n
×
l的代谢物加性编码矩阵,M
d
是杂交种的n
×
l的代谢物显性编码矩阵,ε是n
×
1的残差向量,服从正态分布:模型III的表达式为:y=Xβ+G
a
α
a
+M
p
γ
p
+ε=Xβ+G
a
α
a
+M
m
γ
pm
+M
f
γ
pf
+ε其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,γ
pm
和γ
pf
是代谢组效应,三者均作为随机效应,分别服从如下正态分布:如下正态分布:如下正态分布:G
a
是杂交种的n
×
g的基因型加性编码矩阵,M
m
是n
×
l的父本代谢物含量矩阵,M
f
是n
×
l的母本代谢物含量矩阵,ε是n
×
1的残差向量,服从正态分布:其次,构建代谢标志物辅助基因组加显模型,共构建3种模型,分别是:模型i,模型ii,模型iii;模型i的表达式为:y=Xβ+G
a
α
a
+G
a
α
d
+M
a
γ
a
+ε其中,y是n
×
1的杂交种的表型观测值向量,X是n
×
p的关于固定效应的设计矩阵,β是固定效应,α
a
是基因组加性效应,α
d
是基因组显性效应,γ
a
是代谢组加性效应,三者均作为随机效应,分别服从如下正态分布:随机效应,分别服从如下正态分布:随机效应,分别服从如下正态分布:
G
a
...

【专利技术属性】
技术研发人员:徐扬杨文艳于广宁周恺张宇翔徐一亿李成徐辰武杨泽峰陈茹佳鲁月王怡刘伟何水华薛文侠
申请(专利权)人:中垦种业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1