当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于混合线性模型的多性状关联分析方法技术

技术编号:13290560 阅读:187 留言:0更新日期:2016-07-09 09:10
本发明专利技术公开了一种基于混合线性模型的多性状关联分析方法,该方法包括:构建统计遗传模型;确定效应显著的单位点SNP标记;确定互作效应显著的二互作上位性SNP标记;估算遗传效应。本发明专利技术基于多变量混合线性模型的多性状全基因组关联分析方法综合利用了多个遗传相关性状的变异信息,与单性状分析方法相比,具有较高的分析功效和较低的假阳性,QTS位置估算更为准确,效应估计更为稳健。

【技术实现步骤摘要】

本专利技术涉及多性状联合定位
,尤其涉及一种基于混合线性模型的多性状关联分析方法
技术介绍
全基因组关联分析已经变成一种标准的探索复杂性状遗传结构和解释数量性状遗传变异基础的有效方法。关联分析方法中的主要问题在于解释数据的依赖性,包括个体之间的依赖和位点之间的依赖性。混合线性模型同时包含固定效应和随机效应,可以有效的解释大数据中存在的群体结构,包括群体分层和亲缘关系。然而,大多数的关联分析方法都只针对单个数量性状,不能综合考虑多个遗传相关的性状进行联合分析,无法剖析多个性状遗传相关的分子机理,无法分析遗传位点的多效性等,例如:申请公布号CN103632067A的专利技术专利申请文献公开了一种基于混合线性模型的种子数量性状位点定位方法,该方法包括:(1)统计遗传模型的建立;(2)全基因组扫描显著的标记区间:基于模型在全基因组范围内,通过表型和每个标记区间做基于HendersonIII的F检验,搜索得到所有可能存在QTL的候选标记区间;(3)在全基因组范围内搜索显著的数量性状位点,将步骤(2)中得到的候选标记区间作为协变量,然后以1cm为步长,在全基因组范围内做基于HendersonIII的F检验,搜索显著的QTL位点;(4)在全基因组范围内搜索显著的二互作标记区间:将步骤(2)中得到的候选标记区间作为协变量,然后在全基因组范围内做基于HendersonIII的F检验,搜索得到显著的二互作标记区间;(5)搜索显著的二互作上位性的位点:以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间作为协变量,然后在所述显著的互作标记区间中做基于HendersonIII的F检验,搜索得到显著的二互作上位性的位点;(6)遗传参数的估算:通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作上位性位点,获取得到模型中各种效应系数,然后通过模型,计算得到这些位点的效应以及估算每个位点的遗传率。目前,已有一些基于多变量混合线性模型的多性状关联分析方法,如MTMM(Kroteetal.,2012,NatureGenetics,44(9):1066-1071),GEMMA(Zhouetal.,2014.NatureMethods,11(4),407-409)等。但是,这些方法或者计算量大,或者无法分析三个或三个以上的形状,或者无法分析基因间互作、基因与环境间互作效应。因此,有必要再探究一种更为高效的能够进行多性状关联分析的定位方法,已解决上述问题。
技术实现思路
本专利技术提供了一种基于混合线性模型的多性状联合定位方法,该方法分析功效较高、假阳性较低,QTS位置估算更准确,效应估计更稳健。一种基于混合线性模型的多性状关联分析方法,包括:(1)构建统计遗传模型:假设一个自然群体由n个个体组成,在p个不同环境中进行田间试验,m个相关性状的遗传变异受s个QTS位点和t对二互作上位性的调控;环境k中针对第i个性状的第j个株系的表型观测值yijk表示为:yijk=μi+Σcqbicxjkc+Σlsailxlj+Σl,h∈(1,2...,s),l<htaailhxljxhj+eik+Σlsaeilkxljk+Σl,h∈(1,2...,s),l<htaaeilhkxljkxhjk+ϵijk]]>式中,μi是性状i的群体均值;bic是性状i第c个协变量的效应,系数为xjkc;ail是性状i第l个QTS的加性效应,系数为xlj;aailh是性状i第l个QTS与第h个QTS之间的加加上位性,系数为xljxhj;eik是性状i在环境k下的效应;aeilk是ail与第k个环境的互作效应,系数为xljk;aaeilhk是aailh与第k个环境的互作效应,系数为xljkxhjk;εijk是性状i株系j在环境k下的随机残差;(2)确定效应显著的单位点SNP标记:在全基因组范围内,逐一检测各SNP标记,通过Lambda统计量和置换检验方法,获取效应显著的单位点SNP标记;yijk=μik+Σcqbicxjkc+ailkxlj+ϵijk]]>式中,yijk是环境k中第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体均值;bic是性状i第c个协变量的效应,系数为xjkc;ailk是环境k中性状i位点l的加性效应,系数为xlj;εijk是株系j在环境k下第i个性状的随机残差;(3)确定互作效应显著的二互作上位性SNP标记:将步骤(2)中获得的单位点SNP标记作为协变量,通过Lambda统计量和置换检验方法,获取互作效应显著的二互作上位性SNP标记;yijk=μik+aailhkxhjxlj+Σcqbicxjkc+Σr=1sairkxrj+ϵijk]]>式中,yijk是环境k中针对第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体均值;aailhk是性状i在环境k下第l个QTS与第h个QTS之间的加加上位性效应,系数为xljxhj;bic是性状i第c个协变量的效应,系数为xjkc;airk是在步骤(2)中获得的所述单位点SNP标记的加性效应,系数为xrj;εijk是株系j在环境k下第i个性状的随机残差;(4)估算遗传效应:针对步骤(2)得到的单位点SNP标记和步骤(3)得到的二互作上位性SNP标记,采用向前选择法剔除假阳性的单位点SNP标记和二互作上位性SNP标记,得到显著的单位点QTS和二互作上位性QTS的效应系数,将所述效应系数代入步骤(1)中构建全模型,计算得到所述单位点QTS和二互作上位性QTS的遗传效应。具体地,所述的遗传效应为单位点QTS的加性效应,二互作上位性QTS的加加上位性效应,单位点QTS与环境的互作效应以及二互作上位性QTS与环境的互作效应。步骤(2)中,所述Lambda统计量的计算方法为:采用矩阵向量的方式表示表型观测值Y,Y=WQBQ+WMBM+Eε式中,Y是一个n×m阶表型观测值矩阵;BQ=(a1la2l…aml)是p×m阶矩阵,由检测位点l各环境下的加性效应组成,其中ail=(ai1lai2l…aipl)T;ΒΜ是协变量矩阵,包含了各个环境下的群体均值和各协变量的效应;ΒQ和ΒΜ的系数矩阵分别是WQ和WM;Eε是m个性状的随机残差矩阵;其中,W=[WQ,WM],Q=YTY-YTW(WTW)+WTY,Q1=YTY-YTWM(WMTWM)+WMTY,构建W本文档来自技高网
...
一种基于混合线性模型的多性状关联分析方法

【技术保护点】
一种基于混合线性模型的多性状关联分析方法,其特征在于,包括:(1)构建统计遗传模型:假设一个自然群体由n个个体组成,在p个不同环境中进行田间试验,m个相关性状的遗传变异受s个QTS位点和t对二互作上位性的调控;环境k中针对第i个性状的第j个株系的表型观测值yijk表示为:yijk=μi+Σcqbicxjkc+Σlsailxlj+Σl,h∈(1,2...,s),l<htaailhxljxhj+eik+Σlsaeilkxljk+Σl,h∈(1,2...,s),l<htaaeilhkxljkxhjk+ϵijk]]>式中,μi是性状i的群体均值;bic是性状i第c个协变量的效应,系数为xjkc;ail是性状i第l个QTS的加性效应,系数为xlj;aailh是性状i第l个QTS与第h个QTS之间的加加上位性,系数为xlj xhj;eik是性状i在环境k下的效应;aeilk是ail与第k个环境的互作效应,系数为xljk;aaeilhk是aailh与第k个环境的互作效应,系数为xljk xhjk;εijk是性状i株系j在环境k下的随机残差;(2)确定效应显著的单位点SNP标记:在全基因组范围内,逐一检测各SNP标记,通过Lambda统计量和置换检验方法,获取效应显著的单位点SNP标记;yijk=μik+Σcqbicxjkc+ailkxlj+ϵijk]]>式中,yijk是环境k中第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体均值;bic是性状i第c个协变量的效应,系数为xjkc;ailk是环境k中性状i位点l的加性效应,系数为xlj;εijk是株系j在环境k下第i个性状的随机残差;(3)确定互作效应显著的二互作上位性SNP标记:将步骤(2)中获得的单位点SNP标记作为协变量,通过Lambda统计量和置换检验方法,获取互作效应显著的二互作上位性SNP标记;yijk=μik+aailhkxljxhj+Σcqbicxjkc+Σr=1sairkxrj+ϵijk]]>式中,yijk是环境k中第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体均值;aailhk是性状i在环境k下第l个QTS与第h个QTS之间的加加上位性效应,系数为xlj xhj;bic是性状i第c个协变量的效应,系数为xjkc;airk是在步骤(2)中获得的所述单位点SNP标记的加性效应,系数为xrj;εijk是株系j在环境k下第i个性状的随机残差;(4)估算遗传效应:针对步骤(2)得到的单位点SNP标记和步骤(3)得到的二互作上位性SNP标记,采用向前选择法剔除假阳性的单位点SNP标记和二互作上位性SNP标记,得到显著的单位点QTS和二互作上位性QTS的效应系数,将所述效应系数代入步骤(1)中构建全模型,计算得到所述单位点QTS和二互作上位性QTS的遗传效应。...

【技术特征摘要】
1.一种基于混合线性模型的多性状关联分析方法,其特征在于,包括:
(1)构建统计遗传模型:
假设一个自然群体由n个个体组成,在p个不同环境中进行田间试验,m个相关性状的遗
传变异受s个QTS位点和t对二互作上位性的调控;环境k中针对第i个性状的第j个株系的表
型观测值yijk表示为:
yijk=μi+Σcqbicxjkc+Σlsailxlj+Σl,h∈(1,2...,s),l<htaailhxljxhj+eik+Σlsaeilkxljk+Σl,h∈(1,2...,s),l<htaaeilhkxljkxhjk+ϵijk]]>式中,μi是性状i的群体均值;bic是性状i第c个协变量的效应,系数为xjkc;ail是性状i第
l个QTS的加性效应,系数为xlj;aailh是性状i第l个QTS与第h个QTS之间的加加上位性,系数
为xljxhj;eik是性状i在环境k下的效应;aeilk是ail与第k个环境的互作效应,系数为xljk;
aaeilhk是aailh与第k个环境的互作效应,系数为xljkxhjk;εijk是性状i株系j在环境k下的随
机残差;
(2)确定效应显著的单位点SNP标记:
在全基因组范围内,逐一检测各SNP标记,通过Lambda统计量和置换检验方法,获取效
应显著的单位点SNP标记;
yijk=μik+Σcqbicxjkc+ailkxlj+ϵijk]]>式中,yijk是环境k中第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体
均值;bic是性状i第c个协变量的效应,系数为xjkc;ailk是环境k中性状i位点l的加性效应,系
数为xlj;εijk是株系j在环境k下第i个性状的随机残差;
(3)确定互作效应显著的二互作上位性SNP标记:
将步骤(2)中获得的单位点SNP标记作为协变量,通过Lambda统计量和置换检验方法,
获取互作效应显著的二互作上位性SNP标记;
yijk=μik+aailhkxljxhj+Σcqbicxjkc+Σr=1sairkxrj+ϵijk]]>式中,yijk是环境k中第i个性状的第j个株系的表型观测值;μik是环境k中性状i的群体
均值;aailhk是性状i在环境k下第l个QTS与第h个QTS之间的加加上位性效应,系数为xljxhj;
bic是性状i第c个协变量的效应,系数为xjkc;airk是在步骤(2)中获得的所述单位点SNP标记
的加性效应,系数为xrj;εijk是株系j在环境k下第i个性状的随机残差;
(4)估算遗传效应:
针对步骤(2)得到的单位点SNP标记和步骤(3)得到的二互作上位性SNP标记,采用向前
选择法剔除假阳性的单位点SNP标记和二互作上位性SNP标记,得到显著的单位点QTS和二
互作上位性QTS的效应系数,将所述效应系数代入步骤(1)中构建全模型,计算得到所述单
位点QTS和二互作上位性QTS的遗传效应。
2.如权利要求1所述的多性状关联分析方法,其特征在于,所述的遗传效应为单位点
QTS的加性效应,二互作上位性QTS的加加上位性效应,单位点QTS与环境的互作效应以及二
互作上位性QTS与环境的互作效应。
3.如权利要求1所述的多性状关联分析方法,其特征在于,步骤(2)中,所述Lambda统计
量的计算方法为:采用矩阵向量的方式表示表型观测值Y,
Y=WQBQ+WMBM+Eε式中,Y是一个n×m阶表型观测值矩阵;BQ=(a1la2l…aml)是p×m阶矩阵,由检测位点
l各环境下的加性效应组成,其中ail=(ai1lai2l…aipl)T;ΒΜ是协变量矩阵,包含了各个
环境下的群体均值和各协变量的效应;ΒQ和ΒΜ的系数矩阵分别是WQ和WM;Eε是m个性状的
随机残差矩阵;
其中,W=[WQ,WM],Q=YTY-YTW(WTW)+WTY,Q1=YTY-YTWM(WMTWM)+WMTY,构建Wilks’Lambda统
计量λ=|Q|/|Q1|;在原假设H0:BQ=0的情况下,统计量...

【专利技术属性】
技术研发人员:徐海明刘守业祁婷朱智宏朱军
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1