【技术实现步骤摘要】
一种基于大样本的基因
‑
环境互作关联分析方法
[0001]本专利技术涉及遗传算法领域,具体涉及一种基于大样本的基因
‑
环境互作关联分析方法。
技术介绍
[0002]人类很多基因受到环境因子的调控,环境因子包括饮食、身体活动和其他生活方式协变量,其中基因
‑
环境相互作用(GEI)值得研究。目前,拥有数百万参与者的基因组数据集正在以前所未有的规模被收集,这些数据集包括All of Us Research Program(约100万参与者)、UK BioBank(约50万参与者)和Million Veteran Program(多于100万参与者)。虽然如此大的基因组数据为基因
‑
环境互作(GEI)研究提供了极好的机会,但GEI分析工具的研发的滞后一直保持不变,完全无法适应基因
‑
环境相互作用调查的需要。现有的多数方法没有针对数十万或数百万个人的分析进行优化,计算资源要求过高,并且缺乏多线程能力来减少运行时间。QUICKTEST方法、PLINK2方法、CGEN方法和GxEScan方法虽然可以在大样本中进行有效分析,但不能进行稳健的推理和多重交互项计算;SPAGE方法目前仅支持二元性状的分析,且缺少多线程计算能力。StructLMM方法是一种计算高效的方法,可以识别基因与多个环境相互作用,并且能够应用于数十万人的大样本分析,它不能处理相关个体,忽略相关个体会造成统计功效的损失。因此,有必要开发一种适用于相关大样本的基因
‑ />环境互作关联分析方法。
技术实现思路
[0003]本专利技术目的:在于提供一种基于大样本的基因
‑
环境互作关联分析方法,实现快速识别多个环境信息对基因
‑
环境互作位点的基因的影响,适用于大样本的基因
‑
环境互作关联快速检测。
[0004]为实现以上功能,本专利技术设计一种基于大样本的基因
‑
环境互作关联分析方法,执行如下步骤S1
‑
步骤S5,获得基因
‑
环境互作得分测试统计量,然后应用基因
‑
环境互作得分测试统计量,完成对基因序列与环境信息是否存在互作效应的判断;
[0005]S1:采集目标个体的基因序列、环境信息、表型信息,并基于目标个体的基因序列、环境信息、表型信息构建目标个体的基因
‑
环境样本;
[0006]S2:基于目标个体的基因
‑
环境样本中的基因序列、环境信息,以基因序列中预设基因
‑
环境互作位点的基因为焦点变体,针对该焦点变体,构建焦点变体所对应的基因型向量,基于目标个体的环境信息,构建环境信息所对应的环境矩阵;
[0007]S3:基于步骤S2所获得的基因型向量、环境矩阵,通过矩阵乘法,构建基因
‑
环境交互设计矩阵,并根据对效应的假定,构建基因型向量所对应的焦点变体固定效应向量、环境矩阵所对应的环境随机效应向量、基因
‑
环境交互设计矩阵所对应的基因
‑
环境交互随机效应向量;
[0008]基于目标个体的表型信息,构建数量性状表型向量;
[0009]基于基因型向量、焦点变体固定效应向量、环境矩阵、环境随机效应向量、基因
‑
环境交互设计矩阵、基因
‑
环境交互随机效应向量,以及数量性状表型向量,构建基因
‑
环境检测线性混合模型;
[0010]S4:基于步骤S3所构建的基因
‑
环境检测线性混合模型,采用预处理共轭梯度法、矩估计方法对基因
‑
环境检测线性混合模型进行求解,构建服从于卡方分布的基因
‑
环境互作得分测试统计量,所述基因
‑
环境互作得分测试统计量用于判断所述环境信息是否对目标个体的预设所有基因
‑
环境互作位点的基因产生影响;
[0011]S5:基于步骤S4所构建的基因
‑
环境互作得分测试统计量,通过对基因序列中各基因
‑
环境互作位点的随机抽样,计算基因
‑
环境互作得分测试统计量所对应的卡方分布的系数a值,进而获得所有基因
‑
环境互作位点的卡方分布的P值,并预设基因
‑
环境互作阈值,当卡方分布P值小于基因
‑
环境互作阈值,则判定环境信息对该基因
‑
环境互作位点的基因产生影响,即存在基因
‑
环境互作效应,否则判定环境信息对该基因
‑
环境互作位点的基因不产生影响,即不存在基因
‑
环境互作效应。
[0012]作为本专利技术的一种优选技术方案:步骤S3中构建基因
‑
环境交互设计矩阵如下式:
[0013]S=G
⊙
E=diag(G)E
[0014]式中,S为基因
‑
环境交互设计矩阵,其形式为N
×
Q维矩阵,N为样本量大小,Q为环境信息个数,
⊙
表示哈达玛积矩阵乘法计算,G为焦点变体所对应的基因型向量,E为环境信息所对应的环境矩阵,其形式为N
×
Q维的矩阵;
[0015]步骤S3中所构建的基因
‑
环境检测线性混合模型如下式:
[0016]Y=Xβ
X
+Gβ
G
+Eβ
E
+Sβ
S
+u+ε
[0017]式中,Y为数量性状表型向量,其形式为N
×
1维向量,N为样本量大小,X为包括截距的固定效应设计矩阵,其形式为N
×
P维的协变量矩阵,β
X
为P
×
1维的固定效应向量,G为焦点变体所对应的基因型向量,其形式为N
×
1维的向量,β
G
为基因型向量所对应的焦点变体固定效应向量,E为环境信息所对应的环境矩阵,其形式为N
×
Q维的矩阵,β
E
为环境矩阵所对应的环境随机效应向量,其形式为Q
×
1维的向量,且β
E
服从正态分布,即服从正态分布,即为环境方差组分;β
S
为基因
‑
环境交互设计矩阵所对应的基因
‑
环境交互随机效应向量,且β
S
服从正态分布,即服从正态分布,即为基因
‑
环境方差组分;u为随机效应分量,其服从正态分布,即布,即为随机效应分量的方差组分,其中其形式为N
×
N维亲缘关系矩阵,Z为N
×
M维矩阵,且Z=(G1,G2,
…
,G
M
),其中M为标记个数本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于大样本的基因
‑
环境互作关联分析方法,其特征在于,执行如下步骤S1
‑
步骤S5,获得基因
‑
环境互作得分测试统计量,然后应用基因
‑
环境互作得分测试统计量,完成对基因序列与环境信息是否存在互作效应的判断;S1:采集目标个体的基因序列、环境信息、表型信息,并基于预设目标个体的基因序列、环境信息、表型信息构建目标个体的基因
‑
环境样本;S2:基于目标个体的基因
‑
环境样本中的基因序列、环境信息,以基因序列中预设基因
‑
环境互作位点的基因为焦点变体,针对该焦点变体,构建焦点变体所对应的基因型向量,基于目标个体的环境信息,构建环境信息所对应的环境矩阵;S3:基于步骤S2所获得的基因型向量、环境矩阵,通过矩阵乘法,构建基因
‑
环境交互设计矩阵,并根据对效应的假定,构建基因型向量所对应的焦点变体固定效应向量、环境矩阵所对应的环境随机效应向量、基因
‑
环境交互设计矩阵所对应的基因
‑
环境交互随机效应向量;基于目标个体的表型信息,构建数量性状表型向量;基于基因型向量、焦点变体固定效应向量、环境矩阵、环境随机效应向量、基因
‑
环境交互设计矩阵、基因
‑
环境交互随机效应向量,以及数量性状表型向量,构建基因
‑
环境检测线性混合模型;S4:基于步骤S3所构建的基因
‑
环境检测线性混合模型,采用预处理共轭梯度法、矩估计方法对基因
‑
环境检测线性混合模型进行求解,构建服从于卡方分布的基因
‑
环境互作得分测试统计量,所述基因
‑
环境互作得分测试统计量用于判断所述环境信息是否对目标个体的预设所有基因
‑
环境互作位点的基因产生影响;S5:基于步骤S4所构建的基因
‑
环境互作得分测试统计量,通过对基因序列中各基因
‑
环境互作位点的随机抽样,计算基因
‑
环境互作得分测试统计量所对应的卡方分布的系数a值,进而获得所有基因
‑
环境互作位点的卡方分布的P值,并预设基因
‑
环境互作阈值,当卡方分布P值小于基因
‑
环境互作阈值,则判定环境信息对该基因
‑
环境互作位点的基因产生影响,即存在基因
‑
环境互作效应,否则判定环境信息对该基因
‑
环境互作位点的基因不产生影响,即不存在基因
‑
环境互作效应。2.根据权利要求1所述的一种基于大样本的基因
‑
环境互作关联分析方法,其特征在于,步骤S3中构建基因
‑
环境交互设计矩阵如下式:S=G
⊙
E=diag(G)E式中,S为基因
‑
环境交互设计矩阵,其形式为N
×
Q维矩阵,N为样本量大小,Q为环境信息个数,
⊙
表示哈达玛积矩阵乘法计算,G为焦点变体所对应的基因型向量,E为环境信息所对应的环境矩阵,其形式为N
×
Q维的矩阵;步骤S3中所构建的基因
‑
环境检测线性混合模型如下式:Y=Xβ
X
+Gβ
G
+Eβ
E
+Sβ
S
+u+ε式中,Y为数量性状表型向量,其形式为N
×
1维向量,N为样本量大小,X为包括截距的固定效应设计矩阵,其形式为N
×
P维的协变量矩阵,β
X
为P
×
1维的固定效应向量,G为焦点变体所对应的基因型向量,其形式为N
×
1维的向量,β
G
为基因型向量所对应的焦点变体固定效应向量,E为环境信息所对应的环境矩阵,其形式为N
×
Q维的矩阵,β
E
为环境矩阵所对应
的环境随机效应向量,其形式为Q
×
1维的向量,且β
E
服从正态分布,即服从正态分布,即为环境方差组分;β
S
为基因
‑
环境交互设计矩阵所对应的基因
‑
环境交互随机效应向量,且β
S
服从正态分布,即正态分布,即为基因
‑
环境方差组分;u为随机效应分量,其服从正态分布,即即为随机效应分量的方差组分,其中其形式为N
×
N维亲缘关系矩阵,Z为N
×
M维矩阵,且Z=(G1,G2,
…
,G
M
),其中M为标记个数,即全基因组单核苷酸多态性的个数;ε为残差误差,其服从正态分布,即性的个数;ε为残差误差,其服从正态分布,即为残差误差的方差组分,其中,I
N
为N
×
N维的单位矩阵。3.根据权利要求2所述的一种基于大样本的基因
‑
环境互作关联分析方法,其特征在于,步骤S4中采用预处理共轭梯度法、矩估计方法对基因
‑
环境检测线性混合模型进行求解,构建服从于卡方分布的基因
‑
环境互作得分测试统计量的具体步骤如下:S41:分别针对环境矩阵所对应的环境随机效应向量β
E
、基因
‑
环境交互设计矩阵所对应的基因
‑
环境交互随机效应向量β
S
、随机效应分量u、残差误差ε进行积分计算,获得数量性状表型向量Y的多元正态分布如下式:式中,diag(G)E=G
⊙
E=S,∑
E
=EE
T
;S42:基于步骤S41所获得的多元...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。