【技术实现步骤摘要】
一种基于GPU并行计算的复杂疾病基因互作关联分析方法
本专利技术涉及医学统计学
,具体涉及一种基于GPU并行计算的复杂疾病基因互作关联分析方法。
技术介绍
全基因组关联分析(genome-wideassociationstudy,GWAS)成功的揭示了数以万计的单核苷酸多态性(single-nucleotidepolymorphisms,SNPs)与复杂疾病性状的关联。当前,高通量技术能够测定每个个体高达约500万个SNP,通过从参考数据中插补未测定的SNP可将其增加一倍以上。全基因组一次检测一个SNP的分析方法着重关注单个位点的边际效应,然而,对于大多数常见疾病,几乎所有的关联SNP都具有较小的效应,并且共同解释了表型可遗传变异很少的一部分。这种现象常常造成“缺失遗传率(missingheritability)”的难题。虽然很多因素如遗传变异、结构变异、表观遗传学、基因-环境相互作用可能导致缺失遗传率,但是由于生物系统的复杂性,基因-基因相互作用(上位性)被认为是多因子疾病遗传学的重要组成部分。因此,复杂疾病基因互作的研究具有重要的意义。在人类GWAS中,单核苷酸多态性(SNP)的数量大约为106-107数量级,因此,需要检测的SNP-SNP对的数量可以达到1012-1014的数量级,并且在一些大的研究队列中收集的个体有数十万人。用于数据分析的软件和计算策略需要重新设计以适应如此大量的信息。面对海量数据的挑战,一种可行的方式是通过并行算法设计提高运算速度。目前的图形处理单元(graphicsprocessingunits,GPUs)被设计为大规模并 ...
【技术保护点】
1.一种基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM‑GPU新方法;步骤三、MRMLM‑GPU新方法的性能分析。
【技术特征摘要】
1.一种基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM-GPU新方法;步骤三、MRMLM-GPU新方法的性能分析。2.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,所述第一阶段的具体步骤包括:1)第一阶段变量初筛:在单位点筛选的时候,引入背景控制的思想,将每个SNP标记当成随机效应,同时进行多基因背景控制,把遗传方差剖析为主效效应+主效多基因背景+误差方差三个方差分量,建立混合线性模型,然后在混合线性模型的基础上考虑上位性,则遗传方差剖析为主效效应+上位性效应+主效多基因背景+上位性多基因背景+误差方差五个方差分量,对MRMLM中的变量初筛进行背景控制,对包含上位性的五个方差分量进行快速求解;2)第一阶段初筛阈值的选取:设定P=0.01,并结合BIC准则确定。3.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,所述第二阶段的具体步骤为:将通过初筛的SNP标记及SNP-SNP对进行变量选择,用六种常用的变量选择方法进行对比,通过模拟数据,比较最终的统计功效、假阳率和效应值估计等指标,从而选择一种最优的变量选择方法。4.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,步骤一中,初筛阶段使用的模型为:y=1μ+Qv+Gmβm+Glβl+Zmum+Zlul+ε(1);其中,y是n×1维数量性状表型向量,n表示样本个体数目;1表示n×1维的单位向量;μ表示表型均值;Q表示n×c维的固定效应矩阵,包括群体结构或者主成分组分、性别和年龄等;v表示c×1维固定效应向量,但不包括截距μ;Gm表示n×1维假定的数量性状QTN主效基因型,βm是假定QTN的主效效应;Gl表示n×1维假定的数量性状两个位点QTNi和QTNj互作基因型,即QTNi和QTNj基因型的叉乘,βl是假定互作基因型效应;Zmum是主效多基因背景,Zm=(zij)n×s是主效多基因背景效应um对应的设计矩阵,s是主效标记个数,是主效多基因背景方差,Km是主效亲缘系数矩阵;Zlul是互作的多基因背景,Zl=(zi#zj)n×q是互作多基因背景效应ul对应的设计矩阵,是互作标记个数,是互作多基因背景方差,Kl是互作亲缘系数矩阵;表示n×1维剩余误差向量,是剩余误差方差,In表示n×n维的单位阵;若群体结构等的影响存在,通过数量性状表型观察值与群体结构的回归分析,可剔除群体结构的效应影响,校正后的模型为:基于模型(2),y-Q的方差可表示为:通过EMMA算法,可以获得和的值;Bm为半正定矩阵;其中,Qm为正交矩阵,Λmr是具有正特征值的对角阵,mr=Rank(Bm),即为矩阵Bm的秩;Qm1和Qm2分别为Qm的子块矩阵,其维度分别为n×mr和n×(n-mr),0是对应的零块矩阵。同理,可得5.根据权利要求1或3所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,第二阶段中确定初筛阈值以及变量选择方法的步骤为:先将初筛阈值设定为0.01,即P<0.01的主效和上位性通过筛选,然后,通过BIC准则来确定初筛保留哪些变量;下面提到的筛选针对主效和上位性分别进行,运用的法则是相同的,如果P<0.01时的变量个数大于3000,初筛分别选择1000,2000和3000,变量进入第二阶段的变量选择,分别计算三种情况下的BIC值,记为BIC1、BIC2和BIC3,选取BIC=min{BIC1,BIC2,BIC3}时为初...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。