当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于GPU并行计算的复杂疾病基因互作关联分析方法技术

技术编号:22058781 阅读:189 留言:0更新日期:2019-09-07 16:37
本发明专利技术提供一种基于GPU并行计算的复杂疾病基因互作关联分析方法,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM‑GPU新方法;步骤三、MRMLM‑GPU新方法的性能分析。本发明专利技术是在MRMLM算法上进行背景控制的上位性拓展以及GPU加速改进,MRMLM算法上位性初筛阶段,SNP以及SNP对之间相互独立,PyCUDA提供了更为简单的编程方式实现GPU的并行。本发明专利技术为预测人类疾病的互作基因提供了可行的新方法。

A GPU-based Parallel Computing Method for Gene Interaction and Association Analysis of Complex Diseases

【技术实现步骤摘要】
一种基于GPU并行计算的复杂疾病基因互作关联分析方法
本专利技术涉及医学统计学
,具体涉及一种基于GPU并行计算的复杂疾病基因互作关联分析方法。
技术介绍
全基因组关联分析(genome-wideassociationstudy,GWAS)成功的揭示了数以万计的单核苷酸多态性(single-nucleotidepolymorphisms,SNPs)与复杂疾病性状的关联。当前,高通量技术能够测定每个个体高达约500万个SNP,通过从参考数据中插补未测定的SNP可将其增加一倍以上。全基因组一次检测一个SNP的分析方法着重关注单个位点的边际效应,然而,对于大多数常见疾病,几乎所有的关联SNP都具有较小的效应,并且共同解释了表型可遗传变异很少的一部分。这种现象常常造成“缺失遗传率(missingheritability)”的难题。虽然很多因素如遗传变异、结构变异、表观遗传学、基因-环境相互作用可能导致缺失遗传率,但是由于生物系统的复杂性,基因-基因相互作用(上位性)被认为是多因子疾病遗传学的重要组成部分。因此,复杂疾病基因互作的研究具有重要的意义。在人类GWAS中,单核苷酸多态性(SNP)的数量大约为106-107数量级,因此,需要检测的SNP-SNP对的数量可以达到1012-1014的数量级,并且在一些大的研究队列中收集的个体有数十万人。用于数据分析的软件和计算策略需要重新设计以适应如此大量的信息。面对海量数据的挑战,一种可行的方式是通过并行算法设计提高运算速度。目前的图形处理单元(graphicsprocessingunits,GPUs)被设计为大规模并行处理器,其提供比中央处理器(centralprocessingunits,CPUs)更强的计算能力。GPU是一个强大的计算硬件而且价格可以接受,在笔记本电脑和台式电脑中使用具有计算能力的通用GPU得到广泛推广。因此,利用GPU强大的并行特性,进行基因-基因互作海量数据的分析,对提高运算效率具有实际意义。由于需要进行大量的SNP对测试运算,基因-基因互作的计算非常耗时,给统计学算法和计算方法提出了新的挑战。例如,即使是由中等大小的数据集500000个SNPs组成,那么大约1250亿的两两相互作用要执行测试。对于中等大小的数据集,所有成对SNP组合的这种广泛分析可能需要几个小时或几天。大规模数据集甚至在标准计算平台上需要数周或数月时间。由于GWAS数据集的可用性和规模都在迅速增加,因此寻找更快的解决方案对于研究来说非常重要。为了减轻计算负担,一种处理策略是使用两阶段方法进行SNP-SNP交互扫描。其中,首先筛选出具有显着主效应的SNP子集,然后在候选子集上分析SNP-SNP相互作用。然而,这样就忽视了具有不显著的主效而SNP-SNP交互显著的情况。另一种策略是利用CPU或者GPU多核特性及其集群,大大加快所有SNP-SNP互作搜索的速度。随着GPU编程平台的发展,越来越多基于GPU并行的GWAS算法开发出。Hu等提出了处理风险上位性的SHEsisEpi算法,该算法能够控制由单位点边际效应引起的干扰,并且对来自WTCCC(WellcomeTrustCaseControlConsortium)的50万SNPs躁郁症数据进行了分析。SHEsisEpi算法仅仅用了27h完成了所有SNPs互作的扫描,比基于CPU的分析快了300多倍。其研究结果表明神经通路相关基因ASTN2和SNAP29或ASTN2和PIK4CA或与这些对中的任何基因处于连锁不平衡中的其他基因之间的相互作用是高加索人和中国汉族人群中BPD的风险因子。Wan等提出了检测基因-基因互作的快速方法BOOST算法,该方法利用快速初筛、对数线性模型检验的策略,穷举检测基因-基因交互作用。由于BOOST算法中在收集列联表时的海量内存操作,以及分析不同SNP对的独立性使其适合在GPU中实现。Yung等修改了BOOST算法输入数据结构并在筛选阶段对计算进行GPU并行化,提出了加速版本GBOOST,并对WTCCC的II型糖尿病数据进行了分析,较之前BOOST版本加速了40多倍。GBOOST没有考虑协变量的影响,这在某些情况下导致辛普森的悖论。Wang等在GBOOST算法的基础上进行了改进,提出了最多可以同时考虑5个协变量(如年纪、性别、吸烟史等)的新版本GBOOST2.0,其具有更高的统计功效。除了上述提到的方法,在处理病例-对照(case-control)表型方面还有很多GPU并行算法,如基于多因素降维方法(multifactordimensionalityreduction,MDR)并行化的MDR-GPU和GMDR-GPU算法,基于ROC(receiveroperatingcharacteristic)曲线无模型GWIS算法,以及基于皮尔逊相关系数差异和逻辑回归分析的两步策略EPIBLASTER算法等。然而,在处理连续型性状(continuoustrait)或者数量性状(quantitativetrait)方面,相关的GPU并行算法并不多。Hemani等提出了针对连续型性状的上位性检测快速算法EpiGPU算法,这种算法速度上有着令人瞩目的表现,但是其局限于基因型数值输入,不适用于任意实数的输入,如估算基因型数值。KamThong等提出了基于GPU的线性回归上位性检测GLIDE算法,该算法克服了EpiGPU算法数值输入的局限,不仅能够计算基因相互作用系数的统计得分,而且可以计算截距和单位点边际效应统计得分。Arkin等基于欧几里得空间转换和随机投影方法,提出了数量性状上位性检测EPIQ算法。目前,已提出的大部分基于GPU并行运算的基因-基因互作检测方法是针对病例-对照表型的,在人类研究中像癌细胞增殖、工作记忆相关的大脑活动等连续型性状也很常见,然而,针对连续型表型的算法比较少。即使存在一些算法,如前面提到的EpiGPU算法、GLIDE算法和EPIQ算法,这些研究大都是基于单标记的算法,需要Bonferroni校正,处理微小效应的互作效果不佳。对于剔除单标记边际效应的影响;考虑性别、年龄、群体结构等协变量;效应值精确估计等的研究鲜有报道。
技术实现思路
本专利技术要解决的技术问题是提供一种基于GPU并行计算的复杂疾病基因互作关联分析方法,是一种基于多位点随机SNP效应混合线性模型MRMLM的改进算法,将模型拓展到主效+上位性模型,并对算法进行并行化,利用GPU加速,从而弥补和改进现有人类遗传中连续性表型上位性检测方法的不足,在保持高功效、低假阳率的同时,大大提高运算效率。利用新算法可发现更具功能的基因-基因互作致病途径,为清晰复杂疾病的致病机理,提供方法支持。为解决上述技术问题,本专利技术的实施例提供一种基于GPU并行计算的复杂疾病基因互作关联分析方法,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM-GPU新方法;步骤三、MRMLM-GPU新方法的性能分析。其中,所述第一阶段的具体步骤包括:1)本文档来自技高网
...

【技术保护点】
1.一种基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM‑GPU新方法;步骤三、MRMLM‑GPU新方法的性能分析。

【技术特征摘要】
1.一种基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,包括如下步骤:步骤一、基于背景控制的主效+上位性检测算法研究,采用两阶段策略:第一阶段,在所有主效和上位性效应中,剔除无关变量,保留较少的变量;第二阶段,将通过第一阶段筛选的变量放入模型中进行最终确定变量选择方法;步骤二、建立基于GPU并行计算的加速算法,得到MRMLM-GPU新方法;步骤三、MRMLM-GPU新方法的性能分析。2.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,所述第一阶段的具体步骤包括:1)第一阶段变量初筛:在单位点筛选的时候,引入背景控制的思想,将每个SNP标记当成随机效应,同时进行多基因背景控制,把遗传方差剖析为主效效应+主效多基因背景+误差方差三个方差分量,建立混合线性模型,然后在混合线性模型的基础上考虑上位性,则遗传方差剖析为主效效应+上位性效应+主效多基因背景+上位性多基因背景+误差方差五个方差分量,对MRMLM中的变量初筛进行背景控制,对包含上位性的五个方差分量进行快速求解;2)第一阶段初筛阈值的选取:设定P=0.01,并结合BIC准则确定。3.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,所述第二阶段的具体步骤为:将通过初筛的SNP标记及SNP-SNP对进行变量选择,用六种常用的变量选择方法进行对比,通过模拟数据,比较最终的统计功效、假阳率和效应值估计等指标,从而选择一种最优的变量选择方法。4.根据权利要求1所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,步骤一中,初筛阶段使用的模型为:y=1μ+Qv+Gmβm+Glβl+Zmum+Zlul+ε(1);其中,y是n×1维数量性状表型向量,n表示样本个体数目;1表示n×1维的单位向量;μ表示表型均值;Q表示n×c维的固定效应矩阵,包括群体结构或者主成分组分、性别和年龄等;v表示c×1维固定效应向量,但不包括截距μ;Gm表示n×1维假定的数量性状QTN主效基因型,βm是假定QTN的主效效应;Gl表示n×1维假定的数量性状两个位点QTNi和QTNj互作基因型,即QTNi和QTNj基因型的叉乘,βl是假定互作基因型效应;Zmum是主效多基因背景,Zm=(zij)n×s是主效多基因背景效应um对应的设计矩阵,s是主效标记个数,是主效多基因背景方差,Km是主效亲缘系数矩阵;Zlul是互作的多基因背景,Zl=(zi#zj)n×q是互作多基因背景效应ul对应的设计矩阵,是互作标记个数,是互作多基因背景方差,Kl是互作亲缘系数矩阵;表示n×1维剩余误差向量,是剩余误差方差,In表示n×n维的单位阵;若群体结构等的影响存在,通过数量性状表型观察值与群体结构的回归分析,可剔除群体结构的效应影响,校正后的模型为:基于模型(2),y-Q的方差可表示为:通过EMMA算法,可以获得和的值;Bm为半正定矩阵;其中,Qm为正交矩阵,Λmr是具有正特征值的对角阵,mr=Rank(Bm),即为矩阵Bm的秩;Qm1和Qm2分别为Qm的子块矩阵,其维度分别为n×mr和n×(n-mr),0是对应的零块矩阵。同理,可得5.根据权利要求1或3所述的基于GPU并行计算的复杂疾病基因互作关联分析方法,其特征在于,第二阶段中确定初筛阈值以及变量选择方法的步骤为:先将初筛阈值设定为0.01,即P<0.01的主效和上位性通过筛选,然后,通过BIC准则来确定初筛保留哪些变量;下面提到的筛选针对主效和上位性分别进行,运用的法则是相同的,如果P<0.01时的变量个数大于3000,初筛分别选择1000,2000和3000,变量进入第二阶段的变量选择,分别计算三种情况下的BIC值,记为BIC1、BIC2和BIC3,选取BIC=min{BIC1,BIC2,BIC3}时为初...

【专利技术属性】
技术研发人员:任文龙肖静连博琳
申请(专利权)人:南通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1