【技术实现步骤摘要】
一种关于大型人群队列多性状的多位点关联分析方法
[0001]本专利技术涉及遗传算法
,应用于流行病与卫生统计,尤其涉及一种关于大型人群队列多性状的多位点关联分析方法。
技术介绍
[0002]现有关联的分析方法主要是基于单性状与多位点模型,或者多性状的单位点模型,特别地,仅适用于样本量适中或较小的情形,缺少针对大型人群队列生物银行数据,利用多位点模型进行多性状联合分析的研究。当数据的样本量和标记数目都非常巨大,在进行多重和多元线性回归分析时,面临的主要问题有:
①
基因型矩阵太大,直接计算会超出内存大小;
②
将一元分析方法简单的拓展到多元分析,计算复杂度会大大增高,一些近似策略在多元分析时不成立;
③
很多程序由于未考虑数据在内存和硬盘交换的时间消耗,分析大数据不可行;
④
大部分软件仅利用CPU多线程加速,未考虑GPU并行设计,计算效率有很大提升空间;
⑤
很多软件局限于某一特定操作系统,运行环境的搭建十分复杂。
[0003]对于上述相关的技术问题,申请人在前期工作中提出了基于线性混合模型的多位点GWAS两阶段方法ScoreEB和HRePML,与广泛使用的单位点方法GEMMA进行了比较,模拟数据显示多位点方法的统计功效都要优于GEMMA。虽然ScoreEB和HRePML相比其它多位点GWAS方法在运算速度方面得到提升,遗憾的是,它们仍然局限于中小样本,在分析诸如UK BioBank等大型人群队列数据时计算效率太低。目前,针 ...
【技术保护点】
【技术特征摘要】
1.一种关于大型人群队列多性状的多位点关联分析方法,其特征在于:采用“多位点初步筛选
→
多性状再次筛选”两阶段分析的策略,第一阶段建立多位点线性回归模型,探索求解系数的压缩估计方法;第二阶段建立多性状线性混合模型,提出性状间的相关主要来源于遗传相关的假设,基于此假设通过矩估计、Hutchinson估计和预条件共轭梯度下降法等数值优化技术快速参数估计值来获得检验统计量。2.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:多位点初步筛选包含以下步骤:建立多重线性模型:Y=Cα+Xβ+ε上述公式中,为性状列向量,n为样本含量;为校正矩阵,为其相应的效应向量;为基因型矩阵,q为标记的个数,为标记效应列向量,为随机误差项;对多重线性模型进行变量选择,即求解下列等式的最小值:上述公式中,||
·
||
w
表示w范数,λ为调节参数;对d个复杂性状(d≥2)进行多位点初步筛选,并对筛选结果取并集,X
∪
=X
S1
∪
…
∪X
Sd
表示多位点初筛得到的基因型矩阵,其中,X
S1
(1≤i≤d)表示第i个性状得到的基因型矩阵。3.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:所述S1中多位点初步筛选的方法为下列方法之一:
①
全局批量筛选迭代Lasso的方法BASIL,通过R语言软件包snpnet实现;
②
通过PLINK 2.0进行快速的单位点筛选,将P<10
‑3的位点保留(该阈值可根据实际数据灵活设定),用X
S
表示保留的基因型子集矩阵,通过R语言软件包biglasso对X
S
子集进行多变量筛选;
③
将巨大的基因型矩阵分为m块,保证每块子矩阵小于计算机内存,用biglasso分别对m个子矩阵进行多变量选择,汇总所有结果构成基因型矩阵X
′
S
,对X
′
S
再运行一次Lasso。4.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:多性状再次筛选包含以下步骤:建立多元混合线性模型:上述公式中,为多性状矩阵,d为性状个数;为校正...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。