当前位置: 首页 > 专利查询>南通大学专利>正文

一种关于大型人群队列多性状的多位点关联分析方法技术

技术编号:38596640 阅读:11 留言:0更新日期:2023-08-26 23:32
本发明专利技术提供一种关于大型人群队列多性状的多位点关联分析方法,涉及遗传算法技术领域,采用“多位点初步筛选

【技术实现步骤摘要】
一种关于大型人群队列多性状的多位点关联分析方法


[0001]本专利技术涉及遗传算法
,应用于流行病与卫生统计,尤其涉及一种关于大型人群队列多性状的多位点关联分析方法。

技术介绍

[0002]现有关联的分析方法主要是基于单性状与多位点模型,或者多性状的单位点模型,特别地,仅适用于样本量适中或较小的情形,缺少针对大型人群队列生物银行数据,利用多位点模型进行多性状联合分析的研究。当数据的样本量和标记数目都非常巨大,在进行多重和多元线性回归分析时,面临的主要问题有:

基因型矩阵太大,直接计算会超出内存大小;

将一元分析方法简单的拓展到多元分析,计算复杂度会大大增高,一些近似策略在多元分析时不成立;

很多程序由于未考虑数据在内存和硬盘交换的时间消耗,分析大数据不可行;

大部分软件仅利用CPU多线程加速,未考虑GPU并行设计,计算效率有很大提升空间;

很多软件局限于某一特定操作系统,运行环境的搭建十分复杂。
[0003]对于上述相关的技术问题,申请人在前期工作中提出了基于线性混合模型的多位点GWAS两阶段方法ScoreEB和HRePML,与广泛使用的单位点方法GEMMA进行了比较,模拟数据显示多位点方法的统计功效都要优于GEMMA。虽然ScoreEB和HRePML相比其它多位点GWAS方法在运算速度方面得到提升,遗憾的是,它们仍然局限于中小样本,在分析诸如UK BioBank等大型人群队列数据时计算效率太低。目前,针对百万大型人群队列,尚未有学者提出高效的多性状多位点关联分析方法。

技术实现思路

[0004]本专利技术的目的是为了解决现有技术中缺乏高效的多性状多位点关联分析方法的技术问题,本申请中建立了适用于百万人群队列的多性状多位点全基因组关联分析新方法,研制新方法的Docker可移植并行计算软件包,其目的是构建适用于百万人群队列的多性状多位点全基因组关联分析技术平台,为探索复杂性状或疾病的微小效应和一因多效变异位点(或基因)提供新技术。
[0005]为了实现上述目的,本专利技术采用了如下技术方案:
[0006]一种关于大型人群队列多性状的多位点关联分析方法,采用“多位点初步筛选

多性状再次筛选”两阶段分析的策略,第一阶段建立多位点线性回归模型,探索求解系数的压缩估计方法;第二阶段建立多性状线性混合模型,提出性状间的相关主要来源于遗传相关的假设,基于此假设通过矩估计、Hutchinson估计和预条件共轭梯度下降法等数值优化技术快速参数估计值来获得检验统计量。
[0007]优选的,多位点初步筛选包含以下步骤:建立多重线性模型:
[0008]Y=Cα+Xβ+ε
[0009]上述公式中,为性状列向量,n为样本含量;为校正矩阵,为其相应的效应向量;为基因型矩阵,q为标记的个数,为标记效应列向量,
为随机误差项;
[0010]对多重线性模型进行变量选择,即求解下列等式的最小值:
[0011][0012]上述公式中,||
·
||
w
表示w范数,λ为调节参数;
[0013]对d个复杂性状(d≥2)进行多位点初步筛选,并对筛选结果取并集,X

=X
S1


∪X
Sd
表示多位点初筛得到的基因型矩阵,其中,X
S1
(1≤i≤d)表示第i个性状得到的基因型矩阵。
[0014]优选的,所述S1中多位点初步筛选的方法为下列方法之一:
[0015]①
全局批量筛选迭代Lasso的方法BASIL,通过R语言软件包snpnet实现;
[0016]②
通过PLINK 2.0进行快速的单位点筛选,将P<10
‑3的位点保留(该阈值可根据实际数据灵活设定),用X
S
表示保留的基因型子集矩阵,通过R语言软件包biglasso对X
S
子集进行多变量筛选;
[0017]③
将巨大的基因型矩阵分为m块,保证每块子矩阵小于计算机内存,用biglasso分别对m个子矩阵进行多变量选择,汇总所有结果构成基因型矩阵X

S
,对X

S
再运行一次Lasso。
[0018]优选的,多性状再次筛选包含以下步骤:建立多元混合线性模型
[0019][0020]上述公式中,为多性状矩阵,d为性状个数;为校正矩阵,为其固定效应,x∈X

为n维当前检验标记基因型列向量,为标记效应行向量,β~N(0,V
β
),为克罗内克积;和分别表示随机多基因效应和剩余误差矩阵,和服从多元正态分布,K为遗传关系矩阵,I
n
为单位阵,和为遗传协方差和剩余协方差;
[0021]Y服从多元正态分布:
[0022][0023]令θ=(α,V
β
,V
g
,V
e
),则关于Y的对数似然函数可以表示为:
[0024][0025]上述公式中,,vec(
·
)表示将矩阵的所有列堆在一起后形成的列向量;
[0026]然后对参数θ进行估计,进一步获得零假设下的统计量和P值,H0:β=0,即所有性状的标记效应大小为0,0表示d维零向量,备择假设H1:β≠0;因为β~N(0,V
β
),所以,对β的假设检验亦可通过对V
β
进行,即H0:V
β
=0,H1:V
β
≠0;
[0027]设性状之间的相关主要有遗传相关决定,不考虑环境相关,此时,
[0028][0029]的估计可由第1到d个性状分别建立线性方程以并行的方式获得,Y
i
=Ca
i
+xβ
i

i

i
(1≤i≤d),各参数与前面所述含义相同,在零模型下的矩估计:
[0030][0031]构造Hutchinson估计量可以快速获得近似解:
[0032][0033]上述公式中,z1,

,z
B
是B个独立的随机列向量,服从均数为0,协方差为I
n
的正态分布;
[0034]性状i,j(1≤i,j≤d,i≠j)间的遗传相关系数可通过下式得到:
[0035][0036]由式子(3)到(6),可以获得V
g
,V
e
的估计值以及零模型下V的估计值
[0037]α的估计值构造检验统计量:
[0038][0039]统计量S中,因此,统计量S在零假设下可表示为:
[0040][0041]将的估计值代入式子中并进行合并化简可得:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关于大型人群队列多性状的多位点关联分析方法,其特征在于:采用“多位点初步筛选

多性状再次筛选”两阶段分析的策略,第一阶段建立多位点线性回归模型,探索求解系数的压缩估计方法;第二阶段建立多性状线性混合模型,提出性状间的相关主要来源于遗传相关的假设,基于此假设通过矩估计、Hutchinson估计和预条件共轭梯度下降法等数值优化技术快速参数估计值来获得检验统计量。2.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:多位点初步筛选包含以下步骤:建立多重线性模型:Y=Cα+Xβ+ε上述公式中,为性状列向量,n为样本含量;为校正矩阵,为其相应的效应向量;为基因型矩阵,q为标记的个数,为标记效应列向量,为随机误差项;对多重线性模型进行变量选择,即求解下列等式的最小值:上述公式中,||
·
||
w
表示w范数,λ为调节参数;对d个复杂性状(d≥2)进行多位点初步筛选,并对筛选结果取并集,X

=X
S1


∪X
Sd
表示多位点初筛得到的基因型矩阵,其中,X
S1
(1≤i≤d)表示第i个性状得到的基因型矩阵。3.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:所述S1中多位点初步筛选的方法为下列方法之一:

全局批量筛选迭代Lasso的方法BASIL,通过R语言软件包snpnet实现;

通过PLINK 2.0进行快速的单位点筛选,将P<10
‑3的位点保留(该阈值可根据实际数据灵活设定),用X
S
表示保留的基因型子集矩阵,通过R语言软件包biglasso对X
S
子集进行多变量筛选;

将巨大的基因型矩阵分为m块,保证每块子矩阵小于计算机内存,用biglasso分别对m个子矩阵进行多变量选择,汇总所有结果构成基因型矩阵X

S
,对X

S
再运行一次Lasso。4.根据权利要求1所述的关于大型人群队列多性状的多位点关联分析方法,其特征在于:多性状再次筛选包含以下步骤:建立多元混合线性模型:上述公式中,为多性状矩阵,d为性状个数;为校正...

【专利技术属性】
技术研发人员:任文龙褚敏捷张磊崔佳华
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1