当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于联合似然的孟德尔随机化分析方法技术

技术编号:32627405 阅读:15 留言:0更新日期:2022-03-12 18:01
本发明专利技术涉及疾病分析领域,具体提供了一种基于联合似然的孟德尔随机化分析方法,其可以同时对一组相互之间处于高LD(linkage disequilibrium,连锁不平衡)的初始候选SNPs(Single Nucleotide Polymorphism,单核苷酸多态性)工具变量进行建模,从中自动筛选合适的工具变量进行孟德尔随机化(Mendelian randomization,MR)分析,对在生物遗传中普遍存在的两种类型的水平多效性进行判别,并进行良好的控制,另外结合可扩展的抽样算法可以给出校准的p值,发明专利技术人将该方法称为工具变量自动筛选的两样本孟德尔随机化(MRAID)。发明专利技术人通过全面的模拟来证明MRAID的有效性,并且可以用于生物库大规模数据的实证分析,计算效率高,因此具有良好的实际应用价值。因此具有良好的实际应用价值。因此具有良好的实际应用价值。

【技术实现步骤摘要】
一种基于联合似然的孟德尔随机化分析方法


[0001]本专利技术涉及疾病分析领域,具体而言,涉及一种基于联合似然的孟德尔随机化分析方法。

技术介绍

[0002]研究复杂性状之间的因果关系并确定因果风险因素是理解复杂疾病的重要一步。孟德尔随机化(Mendelian randomization,MR)则是一种在观察性研究中进行因果推断常用的统计工具。MR是一种使用SNP作为工具变量推断暴露对结局因果效应的工具变量分析方法。MR只需要来自全基因组关联研究(GWASs)的汇总统计量,其通常在两样本研究中进行,暴露变量和结局变量是在两项独立研究中进行测量的。由于GWAS汇总数据的丰富可用性,大量用以确定各种常见疾病因果风险因素的MR分析不断涌现。许多最近发展的MR方法促进了这些MR研究,包括逆方差加权(IVW)方法,MR

Egger,基于中位数的MR,BWMR,RAPS,MRMix,CAUSE等等。不同的MR方法在建模假设和推断算法方面有所不同,但大多数方法都会遇到如下两个重要的建模和算法挑战,限制了其分析的有效性。
[0003]首先,几乎所有现有的MR方法都依赖于预先选择的一组独立SNP作为工具变量。选择的这些工具变量要求彼此独立,以确保在许多常见MR方法(如IVW)中使用的统计推断是有效的。独立的SNP通常是通过连锁不平衡聚集(LD clumping)来选择的,该过程首先根据SNP与暴露变量的边际关联证据对SNP进行排名,然后保留排名列表中低LD的SNP。但是,使用LD

clumping选择SNP可能不是最佳选择,因为所选SNP可能仅仅代表的是与因果SNP有LD关系的标记SNP(Tag SNP),而不是因果SNP本身。使用标记SNP而不是因果SNP作为工具变量会降低MR分析的功效。另外,也许更重要的是,选择独立的SNP进行MR分析可能也不是理想的方法,因为复杂的性状可能会受到驻留在同一局部区域中的多个彼此存在LD的因果SNP的影响。因此,选择独立的SNP可能只捕获暴露变量中一小部分表型变异,再次导致随后的MR分析损失功效。事实上,在平行的研究领域全转录组关联分析中,已有文献证明,与仅仅使用独立SNP相比,结合关联SNP可以显着提高检验效能。因此,结合关联SNP来开发工具变量选择的有效方法对于充分发挥MR的潜力非常重要。
[0004]其次,只有少数MR方法对水平多效性进行建模,且难以有效控制水平多效性。当工具变量SNP通过暴露以外的途径对结局产生影响时就会发生水平多效性。在复杂性状分析中可以观察到大量水平多效性,并且通常有两种不同的类型。第一种水平多效性是通过独立于暴露的路径产生的,由此产生的水平多效性效应与SNP对暴露的效应无关。第二种类型的水平多效性是通过未观察到的暴露

结局混杂因素产生的,并导致水平多效性效应与SNP对暴露效应之间的关联。两种水平多效性都违反了标准的MR建模假设,并可能导致因果效应估计产生偏倚和假阳性的增加。早期MR分析通过简单地去除可能与结局变量相关的SNP工具变量来控制水平多效性。去除与结局相关的SNP将倾向选择一组保守的工具变量并造成随后MR分析中的功效损失。最近的MR方法通过指定不同水平多效性的建模假设清晰地将水平多效性纳入了模型中。例如,Egger假设SNP工具变量具有相同的水平多效性效应,而
PMR

VC和BWMR假设水平多效性遵循正态分布,所有这些方法都是对第一类水平多效性进行了建模。相比之下,MRMix和CAUSE采用正态混合模型来控制两种类型的水平多效性。不幸的是,对这两种类型的水平多效性进行建模在技术上一直具有挑战性,因为由此产生的MR模型的似然函数通常包含一个无法解析求解的积分。因此,MRMix和CAUSE都基于非似然的方法来进行MR推断。具体地说,MRMix在因果效应候选网格上进行搜索,以确定在没有水平多效性的情况下最大限度地提高GWAS汇总统计量在预期子模型中的比例。CAUSE则是通过计算两个不同模型之间的期望对数后验密度,比较两个不同模型(一个有因果效应,另一个没有因果效应)的样本外预测精度,来进行因果推断。然而,基于非似然性的因果推断可能导致功效损失和(或)未经校准的检验统计量,而该统计量对于大规模筛选潜在疾病的因果风险因素至关重要。事实上,正如专利技术人将展示的那样,MRMix对于工具变量效应所服从的分布并不稳健,容易出现估计偏差,而CAUSE则会产生过于保守的p值。

技术实现思路

[0005]本专利技术的主要目的在于提供一种基于联合似然的孟德尔随机化分析方法,以解决相关技术中的问题。
[0006]为了实现上述目的,根据本专利技术的一个方面,提供了一种基于联合似然的孟德尔随机化分析方法,包括:
[0007]对一组互相之间处于高LD的初始候选SNP工具变量进行建模,并从中自动筛选合适的工具变量进行MR分析;
[0008]同时有效控制与工具变量和暴露之间的效应相关的或不相关的两种水平多效性效应;
[0009]采用可扩展的抽样算法来计算校准的p值。
[0010]进一步地,还包括在两样本MR框架下估计和检验暴露变量对结局变量的因果效应,其中暴露变量和结局变量是在两个独立的没有样本重叠GWAS中测量。
[0011]进一步地,所述重叠GWAS分别称为暴露GWAS和结局GWAS,在暴露GWAS中,专利技术人按照边际p值低于全基因组显著性阈值的标准进行初步筛选,选出与暴露变量相关的SNPs。
[0012]进一步地,对一组互相之间处于高LD的初始候选SNP工具变量进行建模包括通过以下三个线性回归对暴露,结局和基因型之间的关系进行建模:
[0013]x=Z
x
β+ε
x
,
[0014][0015][0016]其中,Z
x
是一个n1×
p的基因型矩阵,表示的是在暴露GWAS中n1个个体p个候选工具变量信息,Z
y
是一个n2×
p的基因型矩阵,表示的是在结局GWAS中n2个个体p个候选工具变量信息,y为结局变量,为未观察到的暴露,β是p维向量,表示的是SNPs对暴露效应,η0和η1是表示水平多效性效应的p维向量,α代表的是暴露对结局的因果效应标量,ε
x
是表示残差的n1维向量,其每个元素独立同分布于正态分布是表示残差的n2维向量,其每个元素独立且服从相同的正态分布ε
y
是表示残差的n2维向量,其每个元素独立且服从
正态分布
[0017]进一步地,所述自动筛选合适的工具变量包括对SNP对暴露的影响效应(β)进行了稀疏性建模假设来进行工具变量自动筛选,其具体为:提出假设其中δ0是表示在零处的质点的狄拉克函数,第j个SNP对暴露的效应有1―π
β
的概率为零,有π
β
的概率效应不为零,若存在非零效应,其效应服从均值为0,方差为的正态分布,其中方差参数决定效应大小。
[0018]进一步地,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联合似然的孟德尔随机化分析方法,其特征在于,包括:对一组互相之间处于高LD的初始候选SNP工具变量进行建模,并从中自动筛选合适的工具变量进行MR分析;同时有效控制与工具变量和暴露之间的效应相关的或不相关的两种水平多效性效应;采用可扩展的抽样算法来计算校准的p值。2.根据权利要求1所述的基于联合似然的孟德尔随机化分析方法,其特征在于,还包括在两样本MR框架下估计和检验暴露变量对结局变量的因果效应,其中暴露变量和结局变量是在两个独立的没有样本重叠GWAS中测量。3.根据权利要求1所述的基于联合似然的孟德尔随机化分析方法,其特征在于,所述重叠GWAS分别称为暴露GWAS和结局GWAS,在暴露GWAS中,发明人按照边际p值低于全基因组显著性阈值的标准进行初步筛选,选出与暴露变量相关的SNPs。4.根据权利要求1所述的基于联合似然的孟德尔随机化分析方法,其特征在于,对一组互相之间处于高LD的初始候选SNP工具变量进行建模包括通过以下三个线性回归对暴露,结局和基因型之间的关系进行建模:x=Z
x
β+ε
x
,,其中,Z
x
是一个n1×
p的基因型矩阵,表示的是在暴露GWAS中n1个个体p个候选工具变量信息,Z
y
是一个n2×
p的基因型矩阵,表示的是在结局GWAS中n2个个体p个候选工具变量信息,y为结局变量,为未观察到的暴露,β是p维向量,表示的是SNPs对暴露效应,η0和η1是表示水平多效性效应的p维向量,α代表的是暴露对结局的因果效应标量,ε
x
是表示残差的n1维向量,其每个元素独立同分布于正态分布向量,其每个元素独立同分布于正态分布是表示残差的n2维向量,其每个元素服从相同的正态分布ε
y
是表示残差的n2维向量,其每个元素独立且服从正...

【专利技术属性】
技术研发人员:权利要求书二页说明书二三页附图四页
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1