一种用于复杂疾病多基因遗传风险评估的方法和系统技术方案

技术编号:37972817 阅读:10 留言:0更新日期:2023-06-30 09:48
本发明专利技术涉及生物技术及医学领域,具体涉及用于筛选复杂疾病风险关联的基因突变位点、构建复杂疾病多基因遗传风险评级模型、和预测发病风险的方法和系统。病风险的方法和系统。

【技术实现步骤摘要】
一种用于复杂疾病多基因遗传风险评估的方法和系统


[0001]本专利技术涉及生物技术及医学领域,具体涉及用于筛选复杂疾病风险关联的基因突变位点、构建复杂疾病多基因遗传风险评级模型、和预测发病风险的方法和系统。

技术介绍

[0002]复杂疾病(例如冠心病、糖尿病、子宫内膜异位症、多囊卵巢综合症、乳腺癌、前列腺癌、卵巢早衰、早发性卵巢功能不全等疾病)是由环境因素与遗传因素共同作用所致,具有明显的遗传异质性和表型复杂化的特征,且发病率高,严重影响人们的身心健康。越来越多的研究提示,遗传因素在复杂疾病的发病过程中起到重要作用。人类复杂疾病的遗传因素往往可以分为如下四类:
[0003]1)单基因模式(monogenic):如孟德尔遗传疾病,单一基因的遗传变异即可导致疾病,外显率高。该类变异由于导致的表型严重,往往会在进化的历史长河中被淘汰掉,所以这些变异一般都是罕见变异,如人群变异频率<0.1%(基于疾病表型对生殖及生命的影响会有不同)。目前往往用全外显子组测序(Whole Exome Sequencing,WES)或全基因组测序(Whole Genome Sequencing,WGS)方式来研究该类遗传因素对疾病的影响。
[0004]2)寡基因模式:两个或多于两个的基因/位点变异共同作用导致疾病/表型的发生。这些变异遗传效应中等,往往呈现不完全外显的特征,人群中的变异频率往往在5%

0.1%之间。
[0005]3)多基因模式:多个基因/位点(每个基因/位点起微效作用)变异与环境共同作用导致疾病/表型的发生。涉及该模式的变异往往是在人群中频率大于5%的常见变异。目前常常用基因分型芯片(SNP genotyping array),通过全基因组关联研究(Genome

Wide Association Study,GWAS)来发现此类跟疾病/表型相关的风险基因/位点;继而通过多基因风险评分模型(Polygenic Risk Score,PRS;Genome

wide polygenic score,GPS),结合环境因素,对该疾病/表型的发生风险进行评估。通过该模式可以有意义地进行筛查,从而对人群罹患疾病的风险进行分层,由此筛选出疾病高风险人群,并对其进行提前干预或健康管理,有效延缓疾病表型的出现和发作。相对于单基因模式,多基因模式的阳性检出能力高。
[0006]4)其它变异类型:如拷贝数异常(Copy Number Variation,CNV)、染色体结构异常、染色体非整倍体及数目异常等都可能是遗传病因。
[0007]多基因风险评分(Polygenic Risk Score)是一种利用个人的基因测序数据计算的、用于衡量个体患某种病的风险大小的评分。通常,PRS是跨多个基因位点的性状相关等位基因的加权和,其中通常使用全基因组关联分析确定的各相关等位基因的效应值进行加权。目前可以使用的PRS计算方法有:LDpred、PRSice等,其中相当多的方法都涉及使用连锁不平衡(LD)规则进行SNP位点筛选。例如,LDpred软件中的coord方法将标准化后的汇总统计量与LD(连锁不平衡)参考文件进行整合,得到整合后的HDF5文件;之后LDpred软件可以将整合后的文件作为输入,计算出各个SNP(单核苷酸多态性)的权重值;并根据权重值对需
要预测风险的个体的基因型数据进行加权计算,由此得到个体的多基因风险评分。PRSice软件则涉及识别在每个人为规定的LD区域中相关性最显著的SNP,并使用一系列P值阈值进行分析,来筛选进入模型的SNP位点和构建PRS模型。
[0008]目前对于复杂疾病多基因遗传风险的研究大多聚焦欧美人群。在这些群体上的PRS风险预测已经展示出PRS模型在人群疾病风险分层和风险个体早期健康干预方面的实用意义。然而,在多基因风险位点的发现过程中,合适的计算生物学算法开发与创新仍非常关键,直接关系着最终多基因风险评分模型的人群风险分层效果。
[0009]因此,本领域仍然需要新的PRS模型建立方法,,以促进复杂疾病多基因遗传风险的人群筛查和人群分层。
[0010]专利技术概述
[0011]本专利技术人通过锐意研究提出了一种基于全基因组或全外显子组关联研究及多层次位点筛选策略,结合机器学习算法,来构建复杂疾病的多基因疾病风险评级模型的新方法。本专利技术的方法不依赖通常的人为连锁不平衡区块划分和基于此的SNP筛选。如实施例所显示,以两种不同的复杂疾病(子宫内膜异位症和多囊卵巢综合症)为例,采用本专利技术方法构建的多基因疾病风险评级模型,均获得了明显的人群分层效果,且在待测样本上的预测效果良好。因此,应用本专利技术方法构建的模型,可以出具风险评估报告,改善复杂疾病的早期筛查,从而有效提醒风险人群规避或降低复杂疾病风险,同时也有助于减少在健康人群中的无效筛查和过度诊断和治疗。在此基础上,本专利技术人完成了本专利技术。
[0012]因此,在第一个方面,本专利技术提供了用于构建复杂疾病多基因疾病风险评级(PRS)模型的方法、和用于执行所述方法的装置、系统和计算机程序产品。在一个实施方案中,根据本专利技术的方法包括:
[0013](1)在获取的训练数据集上,进行SNP位点与疾病表型的全基因组或全外显子组关联性分析,并基于PT阈值,选择相关性p值小于该阈值的SNP位点;
[0014](2)对步骤(1)选择的SNP位点,按常染色体分组,并分别应用逐步逻辑回归分析法进行细筛;
[0015](3)整合细筛获得的22组SNP位点,应用逐步逻辑回归分析法,进行SNP位点复筛;
[0016](4)由复筛得到的风险SNP位点,构建逻辑回归模型,由回归模型中各SNP位点的对应系数确定各风险SNP位点的效应值,和
[0017](5)建立复杂疾病多基因疾病风险评级(PRS)模型,
[0018]PRS=β1×
snp1+β2×
snp2+


i
×
snp
i
+


n
×
snp
n
[0019]其中,
[0020]snp
i
为样本中第i个SNP位点的基因型,分别用0,1,2表示纯合非风险位点(包含0个风险等位基因)、杂合位点(包含1个风险等位基因)及纯合风险位点(包含2个风险等位基因);
[0021]β
i
为由步骤(4)确定的该i个SNP位点的效应值;
[0022]n为风险SNP位点总数。
[0023]在一个优选实施方案中,步骤(2)和(3)采用最优模型选择准则作为SNP位点的筛选评价标准。在再一优选实施方案中,在步骤(2)和(3)的逐步逻辑回归分析中,当变量SNP位点的剔除和加入不再导致更优模型产生时,逐步逻辑回归分析终止。
[0024]在一些优选实施方案中,所述最优模型选择准则为AIC准则。在这样的实施方案中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建多基因疾病风险评级(PRS)模型的方法,所述方法包括:(a)获取用于PRS模型构建的训练数据集,其中,所述训练数据集包含自训练集的每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中,其中所述训练集由多数个患病个体样本和多数个健康对照个体样本组成,优选地,其中所述SNP基因型特征为提取自个体样本的全基因组或全外显子组范围的SNP基因型特征;优选地,疾病分类特征为个体是否罹患疾病的患病情况;(b)实施多层次SNP风险位点筛选;(c)应用步骤(b)选择的SNP风险位点集合,通过机器学习算法,构建PRS模型,其中,所述步骤(b)的多层次SNP风险位点筛选包括:(b1)在训练数据集上进行SNP位点与疾病的关联性分析,确定每个SNP位点的风险等位基因以及与疾病的相关性和显著性p值;(b2)对p值符合PT阈值的SNP位点,按常染色体分组,分别应用逻辑回归建模和逐步回归分析法,选择对模型贡献显著的SNP位点;(b3)整合由步骤(b2)筛选获得的22组SNP位点,建立逻辑回归模型,并应用逐步回归分析法,确定用于步骤(c)的性能最优SNP风险位点集合。2.一种人群疾病风险分层方法,包括:(i)根据权利要求1的方法,构建由疾病患者和健康对照组成的训练集,并建立人群的疾病风险评级(PRS)模型;(ii)在测试集上,应用步骤(i)的PRS模型,计算测试集所有样本的PRS值;(iii)确定人群的PRS百分位分布以及各PRS百分位上的疾病发病率,由此得到群体的疾病风险分层基线。3.一种用于疾病多基因疾病风险评级的方法,包括:(i)应用权利要求2的方法建立PRS模型和群体的疾病风险分层基线;(ii)确定个体的风险SPN位点基因型,并计算待测个体的PRS值,比较个体的PRS值与群体的疾病风险分层基线,对个体的疾病易感性作出预测。4.一种用于构建疾病多基因疾病风险(PRS)评级模型的装置或系统,其包括:一个或多个数据集,其中存储训练数据集,所述训练数据集包含自训练集每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中所述训练集由多数个患病个体和多数个健康对照个体组成,一个或多个计算机可执行的处理器,所述处理器被配置为能够执行权利要求1的方法步骤,优选地,所述处理器被配置为能够执行以下操作:(a)访问所述数据集;(b)在所述数据集上,进行SNP位点与疾病的关联性分析;(c)对符合PT阈值的SNP位点,按常染色体分组,分别应用逐步逻辑回归分析,筛选对模型贡献显著的SNP位点;(d)整合由步骤(c)筛选获得的22组SNP位点,应用逐步逻辑回归分析,确定性能最优SNP位点集合;(e)由步骤(d)的最优SNP位点集合,构建逻辑回归模型,确定模型中各SNP位点的β系
数;(f)按照以下PRS公式,建立疾病PRS评级模型,PRS=β1×
snp1+β2×
snp2+


i
×
snp
i
+


n
×
snp
n<...

【专利技术属性】
技术研发人员:陆思嘉邹央云包衎
申请(专利权)人:序康医疗科技苏州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1