【技术实现步骤摘要】
一种用于复杂疾病多基因遗传风险评估的方法和系统
[0001]本专利技术涉及生物技术及医学领域,具体涉及用于筛选复杂疾病风险关联的基因突变位点、构建复杂疾病多基因遗传风险评级模型、和预测发病风险的方法和系统。
技术介绍
[0002]复杂疾病(例如冠心病、糖尿病、子宫内膜异位症、多囊卵巢综合症、乳腺癌、前列腺癌、卵巢早衰、早发性卵巢功能不全等疾病)是由环境因素与遗传因素共同作用所致,具有明显的遗传异质性和表型复杂化的特征,且发病率高,严重影响人们的身心健康。越来越多的研究提示,遗传因素在复杂疾病的发病过程中起到重要作用。人类复杂疾病的遗传因素往往可以分为如下四类:
[0003]1)单基因模式(monogenic):如孟德尔遗传疾病,单一基因的遗传变异即可导致疾病,外显率高。该类变异由于导致的表型严重,往往会在进化的历史长河中被淘汰掉,所以这些变异一般都是罕见变异,如人群变异频率<0.1%(基于疾病表型对生殖及生命的影响会有不同)。目前往往用全外显子组测序(Whole Exome Sequencing,WES)或全基因组测序(Whole Genome Sequencing,WGS)方式来研究该类遗传因素对疾病的影响。
[0004]2)寡基因模式:两个或多于两个的基因/位点变异共同作用导致疾病/表型的发生。这些变异遗传效应中等,往往呈现不完全外显的特征,人群中的变异频率往往在5%
‑
0.1%之间。
[0005]3)多基因模式:多个基因/位点(每个基因/位点起微效作用)变 ...
【技术保护点】
【技术特征摘要】
1.一种用于构建多基因疾病风险评级(PRS)模型的方法,所述方法包括:(a)获取用于PRS模型构建的训练数据集,其中,所述训练数据集包含自训练集的每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中,其中所述训练集由多数个患病个体样本和多数个健康对照个体样本组成,优选地,其中所述SNP基因型特征为提取自个体样本的全基因组或全外显子组范围的SNP基因型特征;优选地,疾病分类特征为个体是否罹患疾病的患病情况;(b)实施多层次SNP风险位点筛选;(c)应用步骤(b)选择的SNP风险位点集合,通过机器学习算法,构建PRS模型,其中,所述步骤(b)的多层次SNP风险位点筛选包括:(b1)在训练数据集上进行SNP位点与疾病的关联性分析,确定每个SNP位点的风险等位基因以及与疾病的相关性和显著性p值;(b2)对p值符合PT阈值的SNP位点,按常染色体分组,分别应用逻辑回归建模和逐步回归分析法,选择对模型贡献显著的SNP位点;(b3)整合由步骤(b2)筛选获得的22组SNP位点,建立逻辑回归模型,并应用逐步回归分析法,确定用于步骤(c)的性能最优SNP风险位点集合。2.一种人群疾病风险分层方法,包括:(i)根据权利要求1的方法,构建由疾病患者和健康对照组成的训练集,并建立人群的疾病风险评级(PRS)模型;(ii)在测试集上,应用步骤(i)的PRS模型,计算测试集所有样本的PRS值;(iii)确定人群的PRS百分位分布以及各PRS百分位上的疾病发病率,由此得到群体的疾病风险分层基线。3.一种用于疾病多基因疾病风险评级的方法,包括:(i)应用权利要求2的方法建立PRS模型和群体的疾病风险分层基线;(ii)确定个体的风险SPN位点基因型,并计算待测个体的PRS值,比较个体的PRS值与群体的疾病风险分层基线,对个体的疾病易感性作出预测。4.一种用于构建疾病多基因疾病风险(PRS)评级模型的装置或系统,其包括:一个或多个数据集,其中存储训练数据集,所述训练数据集包含自训练集每个个体样本提取的SNP基因型特征数据和相应的疾病分类特征数据,其中所述训练集由多数个患病个体和多数个健康对照个体组成,一个或多个计算机可执行的处理器,所述处理器被配置为能够执行权利要求1的方法步骤,优选地,所述处理器被配置为能够执行以下操作:(a)访问所述数据集;(b)在所述数据集上,进行SNP位点与疾病的关联性分析;(c)对符合PT阈值的SNP位点,按常染色体分组,分别应用逐步逻辑回归分析,筛选对模型贡献显著的SNP位点;(d)整合由步骤(c)筛选获得的22组SNP位点,应用逐步逻辑回归分析,确定性能最优SNP位点集合;(e)由步骤(d)的最优SNP位点集合,构建逻辑回归模型,确定模型中各SNP位点的β系
数;(f)按照以下PRS公式,建立疾病PRS评级模型,PRS=β1×
snp1+β2×
snp2+
…
+β
i
×
snp
i
+
…
+β
n
×
snp
n<...
【专利技术属性】
技术研发人员:陆思嘉,邹央云,包衎,
申请(专利权)人:序康医疗科技苏州有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。