复杂疾病遗传风险评估模型的构建方法、模型及其应用技术

技术编号:35477352 阅读:75 留言:0更新日期:2022-11-05 16:26
本发明专利技术提供一种复杂疾病遗传风险评估模型的构建方法,包括如下步骤:S1、收集研究样本,所述研究样本包括患病者样本和健康者样本;S2、基因组测序和数据处理,包括全基因组测序和突变位点分析、对突变位点进行注释、以及识别对蛋白质功能具有破坏性影响的罕见遗传变异;S3、统计分析,得到与复杂疾病是否患病显著相关的特征基因;S4、构建复杂疾病遗传风险评估模型。本发明专利技术针对复杂疾病的临床诊断问题,对数据稀缺的复杂疾病,提出一套结合临床经验和统计推断的风险评估策略;利用完全独立的散发人群数据,对构建的最优风险评估模型进行测试,验证复杂疾病风险评估策略的泛化性和应用前景。应用前景。应用前景。

【技术实现步骤摘要】
复杂疾病遗传风险评估模型的构建方法、模型及其应用


[0001]本专利技术属于基因检测领域,具体涉及复杂疾病遗传风险评估模型的构建方法、模型及其应用。

技术介绍

[0002]复杂疾病是指由多个基因及环境因素共同导致的疾病,在人群中发病率较高,且具有遗传异质性和表型复杂性。临床研究表明,遗传因素对复杂疾病的发生起到关键作用,因此解析复杂疾病基因型

表型关系有助于研究复杂疾病发病机制。由于多基因作用的复杂性,该类疾病往往没有明确的遗传模式,致使难以确定用于临床诊断治疗的遗传特征及风险评估模型。
[0003]例如,静脉血栓栓塞症(VTE)已被证明由遗传风险主导且存在种族特异性。早期风险评估是预防VTE发生的关键步骤,目前CHEST指南和Caprini风险评估量表的广泛用于临床实践,且被验证能够显着降低住院患者的深静脉血栓形成和肺栓塞的发生率。然而上述风险评估量表仅对应检测到两个特定的遗传风险基因(FV Leiden突变,凝血酶原G20210A突变),与VTE的复杂遗传机制不一致,致使上述量表临床应用准确性较差,不适合捕捉VTE多模式特征。深入了解复杂疾病的发病机制和病因,需要构建多基因的统计模型实现预防和治疗。
[0004]目前,在复杂疾病遗传特征研究中,随着高通量测序技术发展,研究者提出通过全基因组关联研究(GWAS)挖掘疾病关联基因,将流行病学研究设计与分子遗传分析技术相结合,为复杂疾病的遗传学评估做出了重大贡献,但基于混合线性模型的GWAS分析仍难以挖掘复杂疾病遗传病因的关键罕见突变遗传特征;在复杂疾病风险评估研究中,研究者通过设计OR值等检验统计量构建加权线性风险评估模型,该方法应用简便,但其评估准确度较低。为提高模型预测精确性,随着人工智能发展,研究者应用神经网络等多种机器学习算法进行仿真学习提升模型评估能力,但由于复杂网络算法准确度依赖于样本量,当前深度学习算法的开发仅限于癌症等易获取大规模数据集的常见复杂疾病,无法实现大量样本稀缺的复杂疾病的风险评估。除应用复杂算法优化模型,研究者尝试根据疾病特征进行群体分层或增加环境因素进行修正,虽然在一定程度上提升了风险评估的精确性,但大大降低了模型的泛化能力和前瞻性。
[0005]由此可知,当前研究表明基于遗传背景利用统计算法对复杂疾病进行风险评估预测具备可行性和应用前景,但对样本量要求较高且泛化能力较弱,缺乏一套具有普适性的复杂疾病风险评估策略。

技术实现思路

[0006]为此,本专利技术所要解决的技术问题在于提供一种复杂疾病遗传风险评估模型的构建方法、模型及其应用,解决现有技术中缺乏具有普适性的复杂疾病风险评估策略的技术问题。
[0007]本专利技术提供的一个技术方案为复杂疾病遗传风险评估模型的构建方法,包括如下步骤:
[0008]S1、收集研究样本,所述研究样本包括患病者样本和健康者样本;
[0009]S2、基因组测序和数据处理,包括全基因组测序和突变位点分析、对突变位点进行注释、以及识别对蛋白质功能具有破坏性影响的罕见遗传变异;
[0010]S3、统计分析,得到与复杂疾病是否患病显著相关的特征基因;
[0011]S4、构建复杂疾病遗传风险评估模型;
[0012]其中,所述统计分析包括:
[0013](1)基于全基因组测序数据采用Fisher精确单边检验算法挖掘在95%置信度下在患病成员中具有较高突变频率的基因;
[0014](2)基于全基因组测序数据采用Logistic检验算法挖掘在95%置信度下在患病成员和健康对照组中具有显著突变差异的风险基因;
[0015](3)基于步骤(1)及步骤(2)得到的风险基因采用集成分析方法挖掘与复杂疾病显著相关的风险基因。
[0016]优选的,统计分析还包括:
[0017](4)单个基因判别下真阳性大于假阳性的AUC值大于0.5;
[0018](5)单个基因的疾病相对风险度OR值大于1。
[0019]优选的,所述步骤S1中,研究样本包括家系研究队列和人群验证队列;所述家系研究队列选自复合孟德尔遗传规律的家族遗传史的家系样本,包括患病成员和未患病成员;所述人群验证队列选自没有遗传背景的独立样本,包括无诱因的患病成员和健康对照组。
[0020]优选的,所述识别对蛋白质功能具有破坏性影响的罕见遗传变异包括:
[0021](1)在所有被研究样本中,次要等位基因频率小于5%;
[0022](2)打乱蛋白质编码序列的变体,即停止获得、起始丢失、移码或规范的剪接位点改变;
[0023](3)由多态表型计算机预测算法预测具有破坏性的错义变异。
[0024]本专利技术提供的另一个技术方案为复杂疾病遗传风险评估模型,所述模型基于上述任一方法得到的与复杂疾病是否患病显著相关的全部特征基因,将所述特征基因进行特征筛选降维,按特征基因排序选定一个基因或多个基因组合。
[0025]优选的,采用主成分回归算法搭建综合评估指标,实现特征基因的筛选降维。
[0026]优选的,采用LASSO回归算法构建非线性风险评估模型。
[0027]优选的,采用随机森林算法构建集成风险评估模型。
[0028]优选的,所述模型中叠加环境影响因素。
[0029]本专利技术还提供一个技术方案为复杂疾病遗传风险评估模型在复杂疾病遗传风险评估产品中或发病机制研究中的应用。
[0030]有益效果:
[0031]本专利技术提供的复杂疾病遗传风险评估模型的构建方法,针对复杂疾病的临床诊断问题,对数据稀缺的复杂疾病,提出一套结合临床经验和统计推断的风险评估策略。本专利技术利用完全独立的散发人群数据,对构建的最优风险评估模型进行测试,验证复杂疾病风险评估策略的泛化性和应用前景。
[0032]本专利技术复杂疾病遗传风险评估模型的构建方法实现了一种全新的风险评估体系。由于遗传因素导致的罕见复杂疾病在不同患者之间的风险位点存在较高异质性,现有技术以SNP为遗传风险评估单元进行建模难以挖掘具有统计意义的一般规律。因此,本专利技术以基因为单元对罕见突变位点进行累加,挖掘在患病成员和健康对照组中具有显著突变差异的风险因素,构建具有普适性的风险评估模型并证实在独立样本中具有良好预测精度。
[0033]由于OR值仅代表单个遗传因素对疾病的绝对风险程度,以OR值作为遗传因素风险排序进行迭代与复杂疾病多基因共同作用的遗传分子机制相悖。因此,本专利技术以带表型标注的家系样本通过多基因因子分析、回归分析及集成学习算法进行统计建模,挖掘与患病显著相关的特征基因,并以对应统计指标作为基因的相对风险程度排序后进行迭代建模。
[0034]由于临床诊断中对于患者的疾病家族遗传史评估主观性较大,对具有遗传史的家系患者和不具有遗传史的散发患者进行独立风险评估在临床应用时易产生系统误差,且不利于统一临床诊标准。因此,本专利技术以具有遗传的家系训练模型并在独立散发人群中进行测试,考虑具有家族遗传史是复杂疾病重要遗传因素,最终选择能够较好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.复杂疾病遗传风险评估模型的构建方法,其特征在于,包括如下步骤:S1、收集研究样本,所述研究样本包括患病者样本和健康者样本;S2、基因组测序和数据处理,包括全基因组测序和突变位点分析、对突变位点进行注释、以及识别对蛋白质功能具有破坏性影响的罕见遗传变异;S3、统计分析,得到与复杂疾病是否患病显著相关的特征基因;S4、构建复杂疾病遗传风险评估模型;其中,所述统计分析包括:(1)基于全基因组测序数据采用Fisher精确单边检验算法挖掘在95%置信度下在患病成员中具有较高突变频率的基因;(2)基于全基因组测序数据采用Logistic检验算法挖掘在95%置信度下在患病成员和健康对照组中具有显著突变差异的风险基因;(3)基于步骤(1)及步骤(2)得到的风险基因采用集成分析方法挖掘与复杂疾病显著相关的风险基因。2.根据权利要求1所述的复杂疾病遗传风险评估模型的构建方法,其特征在于,所述统计分析还包括:(4)单个基因判别下真阳性大于假阳性的AUC值大于0.5;(5)单个基因的疾病相对风险度OR值大于1。3.根据权利要求1或2所述的复杂疾病遗传风险评估模型的构建方法,其特征在于,所述步骤S1中,研究样本包括家系研究队列和人群验证队列;所述家系研究队列选自复合孟德尔遗传规律的家族遗传史的家系样本,包括患病成员和未患病成...

【专利技术属性】
技术研发人员:苏明明张鑫磊翟振国张竹万昭曼李昊搏黄泽炽谢万木杨沛然张宇蒋太交
申请(专利权)人:中日友好医院中日友好临床医学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1