基因变异与表型信息关联分析方法及系统技术方案

技术编号:38545333 阅读:13 留言:0更新日期:2023-08-22 20:55
本发明专利技术涉及一种基因变异与表型信息关联分析方法及系统,属于自动化医疗分析技术领域。该方法包括以下步骤:S1:获取高频致病基因变异白名单;S2:获取待分析对象的基因型数据,与上述白名单中的基因变异进行对比,取交集,得到高频致病基因变异;S3:获取上述高频致病基因变异和待分析对象的表型信息,进行高频致病基因变异关联分析,获得关联高频致病基因变异集;S4:获取待分析对象的基因型数据和表型信息,进行常规关联分析,获得关联基因变异集;S5:获取所述关联高频致病基因变异集和关联基因变异集进行对比,取并集,输出该并集中的基因变异清单,即为候选致病基因变异列表。该方法可解决常规分析方法(软件)存在假阴性的问题。题。题。

【技术实现步骤摘要】
基因变异与表型信息关联分析方法及系统


[0001]本专利技术涉及自动化医疗分析
,特别是涉及一种基因变异与表型信息关联分析方法及系统。

技术介绍

[0002]在传统的基于高通量基因测序结果的遗传病诊断分析中,遗传分析人员需要对数百个甚至上千个基因变异进行过滤筛选,费时费力。而随着生物信息技术的不断进步,表型信息驱动的遗传病智能诊断技术逐渐发展成熟,在辅助传统遗传病诊断分析上展示出来极大的潜力。这类智能诊断技术采用患者的表型信息和基因型信息作为输入,在经过自动化筛选过滤过程之后,输出经过排序的候选致病基因变异的列表。然后,遗传分析人员仅需对该列表中数十个候选基因变异进行进一步排查。与传统完全基于人工的分析过程相比,智能诊断技术为分析人员提供了一个精简的候选列表,减少了分析人员需要分析排查的范围,为相关企业或单位节约了人力成本。
[0003]然而,目前的智能诊断策略或软件得到的结果中,存在假阴性的分析结论,给遗传分析人员的工作造成了困扰。

技术实现思路

[0004]基于此,有必要针对上述智能诊断软件存在假阴性结论的问题,提供一种基因变异与表型信息关联分析方法,能够减少出现假阴性的情况。
[0005]一种基因变异与表型信息关联分析方法,包括以下步骤:
[0006]S1:获取高频致病基因变异白名单;
[0007]S2:获取待分析对象的基因型数据,将其中基因变异与上述白名单中的基因变异进行对比,取交集,得到待分析对象的高频致病基因变异;
[0008]S3:获取上述待分析对象的高频致病基因变异和待分析对象的表型信息,进行高频致病基因变异关联分析,获得与待分析对象表型相关联的关联高频致病基因变异,作为关联高频致病变异集,备用;
[0009]S4:获取待分析对象的基因型数据和待分析对象的表型信息,进行常规关联分析,获得关联基因变异,作为关联基因变异集,备用;
[0010]S5:获取所述关联高频致病基因变异集和关联基因变异集进行对比,取并集,输出该并集中的基因变异清单,即为候选致病基因变异列表。
[0011]专利技术人在实践工作中发现,当采用如Exomiser(https://github.com/exomiser/Exomiser,13.1.0版)、PhenIX(https://compbio.charite.de/PhenIX/,1.16版)、AMELIE(https://amelie.stanford.edu/,3.1.0版)和LIRCIAL(https://github.com/TheJacksonLaboratory/LIRICAL,1.3.4版)等遗传病智能诊断软件进行数据分析时,出现假阴性的其中一种原因如下:
[0012]在输入表型信息和基因型信息后,遗传病智能诊断软件会根据表型信息以及每个
基因变异自身的特征信息如变异类型、基于算法预测的致病性以及人群基因频率等,对待分析对象的基因型数据文件(VCF)中包含的所有基因变异进行过滤筛选和致病性排序,最后输出候选致病基因变异列表。其中人群基因频率是基因变异过滤筛选的重要指标之一。人群基因频率是一个基因座位上的某等位基因在正常人群中的相对频率。通常来说,真正的致病基因变异在正常人群中比较罕见,所以其人群基因频率值相对较低。常规的遗传病智能诊断软件在评估和寻找候选致病基因变异时,会将人群基因频率值高于某个阈值(如0.5%)的变异当作良性变异进而将其过滤掉,保留低于该阈值的变异做进一步评估筛选。
[0013]然而,由于部分致病基因突变在人群基因频率值相对较高(如高于0.5%),这些“高频致病”基因变异会被现有的遗传病智能诊断软件在默认条件下当成良性变异而直接被过滤掉。这种情况可能会导致遗传分析评估出现假阴性。但考虑到临床确实存在一些人群频率过高(如高于10%)的“高频致病”基因变异,如相应调高人群基因频率的过滤阈值,又会导致输出的列表中包含大量阴性基因变异,违背了减少分析评估人员工作量和“智能评估”的初衷。
[0014]在此基础上,为了避免常规遗传病智能诊断软件在诊断携带“高频致病”基因变异的患者案例中可能会产生假阴性的情况,本专利技术人提出了上述基因变异与表型信息关联分析方法,通过高频致病基因变异白名单的引入,将高频致病基因单独评估,得到关联高频致病基因变异后作为补充,加入至最终得到的关联基因变异集中,既解决了常规分析方法(软件)存在假阴性的问题,又避免了将人群变异频率阈值调高后可能带来的分析精准度下降,数据得到大量阴性基因变异数据的问题。
[0015]可以理解的,上述表型信息以标准化HPO(human phenotype ontology)条目来代表待分析对象(如患者)的表型特征(如临床症状)。如HP:0001250代表“癫痫发作”。通常,患者的表型信息可以用多个HPO条目来代表,如“HP:0001942(代谢性酸中毒)、HP:0002900(低钾血症)、HP:0011423(高氯血症)、HP:0002049(近端肾小管酸中毒)”。
[0016]上述基因型数据以VCF(variant call format)文件来记录。VCF文件中包含患者所有的基因变异信息如变异位置和变异类型,为基因测序数据的常规存储文件之一。
[0017]在其中一个实施例中,所述高频致病基因变异白名单通过以下方法获得:收集文献和/或临床实践中确认具有致病性的人群高频致病基因变异,组成高频致病基因变异白名单。可以理解的,上述高频致病基因变异白名单可根据实际检测数据的积累和科学发展情况进行调整,如进行更新扩充或删减等。
[0018]在其中一个实施例中,所述高频致病基因变异白名单中的基因包括:PRRT2,G6PD,UGT1A1,ACAD9,GJB2,HFE,MEFV,PIBF1,ACADS和BTD基因。
[0019]具体的,上述高频致病基因变异白名单中的基因详细信息(参考基因组版本号:hg19)如下:
[0020][0021][0022]在其中一个实施例中,所述高频致病基因变异关联分析采用如下方法:
[0023]S31:获取基因

HPO表型关联信息;
[0024]S32:获取待分析对象的高频致病基因变异对应的HPO表型条目,并将该HPO表型条目与待分析对象表型信息进行比较,如存在交集,则判定该高频致病基因变异为关联高频致病基因变异,纳入关联高频致病基因变异集中。
[0025]在其中一个实施例中,所述高频致病基因变异关联分析后,计算高频致病基因变异关联度,按照高频致病基因变异关联度由高至低的顺序输出高频致病基因变异列表,所述高频致病基因变异关联度的计算方法如下:
[0026]高频致病基因变异关联度=存在交集的HPO条目数
÷
待分析对象表型信息中总HPO条目总数
×
100%。
[0027]在其中一个实施例中,所述常规变异关联分析采用如下方法:
[0028]S41:获取待分析对象的基因型数据、基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因变异与表型信息关联分析方法,其特征在于,包括以下步骤:S1:获取高频致病基因变异白名单;S2:获取待分析对象的基因型数据,将其中基因变异与上述白名单中的基因变异进行对比,取交集,得到待分析对象的高频致病基因变异;S3:获取上述待分析对象的高频致病基因变异和待分析对象的表型信息,进行高频致病基因变异关联分析,获得与待分析对象表型相关联的关联高频致病基因变异,作为关联高频致病基因变异集,备用;S4:获取待分析对象的基因型数据和待分析对象的表型信息,进行常规关联分析,获得关联基因变异,作为关联基因变异集,备用;S5:获取所述关联高频致病基因变异集和关联基因变异集进行对比,取并集,输出该并集中的基因变异清单,即为候选致病基因变异列表。2.根据权利要求1所述的基因变异与表型信息关联分析方法,其特征在于,所述高频致病基因变异白名单通过以下方法获得:收集文献和/或临床实践中确认具有致病性的人群高频致病基因变异,组成高频致病基因变异白名单。3.根据权利要求1所述的基因变异与表型信息关联分析方法,其特征在于,所述高频致病基因变异白名单中的基因包括:PRRT2,G6PD,UGT1A1,ACAD9,GJB2,HFE,MEFV,PIBF1,ACADS和BTD基因。4.根据权利要求1所述的基因变异与表型信息关联分析方法,其特征在于,所述高频致病基因变异关联分析采用如下方法:S31:获取基因

HPO表型关联信息;S32:获取待分析对象的高频致病基因变异对应的HPO表型条目,并将该HPO表型条目与待分析对象表型信息进行比较,如存在交集,则判定该高频致病基因变异为关联高频致病基因变异,纳入关联高频致病基因变异集中。5.根据权利要求1所述的基因变异与表型信息关联分析方法,其特征在于,所述高频致病基因变异关联分析后,计算高频致病基因变异关联度,按照高频致病基因变异关联度由高至低的顺序输出高频致病基因变异列表,所述高频致病基因变异关联度的计算方法如下:高频致病基因变异关联度=存在交集的HPO条目数
÷
待分析对象表型信息中总HPO条目总数
×
...

【专利技术属性】
技术研发人员:袁悉奥唐春燕龚强余艳汪静孙艳芳张可可
申请(专利权)人:长沙金域医学检验实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1