一种致病遗传变异的精确预测方法技术

技术编号:18592589 阅读:26 留言:0更新日期:2018-08-04 20:05
本发明专利技术公开了一种致病遗传变异的精确预测方法,将已知致病变异分成两类:数据库变异和训练集阳性变异,数据库变异得到ACMG指南中的部分证据,通过随机抽取方法模拟患者的训练集阳性遗传变异数据和相应的表型数据,计算指南相关的特征,利用基于ERIC的计算方法计算表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据进行的变异致病性预测;该方法解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。

An accurate prediction method for pathogenic genetic variation

The present invention discloses an accurate prediction method for pathogenic genetic variation, which divides the known pathogenic variation into two categories: database variation and training set positive variation, and the database variation gets some evidence in the ACMG guide, and the patient's training set is simulated by random extraction and the corresponding phenotypic data are simulated. The related features of the guide, using the ERIC based calculation method to calculate the phenotypic related characteristics, combined with the existing characteristics related to the pathogenicity judgment, use the machine learning algorithm to realize the variant pathogenicity prediction combined with genotype data and phenotypic data. The method solves the clinical phenotype in the actual scene. Incomplete data, noise and inaccurate description lead to the problem of accurate prediction of mutation pathogenicity.

【技术实现步骤摘要】
一种致病遗传变异的精确预测方法
本专利技术涉及一种预测方法,具体涉及一种致病遗传变异的精确预测方法。
技术介绍
罕见病遗传预测是指从患者基因组中找到能够解释患者临床表型的致病遗传变异的过程。能否精确快速地进行遗传预测关系着患者的后期治疗、护理甚至生命。但精确预测致病遗传变异的难点很大,实际场景中,存在临床表型数据不完整、带有噪音以及描述不准确的一系列问题导致无法进行变异致病性精确预测。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种致病遗传变异的精确预测方法,解决了实际场景中存在临床表型数据不完整、带有噪音以及描述不准确导致无法进行变异致病性精确预测的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种致病遗传变异的精确预测方法,包括如下步骤:S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;S5:利用基于ERIC的计算方法来计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。本专利技术的有益效果为:基于指南的特征提高了预测结果的可解释性和准确性;表型的随机抽取更真实的模拟了临床表型的复杂性,提高了预测方法的可靠性和临床实用性;引入的基于ERIC的表型相似性计算方法使预测方法能更好的抵抗表型不完整、不准确和存在噪音带来的不确定性,进一步提高了预测方法的准确性。进一步地,步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法,包括如下步骤:S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,插入来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;S3-3:重复步骤S3-1至S3-2,模拟所有患者的遗传变异数据和相应的表型数据。上述进一步方案的有益效果为:表型的随机抽取、不精确化和噪音处理,还原了临床表型的真实性,提高了预测方法的可靠性和临床实用性。进一步地,步骤S5中,计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。进一步地,计算表型间的相似度sim(t1,t2)所用计算公式为:sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。进一步地,计算模拟患者表型t的信息量IC(t)所用计算公式为:IC(t)=log(N/Nt)式中N为基因总数;Nt为导致表型t的基因总数。上述进一步方案的有益效果为:基于ERIC的表型相似性计算方法更精确,能有效的抵抗不精确和噪音表型的影响,提高了预测方法的准确性。进一步地,步骤S6中,利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测。上述进一步方案的有益效果为:GBDT模型是一种非线性模型,相比线性模型能更好的整合来自众多特征变量的信息,提高了预测方法的准确性和实用性。附图说明图1为一种致病遗传变异的精确预测方法流程图。图2为测试集变异(2016-2017新发现变异)预测情况图。图3为不同表型抽样模式下不同方法的排名情况图。图4为不同方法在真实临床数据EJHG2017致病变异上的排名情况图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。本专利技术实施例中,一种致病遗传变异的精确预测方法,如图1所示,包括如下步骤:S1:从ClinVar数据库收集已经被发现和证实的致病变异,再根据发现时间分成三类:数据库变异(2013年之前发现的),训练集阳性变异(2013到2015年),测试集阳性变异(2016年-2017年6月);S2:基于数据库变异得到ACMG指南得到每个证据的判别依据;S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟1万个患者的遗传变异数据和相应的表型数据;随机抽取方法,包括如下步骤:S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,插入来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行不精确化处理,最后随机抽取c个无关的噪音表型,模拟出患者的a+b+c个表型,构成患者的表型数据;S3-3:重复步骤S3-1至S3-2,模拟1万个患者的遗传变异数据和相应的表型数据。S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;S5:利用基于ERIC的计算方法来计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性所用计算公式为:式中t1、t2为模拟患者两种不同临床表型;T1为模拟患者表型集合;T2为一个基因的已知表型集合;sim(t1,t2)为表型t1和t2之间的相似度。计算表型间的相似度sim(t1,t2)所用计算公式为:sim(t1,t2)=2IC(tMICA)-min(IC(t1),IC(t2))式中tMICA为表型t1和t2的最大信息量共同祖先节点;IC(tMICA)为两个表型t1和t2共同的祖先tMICA的信息量;IC(t1)和IC(t2)分别为表型t1和t2的信息量。计算模拟患者表型t的信息量IC(t)所用计算公式为:IC(t)=log(N/Nt)式中N为基因总数;Nt为导致表型t的基因总数。S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的其它对预测致病变异有帮助的数据,比如CADD、PhyloP等,作为补充特征,得到每个模拟遗传变异在各个维度的特征,再利用机器学习算法中的GBDT模型,实现综合考虑基因型数据和表型数据的变异致病性预测;将测试集阳性变异进行步骤本文档来自技高网
...

【技术保护点】
1.一种致病遗传变异的精确预测方法,其特征在于,包括如下步骤:S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;S5:利用基于ERIC的计算方法计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。

【技术特征摘要】
1.一种致病遗传变异的精确预测方法,其特征在于,包括如下步骤:S1:收集已经报道和证实的致病变异,并根据发现时间的先后将已知致病变异分成两类:数据库变异和训练集阳性变异;S2:根据步骤S1中得到的数据库变异得到ACMG指南中的证据;S3:根据步骤S1中得到的训练集阳性变异,通过随机抽取方法模拟患者的遗传变异数据和相应的表型数据;S4:根据步骤S2得到的ACMG指南中的证据计算模拟遗传变异数据,得到ACMG指南相关的特征,实现指南相关的特征提炼;S5:利用基于ERIC的计算方法计算模拟患者表型数据和每个基因的已知表型集合数据间的相似性,得到表型相关的特征,实现表型相关的特征提炼;S6:根据步骤S4得到的指南相关的特征和步骤S5得到的表型相关的特征,结合现有的跟致病性判断相关的特征,利用机器学习算法,实现综合考虑基因型数据和表型数据的变异致病性预测。2.根据权利要求1所述的预测方法,其特征在于,所述步骤S3中模拟患者的遗传变异数据和相应的表型数据的随机抽取方法,包括如下步骤:S3-1:从来自非罕见病患者的群体变异中随机抽取W个阴性变异,插入来自训练集阳性变异中的1个已知致病变异,将W个阴性变异和1个阳性致病变异构成患者的模拟遗传变异数据;S3-2:从阳性致病变异所在基因的已知表型中随机抽取a个表型,然后随机抽取b个表型并进行...

【专利技术属性】
技术研发人员:李其刚赵科研马欣
申请(专利权)人:成都奇恩生物科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1