变体致病性评分和分类及其用途制造技术

技术编号:36685301 阅读:13 留言:0更新日期:2023-02-27 19:47
本文描述了基因变体的致病性评分(206)的得出和使用。该致病性评分过程的应用、使用和变异包括但不限于:得出和使用阈值(212,218)以将变体表征为致病性的或良性的、估计与基因变体相关联的选择效应、使用致病性评分(206)来估计遗传疾病患病率以及重新校准用于评估致病性评分(206)的方法。致病性评分(206)的方法。致病性评分(206)的方法。

【技术实现步骤摘要】
【国外来华专利技术】变体致病性评分和分类及其用途
[0001]相关申请的交叉引用
[0002]本申请要求2020年7月23日提交的美国临时专利申请63/055,724的优先权,该临时专利申请出于所有目的全文以引用方式并入本文。


[0003]所公开的技术涉及机器学习技术的使用,这些机器学习技术可以被称为人工智能,该人工智能在计算机和数字数据处理系统上实施,用于评估生物序列变体的致病性以及使用致病性评估得出其他致病性相关数据的目的。这些方法可以包括或利用相应的数据处理方法和产品来模拟智能(即基于知识的系统、推理系统和知识获取系统)和/或用于推理不确定性的系统(例如模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别地,所公开的技术涉及使用基于深度学习的技术来训练深度卷积神经网络以用于致病性评估以及此类致病性信息的使用或精化。

技术介绍

[0004]本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。
[0005]遗传变异可以帮助解释许多疾病。每个人具有独特的遗传密码,并且在一组个体内存在许多遗传变体。已通过自然选择从基因组损耗了许多或大多数有害遗传变体。然而,仍然难以识别哪些遗传变异可能是临床感兴趣的。
[0006]此外,对变体的属性和功能效果(例如,致病性)进行建模是基因组学领域中具有挑战性的任务。尽管功能基因组测序技术的快速进展,但由于细胞类型特异性转录调节系统的复杂性,对变体的功能后果的解释仍存在巨大挑战。

技术实现思路

[0007]描述了用于构建变体致病性分类器并且用于使用或精化此类致病性分类器信息的系统、方法和制品。此类具体实施可以包括或利用存储指令的非暂态计算机可读存储介质,这些指令可由处理器执行以执行本文所述系统和方法中的动作。即使未明确列出或描述,具体实施的一个或多个特征也可以与基础具体实施或其他具体实施组合。此外,不相互排斥的具体实施被教导为可以组合,使得具体实施的一个或多个特征可以与其他具体实施组合。本公开可周期性地提醒用户这些选项。然而,从一些具体实施中省略重复这些选项的叙述,不应视为限制以下各部分中教导的潜在组合。相反,这些叙述据此以引用方式向前并入以下具体实施中的每一者中。
[0008]所公开的这种系统具体实施和其他系统任选地包括本文所讨论的特征中的一些或全部特征。系统还可以包括结合所公开的方法中描述的特征。为了简洁起见,没有单独枚
举系统特征的替代组合。此外,适用于系统、方法和制品的特征对于每组法定分类的基本特征并不重复。读者将理解所识别的特征可如何容易地与在其他法定分类中的基本特征组合。
[0009]在所讨论主题的一个方面,描述了训练基于卷积神经网络的变体致病性分类器的方法和系统,该分类器在与存储器耦合的许多处理器上运行。可替代地,在其他系统具体实施中,除了基于神经网络的分类器之外或在基于神经网络的分类器的替代方案中,可以采用训练或适当参数化的统计模型或技术和/或其他机器学习方法。系统使用了由良性变体和致病性变体生成的蛋白质序列对的良性训练示例和致病性训练示例。良性变体包括常见的人类错义变体和非人类灵长类动物错义变体,这些非人类灵长类动物错义变体出现在与人类共享匹配的参考密码子序列的替代性非人类灵长类动物密码子序列上。所采样的人类可以属于不同的人类亚群,其可以包括或表征为:非洲/非洲裔美国人(缩写为AFR)、美国人(缩写为AMR)、德系犹太人(缩写为ASJ)、东亚人(缩写为EAS)、芬兰人(缩写为FIN)、非芬兰欧洲人(缩写为NFE)、南亚人(缩写为SAS)和其他人(缩写为OTH)。非人类灵长类动物错义变体包括来自多种非人类灵长类动物物种的错义变体,包括但不必限于黑猩猩、倭黑猩猩、大猩猩、婆罗洲猩猩(B.Orangutan)、苏门答腊猩猩(S.Orangutan)、恒河猴和狨猴。
[0010]如本文所讨论的,在多个处理器上运行的深度卷积神经网络可以被训练成将变体氨基酸序列分类为良性或致病性的变体氨基酸序列。因此,此类深度卷积神经网络的输出可以包括但不限于变体氨基酸序列的致病性评分或分类。如可以理解的,在某些具体实施中,除了基于神经网络的方法之外或在基于神经网络的方法的替代方案中,可以采用适当参数化的统计模型或技术和/或其他机器学习方法。
[0011]在本文所讨论的某些实施方案中,致病性处理和/或评分操作可以包括另外的特征或方面。举例来说,可以将各种致病性评分阈值用作评价或评估过程的一部分,诸如用于将变体评估或评分为良性或致病性的变体。举例来说,在某些具体实施中,用作可能致病性变体的阈值的每个基因的致病性评分的合适百分位数范围可以为51%至99%,诸如但不限于第51个、第55个、第65个、第70个、第75个、第80个、第85个、第90个、第95个或第99个百分位数。相反,用作可能良性变体的阈值的每个基因的致病性评分的合适百分位数范围可以为1%至49%,诸如但不限于第1个、第5个、第10个、第15个、第20个、第25个、第30个、第35个、第40个或第45个百分位数。
[0012]在其他实施方案中,致病性处理和/或评分操作还可以包括允许估计选择效应的特征或方面。在此类实施方案中,使用表征突变率和/或选择的合适输入对给定群体内的等位基因频率进行的前向时间模拟可以用于在目的基因处生成等位基因频谱。然后可以计算目的变体的损耗度量,诸如通过比较具有和不具有选择的等位基因频谱并且拟合或表征的对应选择

损耗功能来计算。基于给定致病性评分和该选择

损耗功能,可以基于针对变体生成的致病性评分来确定给定变体的选择系数。
[0013]在另外的方面,致病性处理和/或评分操作还可以包括允许使用致病性评分估计遗传疾病患病率的特征或方面。关于计算每个基因的遗传疾病患病率度量,在第一方法中,最初获得一组有害变体的三核苷酸背景配置。对于该组中的每个三核苷酸背景,执行假设某些选择系数(例如0.01)的前向时间模拟以生成该三核苷酸背景的预期等位基因频谱(AFS)。将整个三核苷酸的AFS相加,按基因中三核苷酸的频率加权,产生该基因的预期AFS。
根据该方法的遗传疾病患病率度量可以定义为具有超过该基因的阈值的致病性评分的变体的预期累积等位基因频率。
[0014]在另外的方面,致病性处理和/或评分操作可以包括重新校准致病性评分的特征或方法。关于诸如重新校准,在一个示例性实施方案中,重新校准方法可以集中于变体的致病性评分的百分位数,因为这些可能更稳健并且较少受到施加在整个基因上的选择压力的影响。根据一个具体实施,计算出致病性评分的每个百分位数的存活概率,该存活概率构成存活概率校正因子,这意味着致病性评分的百分位数越高,变体在纯化选择中存活的机会就越小。可以采用存活概率校正因子来执行重新校准,以便帮助减轻噪声对错义变体中选择系数的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对目的变体(200)进行分类的方法,所述方法包括:在计算机系统的一个或多个处理器上执行用于对所述目的变体(200)进行分类的存储的指令,其中所述存储的指令在被执行时使所述一个或多个处理器执行包括以下的动作:接收基因的目的变体(200)的致病性评分(206)作为输入;将所述目的变体(200)的所述致病性评分(206)与基因特异性致病性阈值(212)进行比较;以及响应于所述致病性评分(206)超过所述基因特异性致病性阈值(212),将所述目的变体(200)分类(210)为致病性的。2.根据权利要求1所述的方法,其中所述致病性评分(206)基于在人类和非人类灵长类动物中纯化选择所述目的变体(200)的程度。3.根据权利要求1所述的方法,还包括:确定致病性变体的平均致病性评分与致病性评分的百分位数之间的相关性;其中所述致病性变体的所述平均致病性评分与所述致病性评分的所述百分位数之间的所述相关性用于限定所述基因特异性致病性阈值(212)。4.根据权利要求1所述的方法,其中所述致病性评分(206)基于由经过训练以从氨基酸序列生成所述致病性评分(206)的神经网络(102)处理的氨基酸序列生成。5.根据权利要求4所述的方法,其中所述氨基酸序列的中心氨基酸对应于所述目的变体(200)。6.根据权利要求4所述的方法,其中使用人类序列和非人类序列两者来训练所述神经网络(102)。7.根据权利要求1所述的方法,其中所述基因特异性致病性阈值(212)处于由第51个百分位数至第99个百分位数限定的范围内。8.根据权利要求1所述的方法,其中所述基因特异性致病性阈值(212)处于由第75个百分位数至第99个百分位数限定的范围内并且处于包括第75个百分位数至第99个百分位数的范围内。9.根据权利要求1所述的方法,其中所述存储的指令在被执行时使所述一个或多个处理器执行包括以下的另外的动作:将所述目的变体(200)的所述致病性评分(206)与基因特异性良性阈值(218)进行比较;响应于所述致病性评分(206)小于所述基因特异性良性阈值(218),将所述目的变体(200)分类为良性。10.根据权利要求9所述的方法,还包括:确定良性变体的平均致病性评分与致病性评分的百分位数之间的相关性;其中所述良性变体的所述平均致病性评分与所述致病性评分的所述百分位数之间的所述相关性用于限定所述基因特异性良性阈值(218)。11.根据权利要求9所述的方法,其中所述基因特异性良性阈值(218)处于由第1个百分位数至第49个百分位数限定的范围内并且处于包括第1个百分位数至第49个百分位数的范围内。12.根据权利要求9所述的方法,其中所述基因特异性良性阈值(218)处于由第1个百分
位数至第25个百分位数限定的范围内并且处于包括第1个百分位数至第25个百分位数的范围内。13.一种存储处理器可执行指令的非暂态计算机可读介质,所述处理器可执行指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下的步骤:使用致病性评分神经网络(102)来处理基因的目的变体(200),以生成所述目的变体(200)的致...

【专利技术属性】
技术研发人员:H
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1