致病性模型的应用和其训练制造技术

技术编号:35435069 阅读:9 留言:0更新日期:2022-11-03 11:42
提供了一种用于评估变体对患者的致病性的计算机实施的方法。接收变体。基于习得的变体集合,确定所述变体的与致病度量相关的至少一种概率。所述致病度量包括用于确定所述变体的至少一种概率的至少一个遗传病症簇的数据表示。输出所述患者的所述变体的至少一种概率的组合表示。的组合表示。的组合表示。

【技术实现步骤摘要】
【国外来华专利技术】致病性模型的应用和其训练
[0001]本申请涉及一种用于评估变体对患者的致病性的系统、设备和方法,以及对用于评估所述系统、所述设备和所述方法的模型进行的训练。

技术介绍

[0002]医学和计算技术的进步实现了基于表型属性对生物样品的基因组测序进行分析。用于基于这些属性来预测致病DNA突变的基因组分析一直是研究与开发的热门领域。由于基因组数据的固有复杂性以及存在大量噪声,这些预测仍然存在很多不确定性。例如,尽管测序过程期间存在噪声,但这种复杂性可能归因于范围从单核苷酸变体(SNV)到大且复杂的重排的突变。对这些突变的预测的不确定性对现有技术或计算工具提出了挑战,现有技术或计算工具效率低下且不准确,特别是对于分析特定变体或突变。
[0003]尽管如此,已经开发出几种计算工具以进行基因组数据分析和解释,以获得对遗传变体的见解。然而,这些工具需要使用大量经标记和/或未经标记的训练数据对其基础模型进行大量训练以运行嵌入式机器学习算法,所述嵌入式机器学习算法具有长度运行时并且由此是资源密集型的。例如,常规机器学习或人工智能模型在将与受试者的先前输入相关的新输入馈送到此类模型中时会经历完整再训练,在诊断测试结果以及与受试者相关的其它信息通常不容易获得,并且通常仅在进行诊断测试并且与患者相关的额外数据可用时才能获得的情况下,这是不期望的。因此,在这种情况下再训练常规模型不仅会在与受试者相关的基因组数据的评估中产生时间滞后,而且还会增加基因组解释的不确定性,有与误释相关联的风险。在上面的实例中,在给定患者的血液样品进行测序与几年后可能发现新的相关科学信息之间可能会存在时间滞后;新的相关科学信息关注在进行表达时特定基因会做什么。由于时间滞后,给定患者的医疗记录可能会被潜在地标记为“未解决”,并且给定患者的记录之后在更多信息变得可用时也不能被再访问。
[0004]因此,鉴于前述讨论,需要克服前面提到的与用于处理、分析或解释基因组数据的常规方法相关的缺点,以减少噪声的影响并防止过拟合。更具体地,需要一种用于处理拷贝量的固有地复杂的复杂基因组数据的过程,以便根据变体的致病性准确评估患者的生物序列中的变体或突变。
[0005]下文所描述的实施例不限于解决上文所描述的已知方法的任何或全部缺点的实施方式。

技术实现思路

[0006]提供本
技术实现思路
的目的是以简化形式介绍下文在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在标识要求保护的主题的关键特征或必要特征,也不旨在用于确定要求保护的主题的范围;促进本专利技术的工作和/或用于实现基本上类似的技术效果的各种变型和替代性特征应被视为落入本文公开的本专利技术的范围中。
[0007]本公开提供了一种算法框架,所述算法框架使得能够在给定患者的基因组谱和特定表型属性的情况下标识致病DNA突变。
[0008]在第一方面,本公开提供了一种用于评估变体对患者的致病性的计算机实施的方法,所述方法包括:接收变体;基于习得的变体集合确定所述变体的与致病度量相关的至少一种概率,其中所述致病度量包括用于确定所述变体的所述至少一种概率的至少一个遗传病症簇的数据表示;以及输出所述患者的所述变体的所述至少一种概率的组合表示。
[0009]在第二方面,本公开提供了一种用于生成至少一个遗传病症簇的计算机实施的方法,所述至少一个遗传病症簇用于确定变体的与致病度量相关的至少一种概率,所述方法包括:接收至少一个患者的与变体集合相关联的带注释的数据,其中所述带注释的数据包括解释信息以及与所述致病度量相对应的相关观察结果;确定至少一个患者的所述带注释的数据的数据表示,其中所述数据表示是使用一种或多种生成模型导出的;以及基于所述数据表示生成所述至少一个遗传病症簇。
[0010]在第三方面,本公开提供了一种用于使用边信息集来评估未知变体对患者的致病性的计算机实施的方法,所述方法包括:接收所述未知变体,其中所述未知变体未在习得的变体集合中标识出;使用与所述习得的变体集合的每个子集相对应的所述边信息集来训练监督学习框架;以及基于经训练的监督学习框架来评估所述未知变体的所述致病性。
[0011]在第四方面,本公开提供了一种用于确定变体对患者的致病性的设备,所述设备包括:输入组件,所述输入组件被配置成接收所述变体;处理组件,所述处理组件被配置成确定所述变体是否在习得的变体集合内;预测组件,响应于确定所述变体存在于所述习得的变体集合中,所述预测组件被配置成生成所述变体的与致病度量相关的至少一种概率,其中所述致病度量包括用于确定所述变体的所述至少一种概率的至少一个遗传病症簇的数据表示;以及显示组件,所述显示组件被配置成显示所述变体的关于所述致病度量的所述至少一种概率,其中所述至少一种概率被归一化。
[0012]在第五方面,本公开提供了一种用于使用边信息集来确定未知基因变体的致病性概率分布的计算机实施的方法,所述方法包括:接收患者的所述未知变体,其中所述未知变体未在与多个患者相关联的习得的变体集合中标识出或者对所述习得的变体集合来说是新的;基于所述边信息集通过使用监督学习框架来评估所述未知基因变体的所述致病性;以及基于所述评估确定所述致病性概率分布。
[0013]本文中所描述的方法可以由呈机器可读形式的软件在例如呈计算机程序的形式的有形或非暂时性存储介质上执行,所述计算机程序包括计算机程序代码装置,所述计算机程序代码装置适于在所述程序在计算机上运行时以及在所述计算机程序可以在计算机可读介质上体现的情况下执行本文中所描述的方法中的任何方法的所有步骤。有形(或非暂时性)存储介质的实例包含:磁盘、拇指驱动器、存储卡等,并且不包含传播的信号。所述软件可以适于在并行处理器或串行处理器上执行,使得方法步骤可以以任何合适的顺序或同时执行。
[0014]本申请承认固件和软件可以是有价值的、可单独交易的商品。旨在涵盖在“哑”或标准硬件上运行或控制“哑”或标准硬件的软件,以实现期望的功能。还旨在涵盖“描述”或定义硬件的配置的软件,如HDL(硬件描述语言)软件,如用于设计硅芯片或用于配置通用可配置芯片,以实现期望的功能。
[0015]如对技术人员显而易见的,优选特征可以适当地结合,并且可以与本专利技术的任何方面结合。
附图说明
[0016]将通过实例的方式并参考附图来描述本专利技术的实施例,在附图中:
[0017]图1a是展示了根据本专利技术的评估变体对患者的致病性的实例的流程图;
[0018]图1b是展示了根据本专利技术的其中关于表型信息和边信息评估变体对患者的致病性的实例的示意图;
[0019]图2a是展示了根据本专利技术的生成用于确定变体的与致病度量相关的至少一种概率的遗传病症簇的实例的流程图;
[0020]图2b是根据本专利技术的用于确定变体的概率的遗传病症簇的实例的示意图;
[0021]图3是展示了根据本专利技术的使用边信息集评估未知变体对患者的致病性的实例的流程图;
[0022]图4是展示了根据本专利技术的从带注释的数据中提取以在给定致病度量的情况下预测变体的概率的遗传病症簇的实例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于评估变体对患者的致病性的计算机实施的方法,所述方法包括:接收变体;基于习得的变体集合确定所述变体的与致病度量相关的至少一种概率,其中所述致病度量包括用于确定所述变体的所述至少一种概率的至少一个遗传病症簇的数据表示;以及输出所述患者的所述变体的所述至少一种概率的组合表示。2.根据权利要求1所述的计算机实施的方法,其中所述至少一个遗传病症簇的所述数据表示是由所述习得的变体集合导出的,并且是关于患者的表型信息集进行加权的。3.根据权利要求1或2所述的计算机实施的方法,其中所述变体被包含在所述习得的变体集合中,所述方法进一步包括:接收所述患者的表型信息;基于所述患者的所述表型信息确定与所述至少一个遗传病症簇中的每个遗传病症簇相关联的贡献;以及基于根据所述至少一个遗传病症簇的所述数据表示确定的所述贡献来调整所述变体的所述至少一种概率。4.根据权利要求2或3所述的计算机实施的方法,其进一步包括:评估所述患者的所述表型信息的可用性;以及基于所述可用性确定是否调整所述至少一个遗传病症簇以输出所述组合表示。5.根据权利要求3或4所述的计算机实施的方法,其中基于所述患者的所述表型信息确定与所述至少一个遗传病症簇中的每个遗传病症簇相关联的贡献,进一步包括:使用一个或多个回归模型对所述至少一个遗传病症簇中的每个遗传病症簇进行分割,其中所述一个或多个回归模型在给定所述患者的所述表型信息的情况下预测对所述至少一个遗传病症簇中的每个遗传病症簇的所述贡献。6.根据权利要求1或2所述的计算机实施的方法,其中所述变体不包含在所述习得的变体集合中,所述方法进一步包括:从所述习得的变体集合中标识与所述变体相关的至少一个邻近变体;接收与所述至少一个邻近变体中的每个邻近变体相对应的边信息集,其中所述边信息集包括一个或多个指标;基于所述边信息集标识最接近的变体;以及在确定所述变体的与所述致病度量相关的所述至少一种概率时,应用所述最接近的变体作为所述变体。7.根据权利要求6所述的计算机实施的方法,其中基于所述边信息集通过应用与所述至少一个邻近变体相关联的相似性度量来标识所述最接近的变体;和/或其中关于所述边信息集对所述相似性度量进行加权。8.根据权利要求7所述的计算机实施的方法,当所述相似性度量从所述习得的变体集合中标识出至少一个其它变体具有等效相似性评分时,通过对所述至少一个邻近变体中的每个邻近变体求平均来确定所述变体的所述至少一种概率。9.一种用于生成至少一个遗传病症簇的计算机实施的方法,所述至少一个遗传病症簇用于确定变体的与致病度量相关的至少一种概率,所述方法包括:接收至少一个患者的与变体集合相关联的带注释的数据,其中所述带注释的数据包括
解释信息以及与所述致病度量相对应的相关观察结果;确定至少一个患者的所述带注释的数据的数据表示,其中所述数据表示是使用一种或多种生成模型导出的;以及基于所述数据表示生成所述至少一个遗传病症簇。10.根据权利要求9所述的计算机实施的方法,其中所述带注释的数据进一步包括患者的表型信息集和/或边信息集。11.根据权利要求10所述的计算机实施的方法,其中所述表型信息集与和所述至少一个患者相关的所述解释信息相关联;和/或其中所述边信息集与和所述变体集合相关的所述解释信息相关联。12.根据权利要求10或11所述的计算机实施的方法,其进一步包括:基于所述表型信息集调整与所述至少一个遗传病症簇相关联的权重集,其中所述权重集与所述至少一个遗传病症簇对所述表型信息集的贡献相对应;以及基于经调整的权重集将一个或多个回归模型配置成确定与所述致病度量相关的所述贡献。13.根据权利要求10到12所述的计算机实施的方法,其中所述边信息集包括与所述变体集合相关联的指标的数据表示。14.根据权利要求10到13所述的计算机实施的方法,其中在所述变体未被包含在所述变体集合中时,应用所述边信息集以从所述变体集合中标识用于确定所述变体的所述至少一种概率的最接近的变体;和/或其中使用提供所述边信息集的监督学习框架确定所述变体的所述至少一种概率。15.根据权利要求14所述的计算机实施的方法,其中所述变体被包含在所述变体集合中,以通过应用与所述最接近的变体相关联的注释来更新所述最少一个遗传病症簇。16.根据权利要求9到15所述的计算机实施的方法,其进一步包括:基于所述带注释的数据确定所述至少一个遗传病症簇的最优集;以及在预测期间应用所述至少一个遗传病症簇的所述最优集来确定变体的与所述致病度量相关的所述至少一种概率。17.根据权利要求16所述的计算机实施的方法,其中所述至少一个遗传病症簇的所述最优集被配置成用新的带注释的数据迭代地更新。18.一种用于使用边信息集评估未知变体对患者的致病性的计算机实施的方法,所述方法包括:接收所述未知变体,其中所述未知变体未在所述习得的变体集合中标识出;使用与所述习得的变体集合的每个子集相对应的所述边信息集来训练监督学习框架;以及基于经训练的监督学习框架来评估所述未知变体的所述致病性。19.根据权利要求...

【专利技术属性】
技术研发人员:S莫加内拉Y达曼L庞廷E
申请(专利权)人:康捷尼科有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1