致病性模型的应用和其训练制造技术

技术编号：35435069 阅读：9 留言：0更新日期：2022-11-03 11:42

提供了一种用于评估变体对患者的致病性的计算机实施的方法。接收变体。基于习得的变体集合，确定所述变体的与致病度量相关的至少一种概率。所述致病度量包括用于确定所述变体的至少一种概率的至少一个遗传病症簇的数据表示。输出所述患者的所述变体的至少一种概率的组合表示。的组合表示。的组合表示。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】致病性模型的应用和其训练
[0001]本申请涉及一种用于评估变体对患者的致病性的系统、设备和方法，以及对用于评估所述系统、所述设备和所述方法的模型进行的训练。

技术介绍

[0002]医学和计算技术的进步实现了基于表型属性对生物样品的基因组测序进行分析。用于基于这些属性来预测致病DNA突变的基因组分析一直是研究与开发的热门领域。由于基因组数据的固有复杂性以及存在大量噪声，这些预测仍然存在很多不确定性。例如，尽管测序过程期间存在噪声，但这种复杂性可能归因于范围从单核苷酸变体(SNV)到大且复杂的重排的突变。对这些突变的预测的不确定性对现有技术或计算工具提出了挑战，现有技术或计算工具效率低下且不准确，特别是对于分析特定变体或突变。
[0003]尽管如此，已经开发出几种计算工具以进行基因组数据分析和解释，以获得对遗传变体的见解。然而，这些工具需要使用大量经标记和/或未经标记的训练数据对其基础模型进行大量训练以运行嵌入式机器学习算法，所述嵌入式机器学习算法具有长度运行时并且由此是资源密集型的。例如，常规机器学习或人工智能模型在将与受试者的先前输入相关的新输入馈送到此类模型中时会经历完整再训练，在诊断测试结果以及与受试者相关的其它信息通常不容易获得，并且通常仅在进行诊断测试并且与患者相关的额外数据可用时才能获得的情况下，这是不期望的。因此，在这种情况下再训练常规模型不仅会在与受试者相关的基因组数据的评估中产生时间滞后，而且还会增加基因组解释的不确定性，有与误释相关联的风险。在上面的实例中，在给定患者的血液样品进行测序与几年后可能发现新的相...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于评估变体对患者的致病性的计算机实施的方法，所述方法包括：接收变体；基于习得的变体集合确定所述变体的与致病度量相关的至少一种概率，其中所述致病度量包括用于确定所述变体的所述至少一种概率的至少一个遗传病症簇的数据表示；以及输出所述患者的所述变体的所述至少一种概率的组合表示。2.根据权利要求1所述的计算机实施的方法，其中所述至少一个遗传病症簇的所述数据表示是由所述习得的变体集合导出的，并且是关于患者的表型信息集进行加权的。3.根据权利要求1或2所述的计算机实施的方法，其中所述变体被包含在所述习得的变体集合中，所述方法进一步包括：接收所述患者的表型信息；基于所述患者的所述表型信息确定与所述至少一个遗传病症簇中的每个遗传病症簇相关联的贡献；以及基于根据所述至少一个遗传病症簇的所述数据表示确定的所述贡献来调整所述变体的所述至少一种概率。4.根据权利要求2或3所述的计算机实施的方法，其进一步包括：评估所述患者的所述表型信息的可用性；以及基于所述可用性确定是否调整所述至少一个遗传病症簇以输出所述组合表示。5.根据权利要求3或4所述的计算机实施的方法，其中基于所述患者的所述表型信息确定与所述至少一个遗传病症簇中的每个遗传病症簇相关联的贡献，进一步包括：使用一个或多个回归模型对所述至少一个遗传病症簇中的每个遗传病症簇进行分割，其中所述一个或多个回归模型在给定所述患者的所述表型信息的情况下预测对所述至少一个遗传病症簇中的每个遗传病症簇的所述贡献。6.根据权利要求1或2所述的计算机实施的方法，其中所述变体不包含在所述习得的变体集合中，所述方法进一步包括：从所述习得的变体集合中标识与所述变体相关的至少一个邻近变体；接收与所述至少一个邻近变体中的每个邻近变体相对应的边信息集，其中所述边信息集包括一个或多个指标；基于所述边信息集标识最接近的变体；以及在确定所述变体的与所述致病度量相关的所述至少一种概率时，应用所述最接近的变体作为所述变体。7.根据权利要求6所述的计算机实施的方法，其中基于所述边信息集通过应用与所述至少一个邻近变体相关联的相似性度量来标识所述最接近的变体；和/或其中关于所述边信息集对所述相似性度量进行加权。8.根据权利要求7所述的计算机实施的方法，当所述相似性度量从所述习得的变体集合中标识出至少一个其它变体具有等效相似性评分时，通过对所述至少一个邻近变体中的每个邻近变体求平均来确定所述变体的所述至少一种概率。9.一种用于生成至少一个遗传病症簇的计算机实施的方法，所述至少一个遗传病症簇用于确定变体的与致病度量相关的至少一种概率，所述方法包括：接收至少一个患者的与变体集合相关联的带注释的数据，其中所述带注释的数据包括
解释信息以及与所述致病度量相对应的相关观察结果；确定至少一个患者的所述带注释的数据的数据表示，其中所述数据表示是使用一种或多种生成模型导出的；以及基于所述数据表示生成所述至少一个遗传病症簇。10.根据权利要求9所述的计算机实施的方法，其中所述带注释的数据进一步包括患者的表型信息集和/或边信息集。11.根据权利要求10所述的计算机实施的方法，其中所述表型信息集与和所述至少一个患者相关的所述解释信息相关联；和/或其中所述边信息集与和所述变体集合相关的所述解释信息相关联。12.根据权利要求10或11所述的计算机实施的方法，其进一步包括：基于所述表型信息集调整与所述至少一个遗传病症簇相关联的权重集，其中所述权重集与所述至少一个遗传病症簇对所述表型信息集的贡献相对应；以及基于经调整的权重集将一个或多个回归模型配置成确定与所述致病度量相关的所述贡献。13.根据权利要求10到12所述的计算机实施的方法，其中所述边信息集包括与所述变体集合相关联的指标的数据表示。14.根据权利要求10到13所述的计算机实施的方法，其中在所述变体未被包含在所述变体集合中时，应用所述边信息集以从所述变体集合中标识用于确定所述变体的所述至少一种概率的最接近的变体；和/或其中使用提供所述边信息集的监督学习框架确定所述变体的所述至少一种概率。15.根据权利要求14所述的计算机实施的方法，其中所述变体被包含在所述变体集合中，以通过应用与所述最接近的变体相关联的注释来更新所述最少一个遗传病症簇。16.根据权利要求9到15所述的计算机实施的方法，其进一步包括：基于所述带注释的数据确定所述至少一个遗传病症簇的最优集；以及在预测期间应用所述至少一个遗传病症簇的所述最优集来确定变体的与所述致病度量相关的所述至少一种概率。17.根据权利要求16所述的计算机实施的方法，其中所述至少一个遗传病症簇的所述最优集被配置成用新的带注释的数据迭代地更新。18.一种用于使用边信息集评估未知变体对患者的致病性的计算机实施的方法，所述方法包括：接收所述未知变体，其中所述未知变体未在所述习得的变体集合中标识出；使用与所述习得的变体集合的每个子集相对应的所述边信息集来训练监督学习框架；以及基于经训练的监督学习框架来评估所述未知变体的所述致病性。19.根据权利要求...

【专利技术属性】
技术研发人员：S莫加内拉，Y达曼，L庞廷，E，
申请(专利权)人：康捷尼科有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人