使用有缺口和非缺口的蛋白质样品的变体致病性预测器的组合学习和迁移学习制造技术

技术编号：40448910 阅读：5 留言：0更新日期：2024-02-22 23:08

本发明专利技术公开的技术涉及训练致病性预测器。具体地，本发明专利技术公开的技术涉及存取包括针对蛋白质组中的相应位置的相应有缺口蛋白质样品的有缺口训练集，存取包括非缺口良性蛋白质样品和非缺口致病性蛋白质样品的非缺口训练集，生成这些有缺口蛋白质样品的相应有缺口空间表示，以及生成这些非缺口良性蛋白质样品和这些非缺口致病性蛋白质样品的相应非缺口空间表示，在一个或多个训练循环中训练致病性预测器并生成经训练的致病性预测器，其中这些训练循环中的每个训练循环使用来自这些相应有缺口空间表示的有缺口空间表示和来自这些相应非缺口空间表示的非缺口空间表示作为训练示例，以及使用这些经训练的致病性分类器来确定变体的致病性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即，基于知识的系统、推断系统和知识采集系统)；并且包括用于不确定性推断的系统(例如，模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。具体地，本专利技术所公开的技术涉及使用深度卷积神经网络来分析多通道体素化数据。文献并入以下文献以引用方式并入，即如同在本文完整示出一样，以用于所有目的：sundaram,l.等人，predicting the clinical impact of human mutationwithdeep neural networks.nat.genet.50,1161-1170(2018)；jaganathan,k.等人，predicting splicing from primary sequence withdeeplearning.cell 176,535-548(2019)；2017年10月16日提交的名称为“training a deep pathogenicityclassifierusing large-scale benign training data”的美国专利申请号62/573,144(代理人案卷号illm 1000-1/ip-1611-prv)；2017年10月16日提交的名称为“pathogenicity classifier based ondeepconvolutional neural networks(cnns)”的美国专利申请号62/573,149(代理人案卷号illm 1000-2/i

技术介绍

1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地，在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法，这些方法本身也可对应于受权利要求书保护的技术的具体实施。

2、基因组学在广义上也称为功能基因组学，其目的是通过使用基因组规模的测定(诸如基因组测序、转录组谱分析和蛋白质组学)来表征生物体的每种基因组元件的功能。基因组学作为数据驱动的科学出现—其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作。基因组学的应用包括发现基因型与表型之间的关联、发现用于患者分层的生物标志物、预测基因功能，以及绘制有生化活性的基因组区域(诸如转录增强子)的图表。

3、基因组学数据太大太复杂，以至于不能仅通过可视化研究成对相关来挖掘。相反，需要分析工具来支持发现未预料到的关系，以导出新的假设和模型，并进行预测。机器学习算法与假设和领域专业知识被硬编码的一些算法不同，被设计成自动检测数据中的模式。因此，机器学习算法适合于数据驱动的科学，尤其适合于基因组学。然而，机器学习算法的性能可能强烈依赖于如何表示数据，也就是说，如何计算每个变量(也称为特征)。例如，为了从荧光显微镜图像中将肿瘤分类为恶性或良性，预处理算法可以检测细胞、识别细胞类型，以及生成针对每种细胞类型的细胞计数列表。

4、机器学习模型可以将估计的细胞计数(是手工特征的实例)作为输入特征来对肿瘤进行分类。核心问题是分类性能严重依赖于这些特征的质量和相关性。例如，相关视觉特征(诸如细胞形态、细胞间的距离或器官内的定位)在细胞计数中没有被捕捉到，对数据的这种不完整表示可能降低分类准确度。

5、深度学习(机器学习的分支学科)通过将特征的计算嵌入到机器学习模型本本文档来自技高网...

【技术保护点】

1.一种训练致病性预测器的计算机实现的方法，所述计算机实现的方法包括：

2.根据权利要求1所述的计算机实现的方法，其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记。

3.根据权利要求1或2所述的计算机实现的方法，其中特定有缺口蛋白质样品的特定有缺口基准真值序列具有与所述特定有缺口蛋白质中特定位置处的参考氨基酸对应的特定氨基酸类的良性标记。

4.根据权利要求3所述的计算机实现的方法，其中所述特定有缺口蛋白质样品具有与所述特定位置处的替代性氨基酸对应的相应剩余氨基酸类的相应致病性标记。

5.根据权利要求1至4中任一项所述的计算机实现的方法，其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸。

6.根据权利要求1至5中任一项所述的计算机实现的方法，其中特定非缺口致病性蛋白质样品包括在特定位置处被致病性核苷酸变体取代的致病性替代性氨基酸。

7.根据权利要求5或6所述的计算机实现的方法，其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记，所述良性基准真值序列具有与所述良性替代

8.根据权利要求7所述的计算机实现的方法，其中所述良性基准真值序列与不同于所述良性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。

9.根据权利要求6至8中任一项所述的计算机实现的方法，其中所述特定非缺口致病性蛋白质样品用致病性基准真值序列标记，所述致病性基准真值序列具有与所述致病性替代性氨基酸对应的特定氨基酸类的致病性标记。

10.根据权利要求9所述的计算机实现的方法，其中所述致病性基准真值序列具有与不同于所述致病性替代性氨基酸的氨基酸对应的相应剩余氨基酸类的相应掩蔽标记。

11.根据权利要求1至10中任一项所述的计算机实现的方法，所述计算机实现的方法还包括使用样品指示器向所述致病性预测器指示当前训练示例是有缺口蛋白质样品的有缺口空间表示还是非缺口蛋白质样品的非缺口空间表示。

12.根据权利要求3至11中任一项所述的计算机实现的方法，所述计算机实现的方法还包括掩蔽与所述特定有缺口蛋白质中所述特定位置处的所述参考氨基酸对应的所述特定氨基酸类的所述良性标记。

13.根据权利要求1至12中任一项所述的计算机实现的方法，其中所述非缺口良性蛋白质样品来源于常见的人和非人灵长类动物核苷酸变体。

14.根据权利要求1至13中任一项所述的计算机实现的方法，其中所述非缺口致病性蛋白质样品来源于组合模拟的核苷酸变体。

15.根据权利要求1至14中任一项所述的计算机实现的方法，其中所述致病性预测器响应于处理训练示例而生成氨基酸类式输出序列，其中所述氨基酸类式输出序列具有氨基酸类式致病性分数。

16.根据权利要求1至15中任一项所述的计算机实现的方法，所述计算机实现的方法还包括在验证集上的训练循环之间测量所述经训练的致病性预测器的性能。

17.根据权利要求16所述的计算机实现的方法，其中所述验证集包括针对每个保留的蛋白质样品的一对有缺口和非缺口的空间表示。

18.根据权利要求1至17中任一项所述的计算机实现的方法，其中所述经训练的致病性预测器生成针对所述对中的所述有缺口空间表示的第一氨基酸类式输出序列，和针对所述对中的所述非缺口空间表示的第二氨基酸类式输出序列，

19.根据权利要求18所述的计算机实现的方法，其中所述最终致病性分数基于所述第一和第二致病性分数的平均值。

20.根据权利要求1至19中任一项所述的计算机实现的方法，其中所述训练循环中的至少一些训练循环使用相同数量的有缺口空间表示和非缺口空间表示。

21.根据权利要求1至20中任一项所述的计算机实现的方法，其中所述训练循环中的至少一些训练循环使用具有相同数量的有缺口空间表示和非缺口空间表示的训练示例批次。

22.根据权利要求1至21中任一项所述的计算机实现的方法，其中掩蔽的标记对误差确定没有贡献，因此对所述致病性预测器的训练没有贡献。

23.根据权利要求22所述的计算机实现的方法，其中所述掩蔽的标记被清零。

24.根据权利要求1至23中任一项所述的计算机实现的方法，其中所述有缺口空间表示与所述非缺口空间表示被不同地加权，使得所述有缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的参数的梯度更新的贡献不同于所述非缺口空间表示对响应于所述致病性预测器处理所述非缺口空间表示而应用于所述致病性预测器的所述参数的梯度更新的贡献。

...

【技术特征摘要】
【国外来华专利技术】

1.一种训练致病性预测器的计算机实现的方法，所述计算机实现的方法包括：

2.根据权利要求1所述的计算机实现的方法，其中所述相应有缺口蛋白质样品用相应有缺口基准真值序列标记。

5.根据权利要求1至4中任一项所述的计算机实现的方法，其中特定非缺口良性蛋白质样品包括在特定位置处被良性核苷酸变体取代的良性替代性氨基酸。

7.根据权利要求5或6所述的计算机实现的方法，其中所述特定非缺口良性蛋白质样品用良性基准真值序列标记，所述良性基准真值序列具有与所述良性替代性氨基酸对应的特定氨基酸类的良性标记。

13.根据权利要求1至12中任一项所述的计算机实现的方法，其中所述非缺口良性蛋白质样品来源于常见的人和非人灵长类动物核苷酸变体。

14.根据权利要求1至13中任一项所述的计算机实现的方法，其中所述非缺口致病性蛋白质样品来源于组合模拟的核苷酸变体。

15.根据权利要求1至14中任一项所述的计算机实现的方法，其中所述致病性预测器响应于处理训练示例而生成氨基酸类式输出序列，其中所述氨基酸类式输出序列具有氨基酸...

【专利技术属性】
技术研发人员：T·汉普，H·高，KH·法尔，
申请(专利权)人：因美纳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人