System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度学习的蛋白质接触图谱用于变体致病性预测的用途制造技术_技高网

基于深度学习的蛋白质接触图谱用于变体致病性预测的用途制造技术

技术编号:40324131 阅读:6 留言:0更新日期:2024-02-09 14:18
本发明专利技术所公开的技术涉及变体致病性分类器。该变体致病性分类器包括存储器和运行时逻辑。该存储器存储(i)蛋白质的参考氨基酸序列,(ii)含有由变体核苷酸引起的变体氨基酸的该蛋白质的替代氨基酸序列和(iii)该蛋白质的蛋白质接触图谱。该运行时逻辑能够访问存储器,并且被配置为提供(i)该参考氨基酸序列、(ii)该替代氨基酸序列和(iii)该蛋白质接触图谱作为第一神经网络的输入,以及使该第一神经网络响应于处理(i)该参考氨基酸序列、(ii)该替代氨基酸序列和(iii)该蛋白质接触图谱而生成该变体氨基酸的致病性指示作为输出。

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术所公开的技术涉及人工智能类型计算机和数字数据处理系统以及对应数据处理方法和用于仿真智能的产品(即,基于知识的系统、推断系统和知识采集系统);并且包括用于不确定性推断的系统(例如,模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。特别地,本专利技术所公开的技术涉及使用深度卷积神经网络来分析用于变体致病性预测的张量化(tensorized)蛋白数据,包括蛋白质接触图谱。文献并入以下文献以引用方式并入,即如同在本文完整示出一样,以用于所有目的:2021年4月15日提交的名称为“deep convolutional neural networks topredict variant pathogenicity using three-dimensional(3d)protein structures”的美国专利申请号17/232,056(代理人案卷号illm 1037-2/ip-2051-us);sundaram,l.等人,predicting the clinical impact of human mutation withdeep neural networks.nat.genet.50,1161-1170(2018);jaganathan,k.等人,predicting splicing from primary sequence with deeplearning.cell 176,535-548(2019);2017年10月16日提交的名称为“training a deep pathogenicity classifierusing large-scale benign training data”的美国专利申请号62/573,144(代理人案卷号illm 1000-1/ip-1611-prv);2017年10月16日提交的名称为“pathogenicity classifier based on deepconvolutional neural networks(cnns)”的美国专利申请号62/573,149(代理人案卷号illm 1000-2/ip-1612-prv);2017年10月16日提交的名称为“deep semi-supervised learning thatgenerates large-scale pathogenic training data”的美国专利申请号62/573,153(代理人案卷号illm 1000-3/ip-1613-prv);2017年11月7日提交的名称为“pathogenicity classification of genomicdata using deep convolutional neural networks(cnns),”的美国专利申请号62/582,898(代理人案卷号illm 1000-4/ip-1618-prv);2018年10月15日提交的名称为“deep learning-based techniques fortraining deep convolutional neural networks”的美国专利申请号16/160,903(代理人案卷号illm 1000-5/ip-1611-us)。2018年10月15日提交的名称为“deep convolutional neural networks forvariant classification”的美国专利申请号16/160,986(代理人案卷号illm 1000-6/ip-1612-us);2018年10月15日提交的名称为“semi-supervised learning for training anensemble of deep convolutional neural networks”的美国专利申请号16/160,968(代理人案卷号illm 1000-7/ip-1613-us);以及2019年5月8日提交的名称为“deep learning-based techniques for pre-training deep convolutional neural networks”的美国专利申请号16/407,149(代理人案卷号illm 1010-1/ip-1734-us)。


技术介绍

1、本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术。类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到。本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施。

2、基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定(诸如基因组测序、转录组谱分析和蛋白质组学)来表征生物体的每种基因组元件的功能。基因组学作为数据驱动的科学出现—其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作。基因组学的应用包括发现基因型与表型之间的关联、发现用于患者分层的生物标志物、预测基因功能,以及绘制有生化活性的基因组区域(诸如转录增强子)的图表。

3、基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘。相反,需要分析工具来支持发现未预料到的关系,以导出新的假设和模型,并进行预测。机器学习算法与假设和领域专业知识被硬编码的一些算法不同,被设计成自动检测数据中的模式。因此,机器学习算法适合于数据驱动的科学,尤其适合于基因组学。然而,机器学习算法的性能可能强烈依赖于如何表示数据,也就是说,如何计算每个变量(也称为特征)。例如,为了从荧光显微镜图像中将肿瘤分类为恶性或良性,预处理算法可以检测细胞、识别细胞类型,以及生成针对每种细胞类型的细胞计数列表。

4、机器学习模型可以将估计的细胞计数(是手工特征的示例)作为输入特征来对肿瘤进行分类。核心问题是分类性能严重依赖于这些特征的质量和相关性。例如,相关视觉特征(诸如细胞形态、细胞间的距离或器官内的定位)在细胞计数中没有被捕捉到,对数据的这种不完整表示可能降低分类准确度。

5、深度学习(机器学习的分支学科)通过将特征的计算嵌入到机器学习模型本身中以产生端对端模型来解决这个问题。该成果已经通过开发深度神经网络来实现,这些深度神经网络是包括连续基本运算的机器学习模型,其中连续基本运算通过取在先运算的结果作为输入来计算越来越复杂的特征。深度神经网络能够通过发现高复杂度的相关特征(诸如上述示例中的细胞形态和细胞的空间组织)来提高预测准确性。通过数据爆炸、算法的进步以及计算能力的显著增加,特别是通过使用图形处理单元(gpu),已经能够实现深度神经网络的构建和训练。

6、监督学习的目标是获得将特征取作输入并返回对所谓目标变量的预测的模型。监督学习问题的一个示例是预测内含子是否被剪接掉rna上的(目标)给定特征,诸如典型剪接位点序列是否存在、剪接分支点的位置或内含子长度。训练机器学习模型是指学习其参数,这通常涉及使关于训练数据的损失函数最小化,目的是对不可见数据进行准确预测。

7、对于计算生物学中的许多监本文档来自技高网...

【技术保护点】

1.一种变体致病性分类器,所述变体致病性分类器包括:

2.根据权利要求1所述的变体致病性分类器,其中所述存储器存储所述蛋白质的逐氨基酸灵长类动物保守谱、所述蛋白质的逐氨基酸哺乳动物保守谱和所述蛋白质的逐氨基酸脊椎动物保守谱,并且

3.根据权利要求1或2所述的变体致病性分类器,其中所述参考氨基酸序列具有L个氨基酸,其中所述替代氨基酸序列具有L个氨基酸。

4.根据权利要求1至3中任一项所述的变体致病性分类器,其中所述参考氨基酸序列被表征为大小为L×C的参考独热编码矩阵,其中C表示二十个氨基酸类别,其中所述替代氨基酸序列被表征为大小为L×C的替代独热编码矩阵。

5.根据权利要求2至4中任一项所述的变体致病性分类器,其中所述逐氨基酸灵长类动物保守谱的大小为L×C,其中所述逐氨基酸哺乳动物保守谱的大小为L×C,并且其中所述逐氨基酸脊椎动物保守谱的大小为L×C。

6.根据权利要求1至5中任一项所述的变体致病性分类器,其中所述第一神经网络是第一卷积神经网络。

7.根据权利要求6所述的变体致病性分类器,其中所述第一卷积神经网络包括(i)一个或多个一维(1D)卷积层,随后是(ii)具有1D卷积的第一组残差块,随后是(iii)具有1D卷积的第二组残差块,随后是(iv)空间维度增强层,随后是(v)具有二维(2D)卷积的第一组残差块,随后是(vi)一个或多个2D卷积层,随后是(vii)一个或多个完全连接的层,以及随后是(viii)致病性指示生成层。

8.根据权利要求6或7所述的变体致病性分类器,其中由所述一个或多个1D卷积层中的第一1D卷积层处理的输入的空间维度为L×1。

9.根据权利要求7或8所述的变体致病性分类器,其中由所述第一1D卷积处理的所述输入的深度维度为D,其中D=C+C+C+C+C。

10.根据权利要求7至9中任一项所述的变体致病性分类器,其中具有1D卷积的所述第一组残差块具有N1个残差块,具有1D卷积的所述第二组残差块具有N2个残差块,并且具有2D卷积的所述第一组残差块具有N3个残差块。

11.根据权利要求7至10中任一项所述的变体致病性分类器,其中具有1D卷积的所述第二组残差块中的最终残差块的输出由空间维度增强层处理以生成空间增强输出。

12.根据权利要求11所述的变体致病性分类器,其中所述空间维度增强层被配置为对所述最终残差块的所述输出应用外积以生成所述空间增强输出。

13.根据权利要求11或12所述的变体致病性分类器,其中所述空间增强输出的空间维度为L×L。

14.根据权利要求11至13中任一项所述的变体致病性分类器,其中将所述空间增强输出与所述蛋白质接触图谱组合以生成中间组合输出。

15.根据权利要求14所述的变体致病性分类器,其中所述中间组合输出由具有2D卷积的所述第一组残差块中的第一残差块处理。

16.根据权利要求1至15中任一项所述的变体致病性分类器,其中由第二神经网络响应于处理(ii)逐氨基酸蛋白质二级结构谱、(iii)逐氨基酸溶剂可及性谱、(iv)逐氨基酸位置特异性评分矩阵和(v)逐氨基酸位置特异性频率矩阵中的至少一者以及(i)所述参考氨基酸序列而生成所述蛋白质接触图谱。

17.根据权利要求1至16中任一项所述的变体致病性分类器,其中所述蛋白质接触图谱的总维度为L×L×K。

18.根据权利要求16或17所述的变体致病性分类器,其中所述第二神经网络是第二卷积神经网络。

19.根据权利要求18所述的变体致病性分类器,其中所述第二卷积神经网络包括(i)一个或多个1D卷积层,随后是(ii)具有1D卷积的一个或多个残差块,随后是(iii)空间维度增强层,随后是(iv)具有2D卷积的一个或多个残差块,以及随后是(v)一个或多个2D卷积层。

20.根据权利要求1至19中任一项所述的变体致病性分类器,其中所述第一神经网络的多个训练实例被用作推理期间变体致病性预测的集合。

21.一种计算机实施的变体致病性分类方法,所述计算机实施的变体致病性分类方法包括:

22.根据权利要求21所述的计算机实施的方法,所述计算机实施的方法还包括存储所述蛋白质的逐氨基酸灵长类动物保守谱、所述蛋白质的逐氨基酸哺乳动物保守谱和所述蛋白质的逐氨基酸脊椎动物保守谱,以及

23.根据权利要求21或22所述的计算机实施的方法,其中所述参考氨基酸序列具有L个氨基酸,其中所述替代氨基酸序列具有L个氨基酸。

24.根据权利要求21至23中任一项所述的计算机实施的方法,其中所述参考氨基酸序列被表征...

【技术特征摘要】
【国外来华专利技术】

1.一种变体致病性分类器,所述变体致病性分类器包括:

2.根据权利要求1所述的变体致病性分类器,其中所述存储器存储所述蛋白质的逐氨基酸灵长类动物保守谱、所述蛋白质的逐氨基酸哺乳动物保守谱和所述蛋白质的逐氨基酸脊椎动物保守谱,并且

3.根据权利要求1或2所述的变体致病性分类器,其中所述参考氨基酸序列具有l个氨基酸,其中所述替代氨基酸序列具有l个氨基酸。

4.根据权利要求1至3中任一项所述的变体致病性分类器,其中所述参考氨基酸序列被表征为大小为l×c的参考独热编码矩阵,其中c表示二十个氨基酸类别,其中所述替代氨基酸序列被表征为大小为l×c的替代独热编码矩阵。

5.根据权利要求2至4中任一项所述的变体致病性分类器,其中所述逐氨基酸灵长类动物保守谱的大小为l×c,其中所述逐氨基酸哺乳动物保守谱的大小为l×c,并且其中所述逐氨基酸脊椎动物保守谱的大小为l×c。

6.根据权利要求1至5中任一项所述的变体致病性分类器,其中所述第一神经网络是第一卷积神经网络。

7.根据权利要求6所述的变体致病性分类器,其中所述第一卷积神经网络包括(i)一个或多个一维(1d)卷积层,随后是(ii)具有1d卷积的第一组残差块,随后是(iii)具有1d卷积的第二组残差块,随后是(iv)空间维度增强层,随后是(v)具有二维(2d)卷积的第一组残差块,随后是(vi)一个或多个2d卷积层,随后是(vii)一个或多个完全连接的层,以及随后是(viii)致病性指示生成层。

8.根据权利要求6或7所述的变体致病性分类器,其中由所述一个或多个1d卷积层中的第一1d卷积层处理的输入的空间维度为l×1。

9.根据权利要求7或8所述的变体致病性分类器,其中由所述第一1d卷积处理的所述输入的深度维度为d,其中d=c+c+c+c+c。

10.根据权利要求7至9中任一项所述的变体致病性分类器,其中具有1d卷积的所述第一组残差块具有n1个残差块,具有1d卷积的所述第二组残差块具有n2个残差块,并且具有2d卷积的所述第一组残差块具有n3个残差块。

11.根据权利要求7至10中任一项所述的变体致病性分类器,其中具有1d卷积的所述第二组残差块中的最终残差块的输出由空间维度增强层处理以生成空间增强输出。

12.根据权利要求11所述的变体致病性分类器,其中所述空间维度增强层被配置为对所述最终残差块的所述输出应用外积以生成所述空间增强输出。

13.根据权利要求11或12所述的变体致病性分类器,其中所述空间增强输出的空间维度为l×l。

14.根据权利要求11至13中任一项所述的变体致病性分类器,其中将所述空间增强输出与所述蛋白质接触图谱组合以生成中间组合输出。

15.根据权利要求14所述的变体致病性分类器,其中所述中间组合输出由具有2d卷积的所述第一组残差块中的第一残差块处理。

16.根据权利要求1至15中任一项所述的变体致病性分类器,其中由第二神经网络响应于处理(ii)逐氨基酸蛋白质二级结构谱、(iii)...

【专利技术属性】
技术研发人员:C·陈H·高L·孙达拉姆KH·法尔
申请(专利权)人:因美纳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1