使用深度卷积神经网络来预测变体致病性的多通道蛋白质体素化制造技术

技术编号:39670485 阅读:7 留言:0更新日期:2023-12-11 18:35
本发明专利技术公开了一种系统,该系统至少包括体素化器

【技术实现步骤摘要】
【国外来华专利技术】CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/573,149(
代理人案卷号
ILLM 1000

2/IP

1612

PRV)

[0014]2017

10

16
日提交的名称为“DEEP SEMI

SUPERVISED LEARNING THAT GENERATES LARGE

SCALE PATHOGENIC TRAINING DATA”的美国临时专利申请号
62/573,153(
代理人案卷号
ILLM 1000

3/IP

1613

PRV)

[0015]2017

11
月7日提交的名称为“PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/582,898(
代理人案卷号
ILLM 1000

4/IP

1618

PRV)

[0016]2018

10

15
日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请号
16/160,903(
代理人案卷号
ILLM 1000

5/IP

1611

US)

[0017]2018

10

15
日提交的名称为“DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”的美国非临时专利申请号
16/160,986(
代理人案卷号
ILLM 1000

6/IP

1612

US)

[0018]2018

10

15
日提交的名称为“SEMI

SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请号
16/160,968(
代理人案卷号
ILLM 1000

7/IP

1613

US)
;以及
[0019]2019
年5月8日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR PRE

TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国非临时专利申请号
16/407,149(
代理人案卷号
ILLM 1010

1/IP

1734

US)。

技术介绍

[0020]本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术

类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到

本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施

[0021]基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定
(
诸如基因组测序

转录组谱分析和蛋白质组学
)
来表征生物体的每种基因组元件的功能

基因组学作为数据驱动的科学出现一其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作

基因组学的应用包括发现基因型与表型之间的关联

发现用于患者分层的生物标志物

预测基因功能,以及绘制有生化活性的基因组区域
(
诸如转录增强子
)
的图表

[0022]基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘

相反,需要分析工具来支持发现未预料到的关系,以导出新的假设和模型,并进行预测

机器学习算法与假设和领域专业知识被硬编码的一些算法不同,被设计成自动检测数据中的模式

因此,机器学习算法适合于数据驱动的科学,尤其适合于基因组学

然而,机器学习算法的性能可能强烈依赖于如何表示数据,也就是说,如何计算每个变量
(
也称为特征
)。
例如,为了从荧光显微镜图像中将肿瘤分类为恶性或良性,预处理算法可以检测细胞

识别细胞类型,以及生成针对每种细胞类型的细胞计数列表

[0023]机器学习模型可以将估计的细胞计数
(
是手工特征的实例
)
作为输入特征来对肿瘤进行分类

核心问题是分类性能严重依赖于这些特征的质量和相关性

例如,相关视觉特征
(
诸如细胞形态

细胞间的距离或器官内的定位
)
在细胞计数中没有被捕捉到,对数据的这种不完整表示可能降低分类准确度

[0024]深度学习
(
机器学习的分支学科
)
通过将特征的计算嵌入到机器学习模型本身中以产生端对端模型来解决这个问题

该成果已经通过开发深度神经网络来实现,这些深度神经网络是包括连续基本运算的机器学习模型,其中连续基本运算通过取在先运算的结果作为输入来计算越来越复杂的特征

深度神经网络能够通过发现高复杂度的相关特征
(
诸如上述实例中的细胞形态和细胞的空间组织
)
来提高预测准确性

数据爆炸

算法进步和计算能力的显著增加,特别是通过使用图形处理单元
(GPU)
,使得深度神经网络的构建和训练成为可能

[0025]监督学习的目标是获得将特征取作输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种系统,包括:体素化器,所述体素化器访问蛋白质的参考氨基酸序列的三维结构,并且在氨基酸基础上将关于所述三维结构中的原子的三维体素网格拟合,以生成氨基酸式距离通道,其中所述氨基酸式距离通道中的每个氨基酸式距离通道具有所述三维体素网格中的每个体素的三维距离值,并且其中所述三维距离值指定从所述三维体素网格中的对应体素到所述参考氨基酸序列中的对应参考氨基酸的原子的距离;替代性等位基因编码器,所述替代性等位基因编码器将替代性等位基因氨基酸编码为所述三维体素网格中的每个体素,其中所述替代性等位基因氨基酸是由变体核苷酸表达的变体氨基酸的独热编码的三维表示;进化保守编码器,所述进化保守编码器将进化保守序列编码为所述三维体素网格中的每个体素,其中所述进化保守序列是跨多个物种的氨基酸特异性保守频率的三维表示,并且其中所述氨基酸特异性保守频率依据氨基酸与对应体素的接近度来选择;以及卷积神经网络,所述卷积神经网络被配置为将三维卷积应用于包括用所述替代性等位基因氨基酸和相应进化保守序列编码的所述氨基酸式距离通道的张量;并且至少部分地基于所述张量来确定所述变体核苷酸的致病性
。2.
根据权利要求1所述的系统,其中所述体素化器将所述三维体素网格中心定位在所述参考氨基酸序列中的相应参考氨基酸残基的
α

碳原子上
。3.
根据权利要求1或2所述的系统,其中所述体素化器将所述三维体素网格中心定位在特定参考氨基酸残基中定位于所述变体氨基酸处的
α

碳原子上
。4.
根据权利要求1至3中任一项所述的系统,还被配置为通过将所述特定参考氨基酸之前的那些参考氨基酸的三维距离值乘以方向性参数,来在所述张量中编码所述参考氨基酸序列中的所述参考氨基酸的方向性和所述特定参考氨基酸的位置
。5.
根据权利要求1至4中任一项所述的系统,其中所述距离是从所述三维体素网格中的对应体素中心到对应参考氨基酸的最接近原子的最接近原子距离
。6.
根据权利要求5所述的系统,其中所述最接近原子距离是欧几里得距离
。7.
根据权利要求5或6所述的系统,其中所述最接近原子距离通过将所述欧几里得距离除以最大最接近原子距离来归一化
。8.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有
α

碳原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近
α

碳原子的最接近
α

碳原子距离
。9.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有
β

碳原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近
β

碳原子的最接近
β

碳原子距离
。10.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有主链原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近主链原子的最接近主链
原子距离
。11.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有侧链原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近侧链原子的最接近侧链原子距离
。12.
根据权利要求1至
11
中任一项所述的系统,还被配置为在所述张量中编码最接近原子通道,所述最接近原子通道指定从每个体素到最接近原子的距离,其中选择所述最接近原子而不考虑所述氨基酸和所述氨基酸的原子元素
。13.
根据权利要求1至
12
中任一项所述的系统,其中所述距离是欧几里得距离
。14.
根据权利要求1至
13
中任一项所述的系统,其中所述距离通过将所述欧几里得距离除以最大距离来归一化
。15.
根据权利要求1至
14
中任一项所述的系统,其中所述氨基酸包括非标准氨基酸
。16.
根据权利要求1至
15
中任一项所述的系统,其中所述张量还包括指定未在体素中心的预定义半径内找到的原子的缺席原子通道
。17.
根据权利要求
16
所述的系统,其中所述缺席原子通道是独热编码的
。18.
根据权利要求1至
17
中任一项所述的系统,还包括参考等位基因编码器,所述参考等位基因编码器按体素方式将参考等位基因氨基酸编码为所述三维体素网格中的每个体素
。19.
根据权利要求
18
所述的系统,其中所述参考等位基因氨基酸是经历所述变体氨基酸的参考氨基酸独热编码的三维表示
。20.
根据权利要求1至
19
中任一项所述的系统,其中所述氨基酸特异性保守频率指定跨所述多个物种的相应氨基酸的保守水平
。21.
根据权利要求1至
20
中任一项所述的系统,其中所述进化保守编码器跨所述参考氨基酸和所述原子类别选择对于所述对应体素的最接近原子,为包括所述最接近原子的参考氨基酸残基选择泛氨基酸保守频率,并且使用所述泛氨基酸保守频率的三维表示作为所述进化保守序列
。22.
根据权利要求
21
所述的系统,其中为在所述多个物种中观察到的所述残基的特定位置配置所述泛氨基酸保守频率
。23.
根据权利要求
21

22
所述的系统,其中所述泛氨基酸保守频率指定对于特定参考氨基酸是否存在缺失的保守频率
。24.
根据权利要求1至
23
中任一项所述的系统,其中所述进化保守编码器在所述参考氨基酸中的相应的参考氨基酸中选择对于所述对应体素的相应最接近原子,为包括所述最接近原子的所述参考氨基酸的相应残基选择相应的每氨基酸保守频率,并且使用所述每氨基酸保守频率的三维表示作为所述进化保守序列
。25.
根据权利要求
24
所述的系统,其中为在所述多个物种中观察到的所述残基的特定位置配置所述每氨基酸保守频率
。26.
根据权利要求
24

25
所述的系统,其中所述每氨基酸保守频率指定对于特定参考氨基酸是否存在缺失的保守频率

27.
根据权利要求1至
26
中任一项所述的系统,还包括注释编码器,所述注释编码器按体素方式将一个或多个注释通道编码为所述三维体素网格中的每个体素,并且其中所述注释通道是残基注释的独热编码的三维表示
。28.
根据权利要求
27
所述的系统,其中所述注释通道是分子处理注释,所述分子处理注释包括起始甲硫氨酸

信号

转运肽

前肽

链和肽
。29.
根据权利要求
27

28
所述的系统,其中所述注释通道是区域注释,所述区域注释包括拓扑结构域

跨膜

膜内

结构域

重复序列

钙结合

锌指

脱氧核糖核酸
(DNA)
结合

核苷酸结合

区域

卷曲螺旋

基序和组成偏倚
。30.
根据权利要求
27

29
中任一项所述的系统,其中所述注释通道是位点注释,所述位点注释包括活性位点

金属结合

结合位点和位点
。31.
根据权利要求
27

30
中任一项所述的系统,其中所述注释通道是氨基酸修饰注释,所...

【专利技术属性】
技术研发人员:T
申请(专利权)人:因美纳剑桥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1