【技术实现步骤摘要】
【国外来华专利技术】CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/573,149(
代理人案卷号
ILLM 1000
‑
2/IP
‑
1612
‑
PRV)
;
[0014]2017
年
10
月
16
日提交的名称为“DEEP SEMI
‑
SUPERVISED LEARNING THAT GENERATES LARGE
‑
SCALE PATHOGENIC TRAINING DATA”的美国临时专利申请号
62/573,153(
代理人案卷号
ILLM 1000
‑
3/IP
‑
1613
‑
PRV)
;
[0015]2017
年
11
月7日提交的名称为“PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国临时专利申请号
62/582,898(
代理人案卷号
ILLM 1000
‑
4/IP
‑
1618
‑
PRV)
;
[0016]2018
年
10
月
15
日提交的名称为“DEE ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.
一种系统,包括:体素化器,所述体素化器访问蛋白质的参考氨基酸序列的三维结构,并且在氨基酸基础上将关于所述三维结构中的原子的三维体素网格拟合,以生成氨基酸式距离通道,其中所述氨基酸式距离通道中的每个氨基酸式距离通道具有所述三维体素网格中的每个体素的三维距离值,并且其中所述三维距离值指定从所述三维体素网格中的对应体素到所述参考氨基酸序列中的对应参考氨基酸的原子的距离;替代性等位基因编码器,所述替代性等位基因编码器将替代性等位基因氨基酸编码为所述三维体素网格中的每个体素,其中所述替代性等位基因氨基酸是由变体核苷酸表达的变体氨基酸的独热编码的三维表示;进化保守编码器,所述进化保守编码器将进化保守序列编码为所述三维体素网格中的每个体素,其中所述进化保守序列是跨多个物种的氨基酸特异性保守频率的三维表示,并且其中所述氨基酸特异性保守频率依据氨基酸与对应体素的接近度来选择;以及卷积神经网络,所述卷积神经网络被配置为将三维卷积应用于包括用所述替代性等位基因氨基酸和相应进化保守序列编码的所述氨基酸式距离通道的张量;并且至少部分地基于所述张量来确定所述变体核苷酸的致病性
。2.
根据权利要求1所述的系统,其中所述体素化器将所述三维体素网格中心定位在所述参考氨基酸序列中的相应参考氨基酸残基的
α
‑
碳原子上
。3.
根据权利要求1或2所述的系统,其中所述体素化器将所述三维体素网格中心定位在特定参考氨基酸残基中定位于所述变体氨基酸处的
α
‑
碳原子上
。4.
根据权利要求1至3中任一项所述的系统,还被配置为通过将所述特定参考氨基酸之前的那些参考氨基酸的三维距离值乘以方向性参数,来在所述张量中编码所述参考氨基酸序列中的所述参考氨基酸的方向性和所述特定参考氨基酸的位置
。5.
根据权利要求1至4中任一项所述的系统,其中所述距离是从所述三维体素网格中的对应体素中心到对应参考氨基酸的最接近原子的最接近原子距离
。6.
根据权利要求5所述的系统,其中所述最接近原子距离是欧几里得距离
。7.
根据权利要求5或6所述的系统,其中所述最接近原子距离通过将所述欧几里得距离除以最大最接近原子距离来归一化
。8.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有
α
‑
碳原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近
α
‑
碳原子的最接近
α
‑
碳原子距离
。9.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有
β
‑
碳原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近
β
‑
碳原子的最接近
β
‑
碳原子距离
。10.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有主链原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近主链原子的最接近主链
原子距离
。11.
根据权利要求1至7中任一项所述的系统,其中所述参考氨基酸具有侧链原子,其中所述距离是从所述对应体素中心到所述对应参考氨基酸的最接近侧链原子的最接近侧链原子距离
。12.
根据权利要求1至
11
中任一项所述的系统,还被配置为在所述张量中编码最接近原子通道,所述最接近原子通道指定从每个体素到最接近原子的距离,其中选择所述最接近原子而不考虑所述氨基酸和所述氨基酸的原子元素
。13.
根据权利要求1至
12
中任一项所述的系统,其中所述距离是欧几里得距离
。14.
根据权利要求1至
13
中任一项所述的系统,其中所述距离通过将所述欧几里得距离除以最大距离来归一化
。15.
根据权利要求1至
14
中任一项所述的系统,其中所述氨基酸包括非标准氨基酸
。16.
根据权利要求1至
15
中任一项所述的系统,其中所述张量还包括指定未在体素中心的预定义半径内找到的原子的缺席原子通道
。17.
根据权利要求
16
所述的系统,其中所述缺席原子通道是独热编码的
。18.
根据权利要求1至
17
中任一项所述的系统,还包括参考等位基因编码器,所述参考等位基因编码器按体素方式将参考等位基因氨基酸编码为所述三维体素网格中的每个体素
。19.
根据权利要求
18
所述的系统,其中所述参考等位基因氨基酸是经历所述变体氨基酸的参考氨基酸独热编码的三维表示
。20.
根据权利要求1至
19
中任一项所述的系统,其中所述氨基酸特异性保守频率指定跨所述多个物种的相应氨基酸的保守水平
。21.
根据权利要求1至
20
中任一项所述的系统,其中所述进化保守编码器跨所述参考氨基酸和所述原子类别选择对于所述对应体素的最接近原子,为包括所述最接近原子的参考氨基酸残基选择泛氨基酸保守频率,并且使用所述泛氨基酸保守频率的三维表示作为所述进化保守序列
。22.
根据权利要求
21
所述的系统,其中为在所述多个物种中观察到的所述残基的特定位置配置所述泛氨基酸保守频率
。23.
根据权利要求
21
或
22
所述的系统,其中所述泛氨基酸保守频率指定对于特定参考氨基酸是否存在缺失的保守频率
。24.
根据权利要求1至
23
中任一项所述的系统,其中所述进化保守编码器在所述参考氨基酸中的相应的参考氨基酸中选择对于所述对应体素的相应最接近原子,为包括所述最接近原子的所述参考氨基酸的相应残基选择相应的每氨基酸保守频率,并且使用所述每氨基酸保守频率的三维表示作为所述进化保守序列
。25.
根据权利要求
24
所述的系统,其中为在所述多个物种中观察到的所述残基的特定位置配置所述每氨基酸保守频率
。26.
根据权利要求
24
或
25
所述的系统,其中所述每氨基酸保守频率指定对于特定参考氨基酸是否存在缺失的保守频率
。
27.
根据权利要求1至
26
中任一项所述的系统,还包括注释编码器,所述注释编码器按体素方式将一个或多个注释通道编码为所述三维体素网格中的每个体素,并且其中所述注释通道是残基注释的独热编码的三维表示
。28.
根据权利要求
27
所述的系统,其中所述注释通道是分子处理注释,所述分子处理注释包括起始甲硫氨酸
、
信号
、
转运肽
、
前肽
、
链和肽
。29.
根据权利要求
27
或
28
所述的系统,其中所述注释通道是区域注释,所述区域注释包括拓扑结构域
、
跨膜
、
膜内
、
结构域
、
重复序列
、
钙结合
、
锌指
、
脱氧核糖核酸
(DNA)
结合
、
核苷酸结合
、
区域
、
卷曲螺旋
、
基序和组成偏倚
。30.
根据权利要求
27
至
29
中任一项所述的系统,其中所述注释通道是位点注释,所述位点注释包括活性位点
、
金属结合
、
结合位点和位点
。31.
根据权利要求
27
至
30
中任一项所述的系统,其中所述注释通道是氨基酸修饰注释,所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。