使用三维(制造技术

技术编号:39678490 阅读:7 留言:0更新日期:2023-12-11 18:55
本发明专利技术所公开的技术涉及确定变体的致病性

【技术实现步骤摘要】
【国外来华专利技术】deep neural networks.Nat.Genet.

50,1161

1170(2018)

[0012]Jaganathan,K.
等人,
Predicting splicing from primary sequence with deep learning.Cell 176,535

548(2019)

[0013]2017

10

16
日提交的名称为“TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE

SCALE BENIGN TRAINING DATA”的美国专利申请号
62/573,144(
代理人案卷号
ILLM 1000

1/IP

1611

PRV)

[0014]2017

10

16
日提交的名称为“PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国专利申请号
62/573,149(
代理人案卷号
ILLM 1000

2/IP

1612

PRV)

[0015]2017

10

16
日提交的名称为“DEEP SEMI

SUPERVISED LEARNING THAT GENERATES LARGE

SCALE PATHOGENIC TRAINING DATA”的美国专利申请号
62/573,153(
代理人案卷号
ILLM 1000

3/IP

1613

PRV)

[0016]2017

11
月7日提交的名称为“PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)”的美国专利申请号
62/582,898(
代理人案卷号
ILLM 1000

4/IP

1618

PRV)

[0017]2018

10

15
日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国专利申请号
16/160,903(
代理人案卷号
ILLM 1000

5/IP

1611

US)

[0018]2018

10

15
日提交的名称为“DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION”的美国专利申请号
16/160,986(
代理人案卷号
ILLM 1000

6/IP

1612

US)

[0019]2018

10

15
日提交的名称为“SEMI

SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国专利申请号
16/160,968(
代理人案卷号
ILLM 1000

7/IP

1613

US)
;以及
[0020]2019
年5月8日提交的名称为“DEEP LEARNING

BASED TECHNIQUES FOR PRE

TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS”的美国专利申请号
16/407,149(
代理人案卷号
ILLM 1010

1/IP

1734

US)。

技术介绍

[0021]本部分中讨论的主题不应仅因为在本部分中有提及就被认为是现有技术

类似地,在本部分中提及的或与作为
技术介绍
提供的主题相关联的问题不应被认为先前在现有技术中已被认识到

本部分中的主题仅表示不同的方法,这些方法本身也可对应于受权利要求书保护的技术的具体实施

[0022]基因组学在广义上也称为功能基因组学,其目的是通过使用基因组规模的测定
(
诸如基因组测序

转录组谱分析和蛋白质组学
)
来表征生物体的每种基因组元件的功能

基因组学作为数据驱动的科学出现

其通过从基因组规模数据的探索中发现新特性而不是通过测试预先设想的模型和假设来运作

基因组学的应用包括发现基因型与表型之间的关联

发现用于患者分层的生物标志物

预测基因功能,以及绘制有生化活性的基因组区域
(
诸如转录增强子
)
的图表

[0023]基因组学数据太大太复杂,以至于不能仅通过可视化研究成对相关来挖掘

相反,需要分析工具来支持发现未预料到的关系,以导出新的假设和模型,并进行预测

机器学习算法与假设和领域专业知识被硬编码的一些算法不同,被设计成自动检测数据中的模式

因此,机器学习算法适合于数据驱动的科学,尤其适合于基因组学

然而,机器学习算法的性能可能强烈依赖于如何表示数据,也就是说,如何计算每个变量
(
也称为特征
)。
例如,为了从荧光显微镜图像中将肿瘤分类为恶性或良性,预处理算法可以检测细胞

识别细胞类型,以及生成针对每种细胞类型的细胞计数列表

[0024]机器学习模型可以将估计的细胞计数
(
是手工特征的实例
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种系统,包括:存储器,所述存储器存储蛋白质中多个氨基酸的氨基酸式距离通道,其中所述氨基酸式距离通道中的每个氨基酸式距离通道具有多个体素中的体素的体素式距离值,并且其中所述体素式距离值指定从所述多个体素中的对应体素到所述多个氨基酸中的对应氨基酸的原子的距离;以及致病性测定引擎,所述致病性测定引擎被配置为处理包括所述氨基酸式距离通道和由变体表达的所述蛋白质的替代性等位基因氨基酸的张量,以及至少部分地基于所述张量来确定所述变体的致病性
。2.
根据权利要求1所述的系统,还包括距离通道生成器,所述距离通道生成器将所述体素的体素网格中心定位在所述氨基酸的相应残基的
α

碳原子上
。3.
根据权利要求2所述的系统,其中所述距离通道生成器将所述体素网格中心定位在位于所述蛋白质中的变体氨基酸处的特定氨基酸残基的
α

碳原子上
。4.
根据权利要求1至3中任一项所述的系统,进一步被配置为通过将所述特定氨基酸之前的那些氨基酸的体素式距离值乘以方向性参数,来在所述张量中编码所述氨基酸的方向性和所述特定氨基酸的位置
。5.
根据权利要求1至4中任一项所述的系统,其中所述距离是从所述体素网格中的对应体素中心到所述对应氨基酸的最接近原子的最接近原子距离
。6.
根据权利要求5所述的系统,其中所述最接近原子距离是欧几里得距离
。7.
根据权利要求5或6所述的系统,其中所述最接近原子距离通过将所述欧几里得距离除以最大最接近原子距离来归一化
。8.
根据权利要求1至7中任一项所述的系统,其中所述氨基酸具有
α

碳原子,其中所述距离是从所述对应体素中心到所述对应氨基酸的最接近
α

碳原子的最接近
α

碳原子距离
。9.
根据权利要求1至8中任一项所述的系统,其中所述氨基酸具有
β

碳原子,其中所述距离是从所述对应体素中心到所述对应氨基酸的最接近
β

碳原子的最接近
β

碳原子距离
。10.
根据权利要求1至9中任一项所述的系统,其中所述氨基酸具有主链原子,其中所述距离是从所述对应体素中心到所述对应氨基酸的最接近主链原子的最接近主链原子距离
。11.
根据权利要求1至
10
中任一项所述的系统,其中所述氨基酸具有侧链原子,其中所述距离是从所述对应体素中心到所述对应氨基酸的最接近侧链原子的最接近侧链原子距离
。12.
根据权利要求1至
11
中任一项所述的系统,进一步被配置为在所述张量中编码最接近原子通道,所述最接近原子通道指定从每个体素到最接近原子的距离,其中选择所述最接近原子而不考虑所述氨基酸和所述氨基酸的原子元素
。13.
根据权利要求
12
所述的系统,其中所述距离是欧几里得距离
。14.
根据权利要求
12

13
所述的系统,其中所述距离通过将所述欧几里得距离除以最大距离来归一化
。15.
根据权利要求
12

14
中任一项所述的系统,其中所述氨基酸包括非标准氨基酸
。16.
根据权利要求1至
15
中任一项所述的系统,其中所述张量还包括指定未在体素中心
的预定义半径内找到的原子的缺席原子通道,其中所述缺席原子通道是独热编码的
。17.
根据权...

【专利技术属性】
技术研发人员:T
申请(专利权)人:因美纳剑桥有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1